- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais (anteriormente entidades)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Crie uma origem de dados na GUI
- Carregar um arquivo CSV para uma origem
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Excluir uma origem
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Preparando dados para carregamento de .CSV
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Informações de licenciamento
- Perguntas frequentes e mais
Understanding data requirements
The following recommendations concern use cases with lower data volume, but high value and/or low complexity.
Generally, use cases should function as expected if their complexity aligns with the volume of message data. Very low volume use cases should typically be very simple, while high volume use cases can be more complex.
In some instances, synchronizing more than one year's worth of historical data can help in sourcing sufficient quality examples for training. This also provides the benefit of greater analytics in terms of trends and alerts.
Use cases with fewer than 20,000 messages (in terms of historical volumes or annual throughput) should be carefully considered in terms of complexity, ROI, and the effort required to support and enable the use case. While there is a chance that such use cases may be disqualified based on these considerations, they can still provide sufficient business value to proceed with.
Every use case is unique, so there isnot a single guideline that fits all complexity scenarios. The labels and fields themselves can range from very simple to complex in terms of understanding and extraction.
The following table outlines rough guidelines for use case complexity.
Complexity | Rótulos | Extraction Fields | Campos gerais |
---|---|---|---|
Very Low | ~ 2-5 | N/A | 1-2 |
Baixa | ~ 5 - 15 | 1 - 2 for a few labels | 1 - 3 |
Médio | 15 - 50 | 1 - 5 for multiple labels | 1 - 5 * |
Alta | 50+ | 1 - 8+ for high proportion of labels | 1 - 5 * |
* Use cases with extraction fields should rely on these rather than general fields. If you are not using extraction fields, you can expect more general fields, but they may not add equivalent value.
# of Messages * | Limitações | Recomendação |
---|---|---|
menor que |
| Should only be:
|
2048 - 20,000 |
|
Should primarily be:
|
20,000 - 50,000 |
|
Should primarily be:
|
Historical data volumes from which training examples will be sourced typically have only a small proportion of total volumes annotated. This proportion is usually higher on lower volume and higher complexity use cases.