- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais (anteriormente entidades)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Crie ou exclua uma fonte de dados no GUI
- Carregar um arquivo CSV para uma origem
- Preparando dados para carregamento de .CSV
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Compreensão dos requisitos de dados
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Informações de licenciamento
- Perguntas frequentes e mais
Guia do usuário do Communications Mining
Compreensão dos requisitos de dados
Este artigo oferece diretrizes para os volumes de dados de comunicação necessários para otimizar a experiência de treinamento e maximizar o valor fornecido pela análise e automação.
- Retorno sobre o investimento (ROI)
- Complexidade
- Limites técnicos
Para tirar o máximo proveito do seu Communications Mining™. , recomendamos começar com casos de uso de alto volume. Esses casos se beneficiam da capacidade do Communications Mining de processar grandes quantidades de dados de mensagens de forma eficiente, tanto para análise de histórico e monitoramento ao vivo, quanto para automações.
O esforço necessário para implantar um caso de uso não aumenta significativamente com volumes maiores de mensagens. Portanto, casos de uso de alto volume tendem a oferecer um melhor retorno do investimento em termos de esforço de implementação em comparação com casos de uso de menor volume. Isso é importante para organizações com recursos limitados ou aquelas que exigem suporte externo para a implementação.
No entanto, se você tiver cenários de menor volume com alto valor de negócios, também deve considerar esses casos de uso. Muitos casos de uso de baixo volume são tecnicamente viáveis e não devem ser descartados.
Muitos casos de uso têm um nível de complexidade — em termos do número e complexidade dos rótulos e campos a serem extraídos — que não é adequado para volumes muito baixos de mensagens. Isso ocorre porque pode haver exemplos insuficientes no conjunto de dados de conceitos ou campos variados e complexos para ajustar e validar com eficiência os modelos especializados do Communications Mining. Isso se aplica ao treinamento automatizado fornecido pela anotação generativa e a outros exemplos anotados por treinadores de modelos.
Embora alguns casos de uso possam ser tecnicamente viáveis e tenham exemplos suficientes, volumes menores às vezes podem resultar em uma experiência de anotação pior para os treinadores do modelo. Um pool de dados maior facilita para os modos de aprendizado ativos do Communications Mining identificar e revelar exemplos úteis para anotar. Um pequeno pool de dados pode criar menos exemplos de qualidade em toda a taxonomia. Menos exemplos de qualidade fazem com que os usuários precisem anotar exemplos elusivos ou mais complexos.
Antes de prosseguir com a qualificação e implementação de um caso de uso com base nas considerações baseadas na complexidade e no ROI, é importante considerar os limites técnicos do Communications Mining.
Para gerar clusters, o Communications Mining requer um mínimo de 2048 mensagens em um conjunto de dados (que pode ser composto de várias origens semelhantes). Conjuntos de dados menores que 2048 mensagens permitem que você use todos os recursos do Comms Mining, além de clusters e sugestões de rótulos gerados para clusters.
Os casos de uso com menos de 2048 mensagens devem ser muito simples em termos do número e complexidade dos rótulos/campos. Também é de se esperar que uma proporção muito maior do total de mensagens precise ser anotada para fins de ajuste fino e validação, em comparação com os casos de uso de maior volume. É provável que haja exemplos insuficientes para anotar para alguns rótulos e/ou campos se eles não estiverem ocorrendo com frequência.
Para garantir dados de validação significativos, o Communications Mining também espera um mínimo de 25 exemplos anotados por rótulo e campo. Portanto, é importante que você possa obter pelo menos esse número de exemplos dos dados disponíveis.
As seguintes recomendações referem-se a casos de uso com menor volume de dados, mas alto valor e/ou baixa complexidade.
Geralmente, os casos de uso devem funcionar conforme o esperado se sua complexidade se alinhar com o volume de dados da mensagem. Os casos de uso de volume muito baixo normalmente devem ser muito simples, enquanto os casos de uso de alto volume podem ser mais complexos.
Em alguns casos, a sincronização de mais de um ano de dados históricos pode ajudar na obtenção de exemplos de qualidade suficientes para o treinamento. Isso também oferece o benefício de uma análise maior em termos de tendências e alertas.
Os casos de uso com menos de 20.000 mensagens (em termos de volumes históricos ou taxa de transferência anual) devem ser cuidadosamente considerados em termos de complexidade, ROI e esforço necessário para suportar e habilitar o caso de uso. Embora haja uma chance de que tais casos de uso possam ser desqualificados com base nessas considerações, eles ainda podem fornecer valor de negócios suficiente para prosseguir.
Cada caso de uso é único, portanto, não há uma única diretriz que atenda a todos os cenários de complexidade. Os rótulos e campos em si podem variar de muito simples a complexos em termos de compreensão e extração.
A tabela a seguir descreve diretrizes aproximadas para a complexidade dos casos de uso.
Complexidade | Rótulos | Campos de extração | Campos gerais |
---|---|---|---|
Muito baixa | ~ 2-5 | N/A | 1-2 |
Baixa | ~ 5 - 15 | 1 - 2 para alguns rótulos | 1-3 |
Médio | 15 – 50 | 1 - 5 para vários rótulos | 1 – 5 * |
Alta | 50+ | 1 - 8+ para uma alta proporção de rótulos | 1 – 5 * |
* Os casos de uso com campos de extração devem depender desses em vez de campos gerais. Se você não estiver usando campos de extração, pode esperar campos mais gerais, mas eles podem não adicionar um valor equivalente.
Nº de Mensagens * | Limitações | Recomendação |
---|---|---|
menor que |
| Deve ser apenas:
|
2048 - 20.000 |
|
Deve ser principalmente:
|
20.000 – 50.000 |
|
Deve ser principalmente:
|
Os volumes de dados históricos dos quais os exemplos de treinamento serão obtidos normalmente têm apenas uma pequena proporção dos volumes totais anotados. Essa proporção geralmente é maior em casos de uso de menor volume e maior complexidade.