- Introdução
- Configurando sua conta
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais
- Rótulos (previsões, níveis de confiança, hierarquia do rótulo e sentimento do rótulo)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens anotadas e não anotadas
- Campos de extração
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Controle de acesso e administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Criando ou excluindo uma origem de dados na GUI
- Preparando dados para carregamento de .CSV
- Carregar um arquivo CSV para uma origem
- Criação de um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Como corrigir as configurações do conjunto de dados
- Excluindo uma mensagem
- Exclusão de um conjunto de dados
- Exportação de um conjunto de dados
- Usando integrações do Exchange
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulos e práticas recomendadas
- Comparação de casos de uso de análise e automação
- Transformando seus objetivos em rótulos
- Visão geral do processo de treinamento do modelo
- Anotação generativa
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Compreensão dos requisitos de dados
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como a validação funciona
- Compreender e melhorar o desempenho do modelo
- Motivos para baixa precisão média do rótulo
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining™
- Desenvolvedor
- Carregamento de dados
- Baixando dados
- Integração do Exchange com usuário do serviço do Azure
- Integração do Exchange com Autenticação de Aplicativo do Azure
- Integração do Exchange com Autenticação de aplicativo e gráfico do Azure
- Como buscar dados para o Tableau com o Python
- Integração do Elasticsearch
- Extração de campo geral
- Integração auto-hospedada do Exchange
- Framework de automação da UiPath®
- Atividades oficiais da UiPath®
- Como as máquinas aprendem a entender as palavras: um guia para incorporações ao NLP
- Aprendizado baseado em solicitação com Transformers
- Efficient Transformers II: extração de conhecimento e ajustes finos
- Transformers eficientes I: mecanismos de atenção
- Modelagem de intenção hierárquica profunda não supervisionada: obtenção de valor sem dados de treinamento
- Corrigindo viés de anotação com o Communications Mining™
- Aprendizado ativo: melhores modelos de ML em menos tempo
- Está tudo nos números - avaliando o desempenho do modelo com métricas
- Por que a validação de modelos é importante
- Comparação do Communications Mining™ e do Google AutoML para inteligência de dados de conversa
- Licenciamento
- Perguntas frequentes e mais

Guia do usuário do Communications Mining
Esta seção oferece diretrizes para os volumes de dados de comunicação necessários para otimizar a experiência de treinamento e maximizar o valor que a análise e a automação fornecem.
Quando decidir a quantidade de dados para seu caso de uso, considere os seguintes fatores:
- Retorno sobre o investimento (ROI)
- Complexidade
- Limites técnicos
Retorno do investimento
Para tirar o máximo proveito da sua implementação do Communications Mining™, recomendamos começar com casos de uso de alto volume. Esses casos se beneficiam da capacidade do Communications Mining de processar grandes quantidades de dados de mensagens de forma eficiente, tanto para análise histórica e monitoramento ao vivo, bem como para automações.
O esforço necessário para implantar um caso de uso não aumenta significativamente com volumes maiores de mensagens. Portanto, casos de uso de alto volume tendem a oferecer um melhor retorno do investimento em termos de esforço de implementação em comparação com casos de uso de menor volume. Isso é importante para organizações com recursos limitados ou aquelas que exigem suporte externo para a implementação.
No entanto, se você tiver cenários de menor volume com alto valor de negócios, também deve considerar esses casos de uso. Muitos casos de uso de baixo volume são tecnicamente viáveis e não devem ser descartados.
Complexidade
Muitos casos de uso têm um nível de complexidade, em termos do número e complexidade de rótulos e campos a serem extraídos, que não é adequado para volumes muito baixos de mensagens. Isso ocorre porque pode haver exemplos insuficientes no conjunto de dados de conceitos ou campos variados e complexos para ajustar e validar com eficiência os modelos especializados do Communications Mining™. Isso se aplica ao treinamento automatizado fornecido pela anotação generativa e a outros exemplos anotados por treinadores de modelos.
Embora alguns casos de uso possam ser tecnicamente viáveis e tenham exemplos suficientes, volumes menores às vezes podem resultar em uma experiência de anotação pior para treinadores de modelos. Um pool de dados maior facilita para os modos de aprendizado ativos do Communications Mining identificar e revelar exemplos úteis para anotar. Um pequeno pool de dados pode criar menos exemplos de qualidade em toda a taxonomia. Menos exemplos de qualidade fazem com que os usuários dependam da anotação de exemplos elusivos ou mais complexos.
Limites técnicos
Antes de prosseguir com a qualificação e implementação de um caso de uso com base nas considerações baseadas na complexidade e ROI, você deve considerar as limitações técnicas do Communications Mining™.
Para gerar clusters, o Communications Mining requer um mínimo de 2048 mensagens em um conjunto de dados, que pode ser composto de várias origens semelhantes. Os conjuntos de dados menores que 2048 mensagens permitem que você use todas as funcionalidades do Communications Mining, além de clusters e sugestões de rótulos geradas para clusters.
Os casos de uso com menos de 2048 mensagens devem ser muito simples em termos de número e complexidade de rótulos ou campos. Você também deve esperar anotar uma proporção muito maior de mensagens totais para fins de ajuste fino e validação em comparação com casos de uso de volume maior. É provável que haja exemplos insuficientes para anotar para alguns rótulos ou campos, ou ambos, se não ocorrerem com frequência.
Para garantir dados de validação significativos, o Communications Mining também espera um mínimo de 25 exemplos anotados por rótulo e campo. Portanto, certifique-se de obter pelo menos este número de exemplos dos dados disponíveis.
As recomendações a seguir envolvem casos de uso com volume de dados menor, mas alto valor ou baixa complexidade, ou ambos.
Geralmente, os casos de uso devem funcionar como esperado se sua complexidade estiver alinhada com o volume de dados da mensagem. Os casos de uso de muito baixo volume devem ser muito simples, enquanto os casos de uso de alto volume podem ser mais complexos.
In some instances, synchronizing more than one year of relevant data can help source sufficient quality examples for training. This also provides the benefit of greater analytics in terms of trends and alerts.
- Data that is not too old, for example, over two years old.
- Data that is relevant to your use case. For example, if outbound emails are not relevant to you, the system should not count them.
Use cases with fewer than 20,000 messages, in terms of historical volumes or annual throughout, should be carefully considered in terms of complexity, ROI, and the effort required to support and enable the use case. While there is a chance that such use cases may be disqualified based on these considerations, they can still provide sufficient business value to proceed with.
Diretrizes de complexidade de caso de uso
Cada caso de uso é único, portanto, não há uma única diretriz que atenda a todos os cenários de complexidade. Os rótulos e campos em si podem variar de muito simples a complexos em termos de compreensão e extração.
A tabela a seguir descreve diretrizes aproximadas para a complexidade dos casos de uso.
| Complexidade | Rótulos | Campos de extração | Campos gerais |
|---|---|---|---|
| Muito baixa | aproximadamente 2 - 5 | N/A | 1-2 |
| Baixa | aproximadamente 5 - 15 | 1 - 2 para alguns rótulos | 1-3 |
| Médio | entre 15 e 50 | 1 - 5 para vários rótulos | 1 – 5 * |
| Alta | mais de 50 | 1 a 8 ou mais para alta proporção de rótulos | 1 – 5 * |
* Os casos de uso com campos de extração devem depender desses em vez de campos gerais. Se você não estiver usando campos de extração, pode esperar campos mais gerais, mas eles podem não adicionar um valor equivalente.
Summary
| O número de Mensagens * | Limitações | Recomendação |
|---|---|---|
| Menor que 2048 |
| Deve ser apenas:
|
| 2048 - 20.000 |
|
Deve ser principalmente:
|
| 20.000 – 50.000 |
|
Deve ser principalmente:
|
*relevant data volumes from which training examples will be sourced typically have only a small proportion of total volumes annotated. This proportion is usually higher on lower volume and higher complexity use cases.