Guia do usuário do Communications Mining

Última atualização 20 de dez de 2024

Compreensão dos requisitos de dados

Visão geral

Este artigo oferece diretrizes para os volumes de dados de comunicação necessários para otimizar a experiência de treinamento e maximizar o valor fornecido pela análise e automação.

Quando decidir a quantidade de dados para seu caso de uso, considere os seguintes fatores:

Retorno sobre o investimento (ROI)
Complexidade
Limites técnicos

Importante: os volumes de dados recomendados nesta seção não são os volumes de dados esperados que você precisará anotar para garantir o desempenho para seu caso de uso. Em vez disso, esses volumes representam os dados históricos normalmente necessários para obter exemplos de treinamento suficientes e variados. Geralmente, apenas uma pequena proporção dos volumes totais de mensagens precisam ser anotadas para fins de ajuste fino e validação.

Retorno do investimento

Para tirar o máximo proveito do seu Communications Mining™. , recomendamos começar com casos de uso de alto volume. Esses casos se beneficiam da capacidade do Communications Mining de processar grandes quantidades de dados de mensagens de forma eficiente, tanto para análise de histórico e monitoramento ao vivo, quanto para automações.

O esforço necessário para implantar um caso de uso não aumenta significativamente com volumes maiores de mensagens. Portanto, casos de uso de alto volume tendem a oferecer um melhor retorno do investimento em termos de esforço de implementação em comparação com casos de uso de menor volume. Isso é importante para organizações com recursos limitados ou aquelas que exigem suporte externo para a implementação.

No entanto, se você tiver cenários de menor volume com alto valor de negócios, também deve considerar esses casos de uso. Muitos casos de uso de baixo volume são tecnicamente viáveis e não devem ser descartados.

Complexidade

Muitos casos de uso têm um nível de complexidade — em termos do número e complexidade dos rótulos e campos a serem extraídos — que não é adequado para volumes muito baixos de mensagens. Isso ocorre porque pode haver exemplos insuficientes no conjunto de dados de conceitos ou campos variados e complexos para ajustar e validar com eficiência os modelos especializados do Communications Mining. Isso se aplica ao treinamento automatizado fornecido pela anotação generativa e a outros exemplos anotados por treinadores de modelos.

Embora alguns casos de uso possam ser tecnicamente viáveis e tenham exemplos suficientes, volumes menores às vezes podem resultar em uma experiência de anotação pior para os treinadores do modelo. Um pool de dados maior facilita para os modos de aprendizado ativos do Communications Mining identificar e revelar exemplos úteis para anotar. Um pequeno pool de dados pode criar menos exemplos de qualidade em toda a taxonomia. Menos exemplos de qualidade fazem com que os usuários precisem anotar exemplos elusivos ou mais complexos.

Limites técnicos

Antes de prosseguir com a qualificação e implementação de um caso de uso com base nas considerações baseadas na complexidade e no ROI, é importante considerar os limites técnicos do Communications Mining.

Para gerar clusters, o Communications Mining requer um mínimo de 2048 mensagens em um conjunto de dados (que pode ser composto de várias origens semelhantes). Conjuntos de dados menores que 2048 mensagens permitem que você use todos os recursos do Comms Mining, além de clusters e sugestões de rótulos gerados para clusters.

Os casos de uso com menos de 2048 mensagens devem ser muito simples em termos do número e complexidade dos rótulos/campos. Também é de se esperar que uma proporção muito maior do total de mensagens precise ser anotada para fins de ajuste fino e validação, em comparação com os casos de uso de maior volume. É provável que haja exemplos insuficientes para anotar para alguns rótulos e/ou campos se eles não estiverem ocorrendo com frequência.

Para garantir dados de validação significativos, o Communications Mining também espera um mínimo de 25 exemplos anotados por rótulo e campo. Portanto, é importante que você possa obter pelo menos esse número de exemplos dos dados disponíveis.

Recomendações para volumes de dados menores

As seguintes recomendações referem-se a casos de uso com menor volume de dados, mas alto valor e/ou baixa complexidade.

Geralmente, os casos de uso devem funcionar conforme o esperado se sua complexidade se alinhar com o volume de dados da mensagem. Os casos de uso de volume muito baixo normalmente devem ser muito simples, enquanto os casos de uso de alto volume podem ser mais complexos.

Em alguns casos, a sincronização de mais de um ano de dados históricos pode ajudar na obtenção de exemplos de qualidade suficientes para o treinamento. Isso também oferece o benefício de uma análise maior em termos de tendências e alertas.

Os casos de uso com menos de 20.000 mensagens (em termos de volumes históricos ou taxa de transferência anual) devem ser cuidadosamente considerados em termos de complexidade, ROI e esforço necessário para suportar e habilitar o caso de uso. Embora haja uma chance de que tais casos de uso possam ser desqualificados com base nessas considerações, eles ainda podem fornecer valor de negócios suficiente para prosseguir.

Diretrizes de complexidade de caso de uso

Cada caso de uso é único, portanto, não há uma única diretriz que atenda a todos os cenários de complexidade. Os rótulos e campos em si podem variar de muito simples a complexos em termos de compreensão e extração.

A tabela a seguir descreve diretrizes aproximadas para a complexidade dos casos de uso.

Tabela 1. Diretrizes de complexidade de caso de uso
Complexidade	Rótulos	Campos de extração	Campos gerais
Muito baixa	~ 2-5	N/A	1-2
Baixa	~ 5 - 15	1 - 2 para alguns rótulos	1-3
Médio	15 – 50	1 - 5 para vários rótulos	1 – 5 *
Alta	50+	1 - 8+ para uma alta proporção de rótulos	1 – 5 *

* Os casos de uso com campos de extração devem depender desses em vez de campos gerais. Se você não estiver usando campos de extração, pode esperar campos mais gerais, mas eles podem não adicionar um valor equivalente.

Summary

A seguinte tabela de resumo descreve diretrizes aproximadas para casos de uso com poucos dados:

Tabela 2.
Nº de Mensagens *	Limitações	Recomendação
menor que 2048	Sem clusters e sugestões de rótulos Dados insuficientes para que algumas análises sejam significativas Provável que seja um ROI mínimo	Deve ser apenas: Teste
2048 - 20.000	Provavelmente terá um valor mais limitado com o aprendizado ativo devido aos volumes menores Deve haver dados insuficientes para compatibilidade com casos de uso complexos Mais probabilidade de ter ROI baixo	Deve ser principalmente: POCs Casos de uso de baixa complexidade Casos de uso de migração do AI Center
20.000 – 50.000	Dados potencialmente insuficientes para casos de uso muito complexos (pelo menos alguns campos/rótulos complexos) ROI potencialmente menor, dependendo da complexidade	Deve ser principalmente: Casos de uso de baixa complexidade Alguns Casos de Uso de Alta Complexidade Casos de uso de migração do AI Center

Os volumes de dados históricos dos quais os exemplos de treinamento serão obtidos normalmente têm apenas uma pequena proporção dos volumes totais anotados. Essa proporção geralmente é maior em casos de uso de menor volume e maior complexidade.

Nesta página