ixp
latest
false
UiPath logo, featuring letters U and I in white

Guia do usuário do Communications Mining

Última atualização 10 de nov de 2025

Compreensão dos requisitos de dados

Visão geral

Esta seção oferece diretrizes para os volumes de dados de comunicação necessários para otimizar a experiência de treinamento e maximizar o valor que a análise e a automação fornecem.

Quando decidir a quantidade de dados para seu caso de uso, considere os seguintes fatores:

  • Retorno sobre o investimento (ROI)
  • Complexidade
  • Limites técnicos

Important: The data volumes recommended in this section are not the expected volumes of data that you will need to annotate to ensure performance for your use case. Instead, these volumes represent the relevant data required to source sufficient and varied training examples. Generally, only a small proportion of the total message volumes need to be annotated for fine-tuning and validation purposes.

Retorno do investimento

Para tirar o máximo proveito da sua implementação do Communications Mining™, recomendamos começar com casos de uso de alto volume. Esses casos se beneficiam da capacidade do Communications Mining de processar grandes quantidades de dados de mensagens de forma eficiente, tanto para análise histórica e monitoramento ao vivo, bem como para automações.

O esforço necessário para implantar um caso de uso não aumenta significativamente com volumes maiores de mensagens. Portanto, casos de uso de alto volume tendem a oferecer um melhor retorno do investimento em termos de esforço de implementação em comparação com casos de uso de menor volume. Isso é importante para organizações com recursos limitados ou aquelas que exigem suporte externo para a implementação.

No entanto, se você tiver cenários de menor volume com alto valor de negócios, também deve considerar esses casos de uso. Muitos casos de uso de baixo volume são tecnicamente viáveis e não devem ser descartados.

Complexidade

Muitos casos de uso têm um nível de complexidade, em termos do número e complexidade de rótulos e campos a serem extraídos, que não é adequado para volumes muito baixos de mensagens. Isso ocorre porque pode haver exemplos insuficientes no conjunto de dados de conceitos ou campos variados e complexos para ajustar e validar com eficiência os modelos especializados do Communications Mining™. Isso se aplica ao treinamento automatizado fornecido pela anotação generativa e a outros exemplos anotados por treinadores de modelos.

Embora alguns casos de uso possam ser tecnicamente viáveis e tenham exemplos suficientes, volumes menores às vezes podem resultar em uma experiência de anotação pior para treinadores de modelos. Um pool de dados maior facilita para os modos de aprendizado ativos do Communications Mining identificar e revelar exemplos úteis para anotar. Um pequeno pool de dados pode criar menos exemplos de qualidade em toda a taxonomia. Menos exemplos de qualidade fazem com que os usuários dependam da anotação de exemplos elusivos ou mais complexos.

Limites técnicos

Antes de prosseguir com a qualificação e implementação de um caso de uso com base nas considerações baseadas na complexidade e ROI, você deve considerar as limitações técnicas do Communications Mining™.

Para gerar clusters, o Communications Mining requer um mínimo de 2048 mensagens em um conjunto de dados, que pode ser composto de várias origens semelhantes. Os conjuntos de dados menores que 2048 mensagens permitem que você use todas as funcionalidades do Communications Mining, além de clusters e sugestões de rótulos geradas para clusters.

Os casos de uso com menos de 2048 mensagens devem ser muito simples em termos de número e complexidade de rótulos ou campos. Você também deve esperar anotar uma proporção muito maior de mensagens totais para fins de ajuste fino e validação em comparação com casos de uso de volume maior. É provável que haja exemplos insuficientes para anotar para alguns rótulos ou campos, ou ambos, se não ocorrerem com frequência.

Para garantir dados de validação significativos, o Communications Mining também espera um mínimo de 25 exemplos anotados por rótulo e campo. Portanto, certifique-se de obter pelo menos este número de exemplos dos dados disponíveis.

Recomendações para volumes de dados menores

As recomendações a seguir envolvem casos de uso com volume de dados menor, mas alto valor ou baixa complexidade, ou ambos.

Geralmente, os casos de uso devem funcionar como esperado se sua complexidade estiver alinhada com o volume de dados da mensagem. Os casos de uso de muito baixo volume devem ser muito simples, enquanto os casos de uso de alto volume podem ser mais complexos.

In some instances, synchronizing more than one year of relevant data can help source sufficient quality examples for training. This also provides the benefit of greater analytics in terms of trends and alerts.

Note: Relevant data means:
  • Data that is not too old, for example, over two years old.
  • Data that is relevant to your use case. For example, if outbound emails are not relevant to you, the system should not count them.

Use cases with fewer than 20,000 messages, in terms of historical volumes or annual throughout, should be carefully considered in terms of complexity, ROI, and the effort required to support and enable the use case. While there is a chance that such use cases may be disqualified based on these considerations, they can still provide sufficient business value to proceed with.

Diretrizes de complexidade de caso de uso

Cada caso de uso é único, portanto, não há uma única diretriz que atenda a todos os cenários de complexidade. Os rótulos e campos em si podem variar de muito simples a complexos em termos de compreensão e extração.

A tabela a seguir descreve diretrizes aproximadas para a complexidade dos casos de uso.

ComplexidadeRótulosCampos de extraçãoCampos gerais
Muito baixaaproximadamente 2 - 5N/A1-2
Baixaaproximadamente 5 - 151 - 2 para alguns rótulos1-3
Médioentre 15 e 501 - 5 para vários rótulos1 – 5 *
Altamais de 501 a 8 ou mais para alta proporção de rótulos1 – 5 *

* Os casos de uso com campos de extração devem depender desses em vez de campos gerais. Se você não estiver usando campos de extração, pode esperar campos mais gerais, mas eles podem não adicionar um valor equivalente.

Summary

A tabela de resumo a seguir descreve algumas diretrizes para casos de uso de poucos dados:
Tabela 1.
O número de Mensagens *LimitaçõesRecomendação
Menor que 2048
  • Sem sugestões de clusters e rótulo.
  • Dados insuficientes para que algumas análises sejam significativas.
  • Provável que seja um ROI mínimo.
Deve ser apenas:
  • Teste
2048 - 20.000
  • É provável que o valor do aprendizado ativo seja mais limitado devido a volumes menores.
  • É provável que os dados não sejam suficientes para dar suporte a casos de uso complexos.
  • É mais provável que o ROI seja baixo.

Deve ser principalmente:

  • POCs
  • Casos de uso de baixa complexidade
  • Casos de uso de migração do AI Center
20.000 – 50.000
  • Dados potencialmente insuficientes para casos de uso muito complexos, pelo menos alguns campos ou rótulos complexos.
  • ROI potencialmente mais baixo, dependendo da complexidade.

Deve ser principalmente:

  • Casos de uso de baixa complexidade
  • Alguns Casos de Uso de Alta Complexidade
  • Casos de uso de migração do AI Center

*relevant data volumes from which training examples will be sourced typically have only a small proportion of total volumes annotated. This proportion is usually higher on lower volume and higher complexity use cases.

  • Visão geral
  • Retorno do investimento
  • Complexidade
  • Limites técnicos
  • Recomendações para volumes de dados menores
  • Diretrizes de complexidade de caso de uso
  • Summary

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo
Confiança e segurança
© 2005-2025 UiPath. Todos os direitos reservados.