- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais (anteriormente entidades)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Crie uma origem de dados na GUI
- Carregar um arquivo CSV para uma origem
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Excluir uma origem
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Preparando dados para carregamento de .CSV
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Informações de licenciamento
- Perguntas frequentes e mais
Hierarquia de rótulo e práticas recomendadas
Antes de iniciar o treinamento do modelo, émuito importante entender como abordar a criação de sua taxonomia, incluindo nomear e estruturar seus rótulos e o que esses rótulos devem realmente capturar. Este artigo abordará cada um desses tópicos, começando com a nomenclatura dos rótulos.
O seguinte artigo discutirá por que é tão importante estruturar sua taxonomia adequadamente para atender a seus objetivos de negócios (aqui).
Decidir nomes para seus rótulos pode parecer uma tarefa tentadora ou demorada - mas não precisa ser.
Para começar, não importa qual seja o nome de um rótulo; para nossos modelos, o nome do rótulo em si é apenas um número. O que é importante é que o nome do rótulo atenda a um propósito comercial e seja uma descrição útil do conceito específico que se destina a capturar.
Você pode renomear rótulos a qualquer momento (veja como), bem como adicionar níveis de hierarquia quando necessário, portanto, não perca muito tempo ao construir seu modelo pela primeira vez pensando no nome perfeito.
Parte da nomeação de um rótulo determina sua hierarquia dentro da sua taxonomia. Os rótulos podem ter vários níveis de hierarquia, simplesmente separados por “>“, para capturar quando um conceito de rótulo é um subconjunto de um conceito pai mais amplo.
Então, as possíveis estruturas de rótulos podem ter a seguinte aparência (veja também o exemplo na imagem abaixo):
- [Rótulo Principal]
- [Rótulo Pai] > [Rótulo Filho]
- [Rótulo Pai] > [Rótulo da Ramificação] > [Rótulo Filho]
Você pode adicionar mais de três níveis de hierarquia, mas não recomendamos fazer isso com frequência, pois fica cada vez mais complexo treinar. Pode ser necessário em certos casos, mas não deve ser considerado uma prática recomendada.
Conceitualmente, é importante que todo rótulo aninhado sob outro rótulo seja um subconjunto do rótulo acima dele. Esse aninhamento (nível de hierarquia) é criado usando um ">" ao digitar o nome do rótulo.
O visual abaixo ilustra esse ponto usando um diagrama de Venn:
Novamente, é possível adicionar níveis adicionais de hierarquia renomeando seus rótulos mais tarde no processo de treinamento do modelo.
Para entender isso, vamos usar o 'Children Label X ' do visual acima como um exemplo.
Quando o modelo prevê que o "Rótulo filho X" se aplica a uma mensagem, ele também está prevêndo que "Rótulo de ramificação C " e "Rótulo pai 1 " também estão sendo aplicados. Isso ocorre porque o "Child Label X" é um subconjunto desses.
Entretanto, à medida que cada nível de hierarquia adiciona um nível cada vez maior de especificidade, o modelo pode ter mais confiança de que um rótulo pai ou ramificação se aplica, do que um rótulo filho mais específico. Isso significa que o modelo pode atribuir diferentes probabilidades a diferentes previsões de rótulos dentro da mesma hierarquia.
Portanto, para uma mensagem específica, o modelo pode ser:
- 99% de confiança de que o “Rótulo pai 1” se aplica
- 88% Confiança de que o “Rótulo de Ramificação C” se aplica
- 75% de confiança de que o rótulo “Children X” se aplica.
É importante notar que se um rótulo filho for previsto para uma mensagem, o modelo deve sempre prever o rótulo pai (e o rótulo de ramificação , quando aplicável) com pelo menos a mesma confiança que o rótulo filho, se não maior.
O fato de o modelo prever cada rótulo de forma independente é um dos principais motivos pelos quais é importante que os rótulos pais capturem tópicos ou conceitos verdadeiros, em vez de resumos.
Por exemplo, um rótulo pai como 'Processo ', usado para agrupar rótulos filho relacionados a processos específicos, é uma má escolha para um rótulo pai. O "Processo" em si é um conceito abstrata e não é algo que o modelo irá prever bem por conta própria. Em um contexto empresarial, o nome do processo específico com o qual algo se relaciona (e que pode ser identificado a partir do texto de uma mensagem) seria um rótulo pai útil. Os rótulos de ramificação e filho úteis podem ser subprocessos relevantes do processo pai principal.
Como escolher quais conceitos devem ser rótulos pai e quais devem ser rótulos filho?
Às vezes, você pode precisar fazer escolhas difíceis em relação à estrutura de sua taxonomia. Por exemplo, pode ser difícil escolher se um rótulo deve ser pai ou filho, pois poderia logicamente ser uma categoria pai ampla com suas próprias subcategorias ou uma subcategoria específica de outra categoria pai mais ampla.
Por exemplo, pense em um conjunto de dados composto de avaliações de hote
É lógico que você tenha "Preços" como um rótulo pai, e cada aspecto específico dos preços (por exemplo, restaurante) como rótulos filhos.
No entanto, você também pode ter rótulos pais relacionados a aspectos específicos, como "Restaurante" e "Salas", e ter "Preços" como um rótulo filho em cada um deles.
Qual você deve escolher?
É útil considerar algumas coisas ao decidir:
- Haverá um número significativo de outros conceitos que você gostaria de capturar relacionados a esse tópico mais amplo? Em caso afirmativo, é provável que deva ser um rótulo pai
- Qual é a coisa mais importante para rastrear de uma perspectiva de MI ou relatório? Considerando nosso exemplo, não ajuda em ver claramente nas análises do Communications Mining quantas pessoas estão falando sobre preços e suas subcategorias? Ou é mais útil ver as estatísticas gerais do feedback sobre os espaços, o(s) restaurante(s), atividades, etc., sendo o preço um desses aspectos?
Não há necessariamente uma resposta certa ou errada nessas situações. Tudo se resume ao que é mais importante para você e sua empresa.
Até agora, discutimos como nomear rótulos e estruturá-los em hierarquias, mas você ainda pode estar se perguntando o que exatamente um rótulo deve capturar?
É importante lembrar que o Communications Mining é uma ferramenta de processamento de linguagem natural . A plataforma lê e interpreta cada mensagem que recebe um rótulo e começa a formar um entendimento de como identificar esse conceito de rótulo predominantemente com base no texto dentro dele.
À medida que você adiciona exemplos mais variados e consistentes para cada rótulo, o modelo melhora sua compreensão desse conceito de rótulo. Adicionar mais rótulos é um processo com retornos decrescentes, no entanto, uma vez que um rótulo está funcionando bem, Aceitar muitas previsões de alta confiança para um rótulo não dá novas informações ao modelo e é uma prática que deve ser evitada.
Como o Communications Mining usa a linguagem da mensagem para entender e identificar o que constitui um conceito de rótulo, o rótulo precisa ser claramente identificável no texto (ou seja, no idioma) das mensagens às quais é aplicado. Para uma mensagem de e- mail , isso inclui o assunto E o corpo do e-mail.
Veja este exemplo de e-mail abaixo, que tem o rótulo "Cancelamento > Confirmação > Encerramento " aplicado a ele. Este rótulo é claramente inferido a partir do assunto e do corpo do email.
Embora o modelo possa levar em consideração certas propriedades dos metadados durante o treinamento, especialmente coisas como a pontuação do NPS (para conjuntos de dados de feedback do cliente) que podem ajudar a entender o sentimento, é o texto da mensagem que é, de longe, o dado mais importante considerado pelo Modelos do Communications Mining.
O modelo não considera o endereço específico de remetente ou destinatário de um email; portanto, isso não deve ser usado de forma alguma ao determinar qual rótulo deve ser aplicado a uma mensagem de email.
Isso significa que é importante que cada rótulo seja específico no que está tentando capturar; caso contrário, o modelo não conseguirá identificar tendências e padrões na linguagem que o ajudem a prever um conceito de rótulo.
Rótulos extremamente amplos , como 'Consulta Geral ' ou 'Todo o resto ', podem não ser de grande ajuda se usados para agrupar vários tópicos distintos e não há um padrão ou semelhança claro entre os exemplos fornecidos ao modelo.
Para o modelo prever bem um rótulo, ele precisará de vários exemplos semelhantes das diferentes expressões de cada conceito capturado por um rótulo. Portanto, rótulos extremamente amplos exigem um número muito grande de exemplos para serem bem previstos.
Geralmente, é uma prática muito melhor dividir rótulos amplos em rótulos distintos - mesmo se você tiver 'Tudo o resto > [Vários rótulos filhos] '.
Se o modelo for mais capaz de identificar um rótulo filho por ser mais específico e claramente identificável (em comparação com uma categoria pai muito ampla), ele pode, na verdade, aumentar significativamente sua capacidade de prever também seu rótulo pai.
Uma das melhores maneiras de manter a consistência do rótulo durante o processo de construção do modelo é adicionar descrições de conceito a cada um de seus rótulos, o que pode ser feito dentro da página Configurações do conjunto de dados em Rótulos e campos gerais. Isso é particularmente útil se várias pessoas treinarem seu modelo, ajudando a garantir que todos tenham a mesma compreensão de um determinado rótulo e seu conceito associado. Também é útil se você tiver que passar o modelo para outro indivíduo.