- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais (anteriormente entidades)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Crie ou exclua uma fonte de dados no GUI
- Carregar um arquivo CSV para uma origem
- Preparando dados para carregamento de .CSV
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Compreensão dos requisitos de dados
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Informações de licenciamento
- Perguntas frequentes e mais
Guia do usuário do Communications Mining
Compreender e melhorar o desempenho do modelo
O desempenho geral de um modelo de aprendizado de máquina é determinado por vários fatores colaboradores, que precisam ser considerados em combinação entre si. Não é suficiente apenas considerar se os rótulos de um modelo têm alta precisão média ou apenas verificar quanto de um conjunto de dados é coberto por previsões por conta própria.
Para ter certeza de que um modelo é uma representação verdadeira de um conjunto de dados, com previsões de rótulo precisas e confiáveis e alta cobertura, avaliamos 4 fatores principais (e veja como fazer isso):
- Todos os rótulos - esse fator avalia o desempenho médio de todos os rótulos na taxonomia
- Rótulos com baixo desempenho - esse fator avalia o desempenho dos 10% dos rótulos que têm os problemas de desempenho mais significativos ou a integridade geral mais baixa
- Cobertura - esse fator avalia a proporção de mensagens que se espera que tenham pelo menos um rótulo informativo
- Saldo - esse fator avalia se os dados revisados são um representante eficaz e equilibrado de todo o conjunto de dados
A plataforma combina sua avaliação desses quatro fatores em uma única e fácil compreensão proprietária “Classificação do modelo”. Essa classificação é a melhor medida do desempenho de um modelo, pois representa todos os fatores mais importantes sobre os quais um modelo de rótulo deve ser avaliado, ponderados por sua importância relativa.
A Classificação do modelo é uma pontuação de 0 a 100, o que equivale a uma classificação de ‘ Pobre ’ (0-49), ‘ Média ’ (50-69), ‘ Bom ’ (70-89) ou ‘ Excelente ’ (90- 100).
A validação também fornece um detalhamento de cada um desses fatores — para cada fator é atribuída sua própria classificação qualitativa, além de exibir as métricas que contribuem para essa classificação. Eles são discutidos em mais detalhes abaixo.
Cada fator pode ter uma contribuição positiva ou negativa para a Classificação do modelo, dependendo de seu desempenho. É muito possível que modelos com classificações 'Ruim ' em cada fator tenham uma classificação geral de zero, especialmente quando se trata de um processo muito inicial no processo de treinamento do modelo.
A classificação do modelo é específica para rótulos e não leva em consideração o desempenho dos campos gerais. No entanto, a validação também fornece métricas detalhadas sobre o desempenho de previsões de campo gerais (consulte aqui).
O menu suspenso "Versão do Modelo", localizado acima da classificação do modelo, permite ver todas as pontuações de validação em versões de modelo anteriores em um determinado conjunto de dados. Você também pode priorizar ou adicionar estrelas individuais para que apareçam no topo da lista no futuro. Essa ferramenta pode ser útil para rastrear e comparar o progresso à medida que você cria seu modelo.
O menu suspenso garante que você não precise fixar uma versão do modelo para ver as pontuações de validação para ela. Fixar uma versão do modelo (consulte aqui) só precisa ser usado para as versões do modelo que você deseja poder chamar por meio da API (por exemplo, para roteamento automatizado).
A guia Fatores em Validação (conforme mostrado acima) fornece um detalhamento de cada um dos fatores-chave que são considerados ao calcular a Classificação do modelo.
Cada cartão de fator mostra:
- A classificação do fator e uma descrição qualitativa dele
- Os colaboradores , que são os diferentes componentes que contribuem para a classificação desse fator
- Ações recomendadas, listadas em ordem de prioridade que podem ajudar a melhorar a classificação do fator
Todos os rótulos
- Esse fator avalia o desempenho médio de todos os rótulos na taxonomia,
- Ela depende principalmente da Precisão Média Média (MAP) em todos os rótulos, ponderada pela frequência com que são atribuídos
- Também leva em consideração quando há rótulos na taxonomia com alertas de desempenho na cor vermelha ou laranja
- As ações recomendadas para este fator normalmente são projetadas para aumentar a precisão média de rótulos específicos ou para remover seus avisos de desempenho
Rótulos com baixo desempenho
- Este fator avalia o desempenho dos 10% dos rótulos na taxonomia que têm os problemas de desempenho mais significativos ou o rótulo geral mais baixo “saúde” (se nenhum aviso for retornado)
- Se mesmo os 10% da parte inferior dos seus rótulos ainda tiverem um desempenho muito bom, isso é um ótimo sinal de que seu modelo está íntegro
- Isso depende do Mapa dos rótulos de menor desempenho, e também de saber se esses rótulos têm algum aviso significativo de desempenho (ou seja, avisos vermelho ou amarelo)
- As ações recomendadas para este fator normalmente são criadas para aumentar a precisão média de rótulos específicos com baixo desempenho e remover quaisquer outros alertas de desempenho individual
Cobertura
- Esse fator avalia a proporção de mensagens com previsão para ter pelo menos um rótulo informativo (consulte aqui para obter mais detalhes)
- É muito importante que um modelo de bom desempenho "cobre" o máximo possível do conjunto de dados com previsões de rótulos informativos
- As ações recomendadas para esse fator são projetadas para ajudar a aumentar a cobertura do conjunto de dados. Geralmente, ele será treinado no modo "Baixa confiança "
- Compreender e aumentar a cobertura de um conjunto de dados é abordado em detalhes aqui
Balanceamento
- Esse fator avalia se os dados revisados são uma representação eficaz e equilibrada de todo o conjunto de dados, e é projetado para detectar potencial viés de anotação (veja aqui para mais detalhes)
- Baseia-se em uma "pontuação de similaridade ", que resulta da comparação dos dados revisados com os dados não revisados no conjunto de dados, e também se o modo "Aleatório " foi usado o suficiente ao anotar os dados
- É importante que os dados revisados em um conjunto sejam o mais semelhantes possível aos dados não revisados, para que a plataforma possa identificar com confiança o máximo possível
- As ações recomendadas para este fator são projetadas para reduzir qualquer potencial viés de anotação e aumentar a pontuação de similaridade dos dados revisados
- Compreender e melhorar o saldo do conjunto de dados é abordado em detalhes aqui
Observação: a plataforma sempre tentará surgir as próximas melhores ações recomendadas que podem melhorar um fator, mesmo se o fator for classificado como “Bom” ou “Excelente”. Isso é necessário para o caso de você querer continuar a otimizar o desempenho desse fator.
Métricas
A guia Métricas da página Validação mostra algumas estatísticas de desempenho médio de rótulos, além de um gráfico que mostra a precisão média de cada rótulo versus o tamanho do conjunto de treinamento. O gráfico também sinaliza rótulos que tenham avisos de desempenho na cor laranja ou vermelho .
As estatísticas de desempenho do rótulo exibidas são:
Essencialmente, quanto maior for sua pontuação no MAP , melhor será o desempenho geral do modelo no que diz respeito à precisão das previsões, mas isso variará entre conjuntos de dados, dependendo do tipo de dados e dos objetivos em torno dos quais você centrou sua taxonomia.
O MAP não é uma boa medida de cobertura ou saldo e não deve ser usado apenas para determinar se seu modelo é adequado para o propósito. Para obter mais detalhes sobre a compreensão e verificação da cobertura do seu modelo, consulte aqui, e para verificar e melhorar o balanceamento do seu modelo, consulte aqui.
O gráfico de desempenho do rótulo exibido na guia Métricas da página de Validação (veja acima) fornece uma indicação visual imediata de como cada rótulo individual está funcionando.
Para que um rótulo apareça neste gráfico, ele deve ter pelo menos 20 exemplos fixados presentes no conjunto de treinamento usado pela plataforma durante a validação. Para garantir que isso aconteça, os usuários devem certificar-se de fornecer no mínimo 25 (muitas vezes mais) exemplos fixados por rótulo.
Cada rótulo será plotado como uma das três cores, com base na compreensão do modelo de como o rótulo está funcionando. Abaixo, explicamos o que elas significam:
Indicadores de desempenho do rótulo:
- Os rótulos plotados em azul no gráfico têm um nível de desempenho satisfatório . Isso se deve a vários fatores que contribuem, incluindo o número e variedade de exemplos, viés de anotação e precisão média para esse rótulo.
- Os rótulos plotados na cor laranja têm um desempenho um pouco abaixo do satisfatório. Eles podem ter uma precisão média respectivamente baixa, não ter exemplos de treinamento suficientes ou podem ter sido anotados de maneira enviesada. Esses rótulos requerem um pouco de treinamento/correção para melhorar seu desempenho ou reduzir o viés na maneira como foram treinados.
- Os rótulos plotados em vermelho têm baixo desempenho. Eles podem ter uma precisão média muito baixa, exemplos de treinamento insuficientes ou são altamente enviesados pela maneira como foram anotados. Esses rótulos podem exigir consideravelmente mais treinamento/correção para trazer seu desempenho para um nível satisfatório ou para reduzir significativamente o viés na maneira como foram treinados.
Observação: você verá os indicadores de desempenho laranja e vermelho aparecerem nas barras de filtro de rótulo em Explorar, Relatórios e Validação. Isso ajuda a notificar rapidamente quais rótulos precisam de alguma ajuda e também quais previsões de rótulos não devem ser usadas (sem algum trabalho para melhorá-las) ao usar os recursos de análise.
Os usuários podem selecionar rótulos individuais na barra do filtro de rótulos (ou clicando no gráfico do rótulo no gráfico “Todos os rótulos”) para ver as estatísticas de desempenho do rótulo. A visualização do rótulo específico também mostrará avisos de desempenho e sugestões de próxima ação recomendada para ajudar a melhorar seu desempenho.
A visualização do rótulo mostrará a precisão média do rótulo, bem como sua precisão versus recall com base em um determinado limite de confiança que os usuários podem ajustar eles próprios para ver como ele muda (consulte a última seção deste artigo para obter mais detalhes).
Se seu modelo ou um rótulo específico tiver um aviso de desempenho, a plataforma recomenda a próxima ação mais recomendada que ajudará a lidar com esse aviso. Isso ocorrerá por meio de um dos cartões de fator (conforme mostrado abaixo) ou quando você selecionar um rótulo específico da taxonomia ou do gráfico “Todos os rótulos” (como mostrado acima).
Para alguns rótulos que têm precisão média muito baixa, pode não ficar claro por que estão tendo um desempenho ruim. Os possíveis motivos pelos quais um rótulo pode ter uma precisão média baixa e como melhorá-la serão discutidos no artigo a seguir. A plataforma sempre fornecerá o que considerar as melhores ações corretivas para melhorar o rótulo, listadas em ordem de prioridade.
Quando você não está na página Validação, os avisos de desempenho vermelho e amarelo ainda aparecem no filtro de taxonomia em Explorar e Relatórios, portanto, eles podem ser um indicador útil para verificar a Validação para ver as ações corretivas recomendadas.
As próximas melhores sugestões de ações funcionam como links nos quais você pode clicar para ser direcionado diretamente para a exibição de treinamento que a plataforma sugere , a fim de melhorar o desempenho do rótulo ou reduzir seu viés. As sugestões são ordenadas de maneira inteligente com a ação de maior prioridade para melhorar o rótulo listado primeiro.
Essas são as ferramentas mais importantes para ajudar você a entender o desempenho do seu modelo e devem ser usadas regularmente como guias ao tentar melhorar o desempenho de um rótulo.
O próximo artigo aborda em detalhes os motivos pelos quais um rótulo pode ter uma precisão média baixa (aqui). Os artigos posteriores nesta seção da Base de Conhecimento também abrangem outros modos de treinamento que a plataforma pode sugerir para melhorar o desempenho do seu modelo, que são "Verificar rótulo ", "Rótulo ausente " e "Rebalancear ".
Observação: se você tiver uma versão de modelo mais antiga selecionada, você ainda verá os avisos e as ações sugeridas, mas se você passar o mouse sobre o ícone de informações, um pop-up irá avisá-lo que essas estatísticas específicas não podem ser alteradas, pois não há é uma versão de modelo mais recente (na qual você pode trabalhar).
Observação: ajustar o controle deslizante do limite de confiança não afeta o modelo, apenas fornece uma representação visual de como as previsões seriam afetadas para esse rótulo se um determinado limite de confiança fosse selecionado. Isso pode ajudar você a selecionar um limite adequado para fluxos ou usar previsões para automação downstream.
Para ajustar o limite de confiança de um rótulo, os usuários podem digitar um valor em % na caixa ou apenas arrastar o controle deslizante ao longo da escala.
Observe como na imagem acima, o limite de confiança para o rótulo "Quote > Motor" é definido em 68,7%, dando uma precisão de 100% e recall de 85%.
Então, na imagem abaixo, o limite de confiança foi ajustado usando o controle deslizante para 17%, o que reduz a precisão para 84%, mas aumenta o recall para 100%.