communications-mining

latest

false

Importante :

Este conteúdo foi traduzido com auxílio de tradução automática.

Guia do usuário do Communications Mining

Última atualização 20 de dez de 2024

Compreender e melhorar o desempenho do modelo

Entendendo o desempenho geral do modelo

O desempenho geral de um modelo de aprendizado de máquina é determinado por vários fatores colaboradores, que precisam ser considerados em combinação entre si. Não é suficiente apenas considerar se os rótulos de um modelo têm alta precisão média ou apenas verificar quanto de um conjunto de dados é coberto por previsões por conta própria.

Para ter certeza de que um modelo é uma representação verdadeira de um conjunto de dados, com previsões de rótulo precisas e confiáveis e alta cobertura, avaliamos 4 fatores principais (e veja como fazer isso):

Todos os rótulos - esse fator avalia o desempenho médio de todos os rótulos na taxonomia
Rótulos com baixo desempenho - esse fator avalia o desempenho dos 10% dos rótulos que têm os problemas de desempenho mais significativos ou a integridade geral mais baixa
Cobertura - esse fator avalia a proporção de mensagens que se espera que tenham pelo menos um rótulo informativo
Saldo - esse fator avalia se os dados revisados são um representante eficaz e equilibrado de todo o conjunto de dados

A plataforma combina sua avaliação desses quatro fatores em uma única e fácil compreensão proprietária “Classificação do modelo”. Essa classificação é a melhor medida do desempenho de um modelo, pois representa todos os fatores mais importantes sobre os quais um modelo de rótulo deve ser avaliado, ponderados por sua importância relativa.

A Classificação do modelo é uma pontuação de 0 a 100, o que equivale a uma classificação de ‘ Pobre ’ (0-49), ‘ Média ’ (50-69), ‘ Bom ’ (70-89) ou ‘ Excelente ’ (90- 100).

A validação também fornece um detalhamento de cada um desses fatores — para cada fator é atribuída sua própria classificação qualitativa, além de exibir as métricas que contribuem para essa classificação. Eles são discutidos em mais detalhes abaixo.

Cada fator pode ter uma contribuição positiva ou negativa para a Classificação do modelo, dependendo de seu desempenho. É muito possível que modelos com classificações 'Ruim ' em cada fator tenham uma classificação geral de zero, especialmente quando se trata de um processo muito inicial no processo de treinamento do modelo.

Exemplo de Classificação de modelo na validação em um conjunto de dados de demonstração

Observação:

A classificação do modelo é específica para rótulos e não leva em consideração o desempenho dos campos gerais. No entanto, a validação também fornece métricas detalhadas sobre o desempenho de previsões de campo gerais (consulte aqui).

O menu suspenso "Versão do Modelo", localizado acima da classificação do modelo, permite ver todas as pontuações de validação em versões de modelo anteriores em um determinado conjunto de dados. Você também pode priorizar ou adicionar estrelas individuais para que apareçam no topo da lista no futuro. Essa ferramenta pode ser útil para rastrear e comparar o progresso à medida que você cria seu modelo.

O menu suspenso garante que você não precise fixar uma versão do modelo para ver as pontuações de validação para ela. Fixar uma versão do modelo (consulte aqui) só precisa ser usado para as versões do modelo que você deseja poder chamar por meio da API (por exemplo, para roteamento automatizado).

O menu suspenso da versão do modelo

Fatores

A guia Fatores em Validação (conforme mostrado acima) fornece um detalhamento de cada um dos fatores-chave que são considerados ao calcular a Classificação do modelo.

Cada cartão de fator mostra:

A classificação do fator e uma descrição qualitativa dele
Os colaboradores , que são os diferentes componentes que contribuem para a classificação desse fator
Ações recomendadas, listadas em ordem de prioridade que podem ajudar a melhorar a classificação do fator

Todos os rótulos

Esse fator avalia o desempenho médio de todos os rótulos na taxonomia,
Ela depende principalmente da Precisão Média Média (MAP) em todos os rótulos, ponderada pela frequência com que são atribuídos
Também leva em consideração quando há rótulos na taxonomia com alertas de desempenho na cor vermelha ou laranja
As ações recomendadas para este fator normalmente são projetadas para aumentar a precisão média de rótulos específicos ou para remover seus avisos de desempenho

Rótulos com baixo desempenho

Este fator avalia o desempenho dos 10% dos rótulos na taxonomia que têm os problemas de desempenho mais significativos ou o rótulo geral mais baixo “saúde” (se nenhum aviso for retornado)
Se mesmo os 10% da parte inferior dos seus rótulos ainda tiverem um desempenho muito bom, isso é um ótimo sinal de que seu modelo está íntegro
Isso depende do Mapa dos rótulos de menor desempenho, e também de saber se esses rótulos têm algum aviso significativo de desempenho (ou seja, avisos vermelho ou amarelo)
As ações recomendadas para este fator normalmente são criadas para aumentar a precisão média de rótulos específicos com baixo desempenho e remover quaisquer outros alertas de desempenho individual

Cobertura

Esse fator avalia a proporção de mensagens com previsão para ter pelo menos um rótulo informativo (consulte aqui para obter mais detalhes)
É muito importante que um modelo de bom desempenho "cobre" o máximo possível do conjunto de dados com previsões de rótulos informativos
As ações recomendadas para esse fator são projetadas para ajudar a aumentar a cobertura do conjunto de dados. Geralmente, ele será treinado no modo "Baixa confiança "
Compreender e aumentar a cobertura de um conjunto de dados é abordado em detalhes aqui

Balanceamento

Esse fator avalia se os dados revisados são uma representação eficaz e equilibrada de todo o conjunto de dados, e é projetado para detectar potencial viés de anotação (veja aqui para mais detalhes)
Baseia-se em uma "pontuação de similaridade ", que resulta da comparação dos dados revisados com os dados não revisados no conjunto de dados, e também se o modo "Aleatório " foi usado o suficiente ao anotar os dados
É importante que os dados revisados em um conjunto sejam o mais semelhantes possível aos dados não revisados, para que a plataforma possa identificar com confiança o máximo possível
As ações recomendadas para este fator são projetadas para reduzir qualquer potencial viés de anotação e aumentar a pontuação de similaridade dos dados revisados
Compreender e melhorar o saldo do conjunto de dados é abordado em detalhes aqui

Observação: a plataforma sempre tentará surgir as próximas melhores ações recomendadas que podem melhorar um fator, mesmo se o fator for classificado como “Bom” ou “Excelente”. Isso é necessário para o caso de você querer continuar a otimizar o desempenho desse fator.

Métricas

A guia Métricas da página Validação mostra algumas estatísticas de desempenho médio de rótulos, além de um gráfico que mostra a precisão média de cada rótulo versus o tamanho do conjunto de treinamento. O gráfico também sinaliza rótulos que tenham avisos de desempenho na cor laranja ou vermelho .

Guia Métricas de exemplo na Validação para um conjunto de dados de demonstração

As estatísticas de desempenho do rótulo exibidas são:

Essencialmente, quanto maior for sua pontuação no MAP , melhor será o desempenho geral do modelo no que diz respeito à precisão das previsões, mas isso variará entre conjuntos de dados, dependendo do tipo de dados e dos objetivos em torno dos quais você centrou sua taxonomia.

O MAP não é uma boa medida de cobertura ou saldo e não deve ser usado apenas para determinar se seu modelo é adequado para o propósito. Para obter mais detalhes sobre a compreensão e verificação da cobertura do seu modelo, consulte aqui, e para verificar e melhorar o balanceamento do seu modelo, consulte aqui.

Noções Básicas sobre o desempenho do rótulo

O gráfico de desempenho do rótulo exibido na guia Métricas da página de Validação (veja acima) fornece uma indicação visual imediata de como cada rótulo individual está funcionando.

Para que um rótulo apareça neste gráfico, ele deve ter pelo menos 20 exemplos fixados presentes no conjunto de treinamento usado pela plataforma durante a validação. Para garantir que isso aconteça, os usuários devem certificar-se de fornecer no mínimo 25 (muitas vezes mais) exemplos fixados por rótulo.

Cada rótulo será plotado como uma das três cores, com base na compreensão do modelo de como o rótulo está funcionando. Abaixo, explicamos o que elas significam:

Indicadores de desempenho do rótulo

Indicadores de desempenho do rótulo:

Os rótulos plotados em azul no gráfico têm um nível de desempenho satisfatório . Isso se deve a vários fatores que contribuem, incluindo o número e variedade de exemplos, viés de anotação e precisão média para esse rótulo.

Os rótulos plotados na cor laranja têm um desempenho um pouco abaixo do satisfatório. Eles podem ter uma precisão média respectivamente baixa, não ter exemplos de treinamento suficientes ou podem ter sido anotados de maneira enviesada. Esses rótulos requerem um pouco de treinamento/correção para melhorar seu desempenho ou reduzir o viés na maneira como foram treinados.

Os rótulos plotados em vermelho têm baixo desempenho. Eles podem ter uma precisão média muito baixa, exemplos de treinamento insuficientes ou são altamente enviesados pela maneira como foram anotados. Esses rótulos podem exigir consideravelmente mais treinamento/correção para trazer seu desempenho para um nível satisfatório ou para reduzir significativamente o viés na maneira como foram treinados.

Observação: você verá os indicadores de desempenho laranja e vermelho aparecerem nas barras de filtro de rótulo em Explorar, Relatórios e Validação. Isso ajuda a notificar rapidamente quais rótulos precisam de alguma ajuda e também quais previsões de rótulos não devem ser usadas (sem algum trabalho para melhorá-las) ao usar os recursos de análise.

Desempenho de rótulos individuais

Os usuários podem selecionar rótulos individuais na barra do filtro de rótulos (ou clicando no gráfico do rótulo no gráfico “Todos os rótulos”) para ver as estatísticas de desempenho do rótulo. A visualização do rótulo específico também mostrará avisos de desempenho e sugestões de próxima ação recomendada para ajudar a melhorar seu desempenho.

A visualização do rótulo mostrará a precisão média do rótulo, bem como sua precisão versus recall com base em um determinado limite de confiança que os usuários podem ajustar eles próprios para ver como ele muda (consulte a última seção deste artigo para obter mais detalhes).

Página de validação com um rótulo específico selecionado

Melhoria do modelo geral e do desempenho de rótulos individuais

Se seu modelo ou um rótulo específico tiver um aviso de desempenho, a plataforma recomenda a próxima ação mais recomendada que ajudará a lidar com esse aviso. Isso ocorrerá por meio de um dos cartões de fator (conforme mostrado abaixo) ou quando você selecionar um rótulo específico da taxonomia ou do gráfico “Todos os rótulos” (como mostrado acima).

Exemplo de cartão do Fator mostrando as ações recomendadas

Para alguns rótulos que têm precisão média muito baixa, pode não ficar claro por que estão tendo um desempenho ruim. Os possíveis motivos pelos quais um rótulo pode ter uma precisão média baixa e como melhorá-la serão discutidos no artigo a seguir. A plataforma sempre fornecerá o que considerar as melhores ações corretivas para melhorar o rótulo, listadas em ordem de prioridade.

Quando você não está na página Validação, os avisos de desempenho vermelho e amarelo ainda aparecem no filtro de taxonomia em Explorar e Relatórios, portanto, eles podem ser um indicador útil para verificar a Validação para ver as ações corretivas recomendadas.

As próximas melhores sugestões de ações funcionam como links nos quais você pode clicar para ser direcionado diretamente para a exibição de treinamento que a plataforma sugere , a fim de melhorar o desempenho do rótulo ou reduzir seu viés. As sugestões são ordenadas de maneira inteligente com a ação de maior prioridade para melhorar o rótulo listado primeiro.

Essas são as ferramentas mais importantes para ajudar você a entender o desempenho do seu modelo e devem ser usadas regularmente como guias ao tentar melhorar o desempenho de um rótulo.

O próximo artigo aborda em detalhes os motivos pelos quais um rótulo pode ter uma precisão média baixa (aqui). Os artigos posteriores nesta seção da Base de Conhecimento também abrangem outros modos de treinamento que a plataforma pode sugerir para melhorar o desempenho do seu modelo, que são "Verificar rótulo ", "Rótulo ausente " e "Rebalancear ".

Observação: se você tiver uma versão de modelo mais antiga selecionada, você ainda verá os avisos e as ações sugeridas, mas se você passar o mouse sobre o ícone de informações, um pop-up irá avisá-lo que essas estatísticas específicas não podem ser alteradas, pois não há é uma versão de modelo mais recente (na qual você pode trabalhar).

Introdução ao controle deslizante limite de rótulos

Observação: ajustar o controle deslizante do limite de confiança não afeta o modelo, apenas fornece uma representação visual de como as previsões seriam afetadas para esse rótulo se um determinado limite de confiança fosse selecionado. Isso pode ajudar você a selecionar um limite adequado para fluxos ou usar previsões para automação downstream.

Para ajustar o limite de confiança de um rótulo, os usuários podem digitar um valor em % na caixa ou apenas arrastar o controle deslizante ao longo da escala.

Anote estatísticas de validação específicas

Observe como na imagem acima, o limite de confiança para o rótulo "Quote > Motor" é definido em 68,7%, dando uma precisão de 100% e recall de 85%.

Então, na imagem abaixo, o limite de confiança foi ajustado usando o controle deslizante para 17%, o que reduz a precisão para 84%, mas aumenta o recall para 100%.

Gráficos de validação específicos do rótulo

Para entender melhor a relação entre precisão e recall, veja aqui, e para entender melhor como você selecionaria limiares a serem usados em automações, veja aqui.

Nesta página