- Introdução
- Balanceamento
- Clusters
- Desvio de conceito
- Cobertura
- Conjuntos de dados
- Campos gerais (anteriormente entidades)
- Rótulos (previsões, níveis de confiança, hierarquia etc.)
- Modelos
- Transmissões
- Classificação do Modelo
- Projetos
- Precisão
- Lembrar
- Mensagens revisadas e não revisadas
- Fontes
- Taxonomias
- Treinamento
- Previsões positivos e negativos verdadeiros e falsos
- Validação
- Mensagens
- Administração
- Gerencie origens e conjuntos de dados
- Entender a estrutura de dados e permissões
- Create or delete a data source in the GUI
- Carregar um arquivo CSV para uma origem
- Preparando dados para carregamento de .CSV
- Criar um conjunto de dados
- Origens e conjuntos de dados multilíngues
- Habilitando o sentimento em um conjunto de dados
- Corrigir configurações de conjunto de dados
- Excluir mensagens por meio da interface do usuário
- Excluir um conjunto de dados
- Exportar um conjunto de dados
- Usando integrações do Exchange
- Treinamento e manutenção do modelo
- Noções Básicas sobre rótulos, campos gerais e metadados
- Hierarquia de rótulo e práticas recomendadas
- Definição dos seus objetivos de taxonomia
- Casos de uso de análise versus automação
- Transformando seus objetivos em rótulos
- Criação da sua estrutura taxonômica
- Práticas recomendadas de design de taxonomia
- Importando sua taxonomia
- Visão geral do processo de treinamento do modelo
- Anotação Generativa (Novo)
- Status do conjunto de dados
- Treinamento de modelos e práticas recomendadas de anotação
- Treinamento com análise de sentimento de rótulo habilitada
- Compreensão dos requisitos de dados
- Treinamento
- Introdução ao Refine
- Precisão e recall explicados
- Precisão e recall
- Como funciona a Validação?
- Compreender e melhorar o desempenho do modelo
- Por que um rótulo pode ter uma precisão média baixa?
- Treinamento usando Check label e Perda de rótulo
- Treinamento usando Ensinar rótulo (Refinar)
- Treinamento usando a Pesquisa (Refinamento)
- Noções Básicas e Aumentando a Cobertura
- Melhorando o balanceamento e usando o Rebalanceamento
- Quando parar de treinar seu modelo
- Uso dos campos gerais
- Extração generativa
- Uso de análise e monitoramento
- Automations e Communications Mining
- Informações de licenciamento
- Perguntas frequentes e mais
Guia do usuário do Communications Mining
Melhorando o balanceamento e usando o Rebalanceamento
Permissões do usuário necessárias: "Exibir Origens" E "Revisar e anotar".
O que é Balanceamento e por que é importante?
A Classificação de saldo apresentada na Classificação do modelo na validação é um exemplo do quão equilibrados são os dados revisados (ou seja, os dados de treinamento) em um conjunto de dados, quando comparados ao conjunto de dados como um todo.
Ela leva em consideração vários fatores colaboradores (conforme mostrado abaixo), incluindo:
- A similaridade dos dados revisados com os dados não revisados (mostrado como uma pontuação percentual)
- A proporção de dados revisados que foram revisados por meio de amostra aleatória (ou seja, modo “Aleatório”)
- A proporção de dados que foram revisados usando 'Rebalance ' (veja abaixo para detalhes)
- A proporção de dados que foi revisada durante o uso da 'Pesquisa de texto '
É importante que a proporção de dados revisados por meio de amostra aleatória seja alta (idealmente, mais de 20%) e a proporção de dados revisados anotados usando a pesquisa seja baixa.
A classificação de saldo é mais fortemente influenciada, no entanto, pela pontuação de similaridade que mede a similaridade dos dados não revisados com os dados revisados.
Essa pontuação de similaridade é calculada por um modelo proprietário de viés de anotação que compara os dados revisados e não revisados para garantir que os dados anotados sejam representativos de todo o conjunto de dados. Se os dados não forem representativos e tiverem sido anotados de maneira parcial, as medidas de desempenho do modelo podem ser enganosas e potencialmente não confiáveis.
O viés de anotação na plataforma normalmente é o resultado de um balanceamento dos modos de treinamento usados para atribuir rótulos, especialmente se for usada "pesquisa de texto" em excesso e não modo "Aleatório" suficiente. Entretanto, ele ainda pode ocorrer mesmo se uma alta proporção do modo "Aleatório" for usada. Treinar rótulos específicos em modos como “Ensinar rótulo” pode levar naturalmente a um pequeno balanceamento nos dados revisados. A plataforma ajuda a identificar quando isso acontece e ajuda a lidar com isso de maneira rápida e eficaz.
O que é o "Rebalance" e como usá-lo?
O "Rebalanceamento" é um modo de treinamento que ajuda a reduzir os possíveis instabilidades em como um modelo foi anotado, ou seja, o viés de anotação, o que significa que os dados revisados não são tão representativos de todo o conjunto de dados quanto poderiam ser.
O modo de treinamento "Rebalancear " mostra mensagens que estão sub-representadas no conjunto revisado.
Anotar as mensagens (como você faria em qualquer outro modo de treinamento) apresentadas nesse modo ajudará a resolver instabilidades nos dados de treinamento e melhorar a pontuação de balanceamento do modelo.
Dica principal: O rebalanceamento normalmente é mais eficaz quando usado pouco e com frequência. Anotar um pequeno número de mensagens (entre 10 e 20) nesse modo e permitir que o modelo treine novamente antes de atualizar e anotar mais exemplos é a melhor maneira de maximizar o impacto que isso terá na pontuação de saldo do modelo.
Se você achar que tem uma pontuação de similaridade alta, mas a classificação de Balanceamento ainda é baixa, provavelmente é porque você não anotou dados de treinamento suficientes no modo 'Aleatório'. Se for esse o caso, a plataforma sugerirá que uma seleção aleatória de mensagens seja anotada como a ação priorizada recomendada. O treinamento neste modo dá à plataforma confiança adicional de que o conjunto de dados não foi anotado de maneira parcial e de que os dados de treinamento são uma amostra representativa.
Quanto "Rebalance" devo usar?
Continue a usar o recurso 'Rebalancear' iterativamente para melhorar a pontuação de similaridade do seu modelo. Isso, por sua vez, aumentará sua classificação de 'Balance '.
Assim que atingir uma classificação 'Bom ' na Validação, é você que decide quanto mais deseja aumentar a pontuação de similaridade antes de interromper o treinamento em 'Rebalanceamento'.
Você pode otimizar essa classificação ao máximo, mas o treinamento contínuo sempre será um caso de retornos decrescentes. Uma classificação 'Bom ' normalmente deve ser considerada um nível aceitável de desempenho para um modelo bom.