communications-mining
latest
false
Importante :
Este conteúdo foi traduzido com auxílio de tradução automática.
Guia do usuário do Communications Mining
Last updated 3 de out de 2024

Melhorando o balanceamento e usando o Rebalanceamento

Permissões do usuário necessárias: "Exibir Origens" E "Revisar e anotar".

O que é Balanceamento e por que é importante?

A Classificação de saldo apresentada na Classificação do modelo na validação é um exemplo do quão equilibrados são os dados revisados (ou seja, os dados de treinamento) em um conjunto de dados, quando comparados ao conjunto de dados como um todo.

Ela leva em consideração vários fatores colaboradores (conforme mostrado abaixo), incluindo:

  • A similaridade dos dados revisados com os dados não revisados (mostrado como uma pontuação percentual)
  • A proporção de dados revisados que foram revisados por meio de amostra aleatória (ou seja, modo “Aleatório”)
  • A proporção de dados que foram revisados usando 'Rebalance ' (veja abaixo para detalhes)
  • A proporção de dados que foi revisada durante o uso da 'Pesquisa de texto '
Um exemplo de componente "Saldo" da Classificação do modelo

É importante que a proporção de dados revisados por meio de amostra aleatória seja alta (idealmente, mais de 20%) e a proporção de dados revisados anotados usando a pesquisa seja baixa.

A classificação de saldo é mais fortemente influenciada, no entanto, pela pontuação de similaridade que mede a similaridade dos dados não revisados com os dados revisados.

Essa pontuação de similaridade é calculada por um modelo proprietário de viés de anotação que compara os dados revisados e não revisados para garantir que os dados anotados sejam representativos de todo o conjunto de dados. Se os dados não forem representativos e tiverem sido anotados de maneira parcial, as medidas de desempenho do modelo podem ser enganosas e potencialmente não confiáveis.

O viés de anotação na plataforma normalmente é o resultado de um balanceamento dos modos de treinamento usados para atribuir rótulos, especialmente se for usada "pesquisa de texto" em excesso e não modo "Aleatório" suficiente. Entretanto, ele ainda pode ocorrer mesmo se uma alta proporção do modo "Aleatório" for usada. Treinar rótulos específicos em modos como “Ensinar rótulo” pode levar naturalmente a um pequeno balanceamento nos dados revisados. A plataforma ajuda a identificar quando isso acontece e ajuda a lidar com isso de maneira rápida e eficaz.

O que é o "Rebalance" e como usá-lo?

O "Rebalanceamento" é um modo de treinamento que ajuda a reduzir os possíveis instabilidades em como um modelo foi anotado, ou seja, o viés de anotação, o que significa que os dados revisados não são tão representativos de todo o conjunto de dados quanto poderiam ser.

O modo de treinamento "Rebalancear " mostra mensagens que estão sub-representadas no conjunto revisado.

Anotar as mensagens (como você faria em qualquer outro modo de treinamento) apresentadas nesse modo ajudará a resolver instabilidades nos dados de treinamento e melhorar a pontuação de balanceamento do modelo.

Dica principal: O rebalanceamento normalmente é mais eficaz quando usado pouco e com frequência. Anotar um pequeno número de mensagens (entre 10 e 20) nesse modo e permitir que o modelo treine novamente antes de atualizar e anotar mais exemplos é a melhor maneira de maximizar o impacto que isso terá na pontuação de saldo do modelo.

O modo de treinamento "Rebalancear" em um conjunto de dados de demonstração

Se você achar que tem uma pontuação de similaridade alta, mas a classificação de Balanceamento ainda é baixa, provavelmente é porque você não anotou dados de treinamento suficientes no modo 'Aleatório'. Se for esse o caso, a plataforma sugerirá que uma seleção aleatória de mensagens seja anotada como a ação priorizada recomendada. O treinamento neste modo dá à plataforma confiança adicional de que o conjunto de dados não foi anotado de maneira parcial e de que os dados de treinamento são uma amostra representativa.

Quanto "Rebalance" devo usar?

Continue a usar o recurso 'Rebalancear' iterativamente para melhorar a pontuação de similaridade do seu modelo. Isso, por sua vez, aumentará sua classificação de 'Balance '.

Assim que atingir uma classificação 'Bom ' na Validação, é você que decide quanto mais deseja aumentar a pontuação de similaridade antes de interromper o treinamento em 'Rebalanceamento'.

Você pode otimizar essa classificação ao máximo, mas o treinamento contínuo sempre será um caso de retornos decrescentes. Uma classificação 'Bom ' normalmente deve ser considerada um nível aceitável de desempenho para um modelo bom.

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.