Communications Mining
Mais recente
falso
Imagem de fundo do banner
Guia do usuário do Communications Mining
Última atualização 18 de abr de 2024

Como melhorar o balanceamento e usar o 'Rebalance'

Permissões do usuário necessárias: "View Sources" E "Review and label.

O que é "Balance" e por que é importante?

A Classificação de saldo apresentada na Classificação do modelo na validação é um exemplo do quão equilibrados são os dados revisados (ou seja, os dados de treinamento) em um conjunto de dados, quando comparados ao conjunto de dados como um todo.

Ela leva em consideração vários fatores colaboradores (conforme mostrado abaixo), incluindo:

  • A similaridade dos dados revisados com os dados não revisados (mostrado como uma pontuação percentual)
  • A proporção de dados revisados que foram revisados por meio de amostra aleatória (ou seja, modo “Aleatório”)
  • A proporção de dados que foram revisados usando 'Rebalance ' (veja abaixo para detalhes)
  • A proporção de dados que foi revisada durante o uso da 'Pesquisa de texto '
Um exemplo de componente "Saldo" da Classificação do modelo

É importante que a proporção de dados revisados por meio de amostra aleatória seja alta (idealmente, mais de 20%) e a proporção de dados revisados rotulados usando a pesquisa seja baixa.

A classificação de saldo é mais fortemente influenciada, no entanto, pela pontuação de similaridade que mede a similaridade dos dados não revisados com os dados revisados.

Essa pontuação de similaridade é calculada por um modelo de viés de rotulagem proprietário que compara os dados revisados e não revisados para garantir que os dados rotulados sejam representativos de todo o conjunto de dados. Se os dados não forem representativos e tiverem sido rotulados de maneira enviesada, as medidas de desempenho do modelo podem ser enganosas e potencialmente não confiáveis.

O viés de rotulagem na plataforma normalmente é o resultado de um balanceamento dos modos de treinamento usados para atribuir rótulos, especialmente se for usada "pesquisa de texto" em excesso e não modo "Aleatório" suficiente. Entretanto, ele ainda pode ocorrer mesmo se uma alta proporção do modo "Aleatório" for usada. Treinar rótulos específicos em modos como “Ensinar rótulo” pode levar naturalmente a um pequeno balanceamento nos dados revisados. A plataforma ajuda a identificar quando isso acontece e ajuda a lidar com isso de maneira rápida e eficaz.

O que é o "Rebalance" e como usá-lo?

O "Rebalanceamento" é um modo de treinamento que ajuda a reduzir os possíveis instabilidades em como um modelo foi rotulado, ou seja, viés de rotulagem, o que significa que os dados revisados não são tão representativos de todo o conjunto de dados quanto poderiam ser.

O modo de treinamento "Rebalancear " mostra mensagens que estão sub-representadas no conjunto revisado.

Rotular as mensagens (como faria em qualquer outro modo de treinamento) apresentadas nesse modo ajudará a resolver equilíbrios nos dados de treinamento e a melhorar a pontuação de balanceamento do modelo.

Dica principal: O rebalanceamento normalmente é mais eficaz quando usado pouco e com frequência. Rotular um pequeno número de mensagens (entre 10 e 20) nesse modo e permitir que o modelo treine novamente antes de atualizar e rotular mais exemplos é a melhor maneira de maximizar o impacto que isso terá na pontuação de saldo do modelo.

O modo de treinamento "Rebalancear" em um conjunto de dados de demonstração

Se você achar que tem uma pontuação de similaridade alta , mas a classificação de Balanceamento ainda é baixa, provavelmente é porque você não rotulou dados de treinamento suficientes no modo 'Aleatório' . Se for esse o caso, a plataforma sugerirá rotular uma seleção aleatória de mensagens como a ação priorizada recomendada. O treinamento neste modo dá à plataforma confiança adicional de que o conjunto de dados não foi rotulado de maneira parcial e de que os dados de treinamento são uma amostra representativa.

Quanto "Rebalance" devo usar?

Continue a usar o recurso 'Rebalancear' iterativamente para melhorar a pontuação de similaridade do seu modelo. Isso, por sua vez, aumentará sua classificação de 'Balance '.

Assim que atingir uma classificação 'Bom ' na Validação, é você que decide quanto mais deseja aumentar a pontuação de similaridade antes de interromper o treinamento em 'Rebalanceamento'.

Você pode otimizar essa classificação ao máximo, mas o treinamento contínuo sempre será um caso de retornos decrescentes. Uma classificação 'Bom ' normalmente deve ser considerada um nível aceitável de desempenho para um modelo bom.

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.