communications-mining

latest

false

Importante :

Este conteúdo foi traduzido com auxílio de tradução automática. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Guia do desenvolvedor do Communications Mining

Última atualização 10 de fev de 2025

Corrigindo viés de anotação com Communications Mining

O Communications Mining usa modelos de aprendizado de máquina para identificar padrões em dados de comunicação, como e-mails, chats e chamadas. Os modelos extrapolam esses padrões para fazer previsões para dados semelhantes no futuro, gerando processos downstream, como automações e análises.

Para que essa abordagem funcione, os dados usados para treinar um modelo precisam ser representativos das comunicações sobre as quais ele fará previsões. Quando esse não for o caso, os modelos cometerão erros que podem afetar gravemente o desempenho de sistemas que dependem de previsões precisas.

Para ajudar os usuários a criar modelos robustos e de bom desempenho, criamos uma ferramenta para garantir que os dados usados para treinamento sempre correspondam à tarefa de destino do usuário. Neste post do blog, discutimos como essa ferramenta funciona e alguns dos problemas que abordamos durante seu desenvolvimento.

O problema do viés de anotação

O que é viés de anotação?

Os modelos no Communications Mining são treinados em dados revisados pelo usuário. Os usuários criam rótulos para tópicos de seu interesse e, em seguida, anote exemplos com rótulos aplicáveis. Um modelo é então treinado automaticamente nesses dados revisados para prever quais rótulos se aplicam.

Anotar dados é difícil e demorado. O Communications Mining aproveita o aprendizado ativo para acelerar o processo, ajudando os usuários a anotar os pontos de dados mais informativos no tempo mais rápido possível.

Como o aprendizado ativo seleciona pontos de dados específicos, ele costuma se concentrar em um subconjunto dos dados subjacentes. Além disso, alternar entre conceitos vem com uma sobrecarga cognitiva. Os usuários são incentivados a anotar grupos de exemplos de tópicos semelhantes ao mesmo tempo, em vez de mudar constantemente de tema.

Isso pode fazer com que alguns tópicos apareçam com mais ou menos frequência nos dados revisados do que o conjunto de dados como um todo. Chamamos isso de viés de anotação, porque os dados anotados pelos usuários não representam mais os dados subjacentes.

Visualização de anotação viesada e não viesada para um conjunto de dados 2D sintéticos. A anotação não viesada amostra pontos de dados uniformemente dos dados originais. A anotação viesada superestima a frequência de alguns exemplos, enquanto ignora completamente outras áreas.

Por que você deve se importar?

O Communications Mining usa dados revisados durante a validação para avaliar o desempenho do modelo. Se esses dados forem enviesados em relação a determinados tópicos, os resultados da validação podem ser enganosos.

Considere uma caixa de correio compartilhada para um banco multiplataforma que contém emails de toda a região EMEA. Os modelos multilíngues do Communications Mining podem entender dados de comunicação em uma mistura de idiomas. No entanto, se um usuário tiver que rotular apenas e-mails de um único idioma, o modelo pode aprender a se concentrar em recursos específicos desse idioma.

Nesse caso, as pontuações de validação seriam boas para esse modelo, pois ele funciona bem em todos os exemplos anotados. Por outro lado, o desempenho em e-mails em outros idiomas pode ser pior. O usuário não saberia porque não há exemplos para destacar isso nos dados revisados. Isso pode levar a ineficiências em quaisquer processos que dependam do modelo para fazer previsões precisas.

A matemática por trás do viés de rotulagem

Para aqueles com preferência pela matemática, o Communications Mining estima P(Label∣Document). Usando a regra de Byes, podemos decompor isso em:

Cada um desses componentes é estimado a partir de algum ou todo o conjunto de dados durante o treinamento.

P(Document∣Label) Modela o intervalo de documentos para um determinado tópico. O modelo aprende a estimar isso a partir dos dados anotados, extrapolando usando seu conhecimento do idioma e do mundo.
P(Documento) Modela os diferentes tipos de documentos no conjunto de dados e suas frequências relativas. Isso é independente dos rótulos e pode ser estimado a partir de todos os exemplos (tanto revisados quanto não revisados).
P(Rótulo) Modela a frequência de diferentes tópicos. Isso só pode ser estimado a partir dos dados anotados, pois é específico de cada caso de uso.

Todas as três partes são necessárias para encontrar P(Label∣Document). No entanto, tanto P(Rótulo) quanto P(Document∣Label) dependem fortemente dos dados anotados. Quando o viés de anotação está presente, essas estimativas podem não corresponder às distribuição verdadeiras, levando a imprecisões em P(Label∣Document).

Detectando viés de anotação

Dado o papel vital que os dados revisados desempenham no treinamento e validação de modelos, precisamos detectar viés de anotação e avisar os usuários quando seus dados não são representativos.

No nível mais simples, o viés de anotação é uma discrepância entre exemplos que foram revisados pelos usuários e aqueles que não foram. Imagine que uma pessoa seja solicitada a verificar se há viés de anotação em um conjunto de dados. Essa pessoa pode observar temas comuns que aparecem nos dados revisados e, depois, verificar com que frequência ocorrem nos dados não revisados.

Se a pessoa encontrar uma regra confiável para diferenciar esses dois grupos, podemos ter certeza de que há um equilíbrio. Por outro lado, em um conjunto de dados sem viés de anotação, uma pessoa seria incapaz de prever com precisão se os exemplos serão revisados ou não. O desempenho preditivo dessa pessoa mede quanto viés de anotação está presente no conjunto de dados.

Usamos essa ideia como ponto de partida para nosso modelo de viés de anotação.

Criação de um modelo de viés de anotação

A tarefa de comparação pode ser automatizada com um modelo de aprendizado de máquina. Esse modelo é diferente do modelo principal do Communications Mining, que prevê quais rótulos ou campos gerais se aplicam a um documento. Em vez disso, o modelo é treinado para identificar pontos de dados revisados.

As pontuações de validação do modelo mostram com que facilidade o modelo pode distinguir entre exemplos revisados e não revisados e, portanto, quanto viés de anotação está presente no conjunto de dados.

Classificação de exemplos revisados

Um modelo de classificador simples treinado no conjunto de dados sintético tem uma precisão média de mais de 80%. Se o conjunto de dados não fosse enviesado, esperaremos que o modelo não tenha um desempenho melhor do que o aleatório, que corresponde ao viés que podemos ver nos dados revisados.

Limite de decisão para o modelo de viés de anotação treinado no conjunto de dados viesados sintéticos. O modelo aprende um limite de decisão que permite distinguir melhor entre exemplos revisados e não revisados.

Modelos de classificador ingênuos semelhantes treinados em conjuntos de dados reais também podem detectar de forma confiável exemplos revisados. Isso sugere que o viés de anotação estava presente nesses conjuntos de dados, mas a origem exata era desconhecida.

Para o conjunto de dados sintéticos, é fácil ver o efeito do viés de anotação nos dados plotados. Esse não é o caso para um conjunto de dados real, no qual os dados estão em mais de duas dimensões e os padrões geralmente são muito mais complexos.

Em vez disso, podemos procurar padrões em exemplos que o modelo tem certeza de que não foram revisados. Essa abordagem mostrava que os e-mails previstos com confiança como não revisados geralmente continham anexos sem texto. Onde esses e-mails estavam presentes nos dados, eles geralmente eram sub-representados nos exemplos revisados.

Isso constitui um claro viés de anotação e mostra a promessa de um modelo classificador.

Um exemplo de e-mail bancário selecionado pelo classificador de viés. O email contém apenas o nome de arquivo de um anexo. E-mails desse tipo geralmente eram sub-representados nos exemplos revisados.

Detectando viés significativo

O modelo de viés de anotação é treinado para distinguir entre dados revisados e não revisados. Nesta configuração, o modelo tenta capturar o usuário identificando padrões em seus dados anotados. Essa abordagem adversa é uma maneira poderosa de inspecionar os dados revisados, mas também gera dois problemas interessantes.

Diferenças Triviais

Diferenças entre dados revisados e não revisados selecionados pelo modelo devem ter significado para os usuários. No entanto, quando fornecemos o modelo de viés ingênuo com entradas detalhadas, encontramos o modelo às vezes focado em padrões insignificantes.

Por exemplo, em um conjunto de dados, e-mails apenas como anexo, contendo arquivos .jpg com GOCR no nome, foram previstos com confiança como não revisados. Não havia tais exemplos no conjunto revisado, mas 160 no conjunto não revisado, representando um pequeno viés de anotação.

Essa combinação de funcionalidades não era significativa para o usuário. Nenhum processo downstream dependia da presença de GOCR em nomes de arquivos, e esses exemplos eram apenas um subconjunto de e-mails somente de anexo no conjunto de dados. Na verdade, todos esses e-mails tinham previsões seguras e corretas para o rótulo Auto-Generated do conjunto de dados, o que significa que esses recursos também não tiveram significação para o modelo de anotação do Communications Mining. No entanto, o modelo de viés estava usando esses recursos para fazer previsões.

Os usuários não devem ter que rotular todas as combinações de recursos sem sentido para obter uma boa pontuação de viés de anotação. Para quase todos os conceitos, não precisamos de milhares de exemplos para capturar totalmente o intervalo de pontos de dados possíveis. Em vez disso, o modelo de viés de anotação deve se concentrar apenas nas diferenças que realmente afetam as previsões de anotação.

Tópicos não importantes

Os conjuntos de dados podem conter pontos de dados que nunca são anotados pelos usuários porque são irrelevantes para a sua tarefa de destino.

Retornando ao nosso exemplo bancário multiplataforma, as equipes podem usar o Communications Mining para realizar casos de uso específicos de cada país. Cada equipe construiria um modelo personalizado para sua tarefa de destino, com todos os modelos usando e-mails da caixa de e-mail compartilhada.

Esses casos de uso provavelmente serão diferentes entre as equipes. Os países da Europa podem querer monitorar o efeito do Brexit em suas operações e criar um conjunto de rótulos para esse fim. Por outro lado, equipes no oriente Médio e na África podem não ter uso para e-mails relacionados ao Brexit e os ignorariam em seu modelo.

Não anotar e-mails relacionados ao Brexit é um exemplo de viés de anotação. No entanto, esse é um viés sem importância para usuários no Orien-te Médio e na África. O modelo de viés deve levar isso em consideração e pesquisar apenas o viés de anotação em e-mails que a equipe considerar útil.

Uso de rótulos como um sinal

Precisamos tornar mais difícil para o rotulador se concentrar em recursos pequenos, mas guie isso pelo que o usuário define como útil. Para fazer isso, podemos alterar as entradas que passam para nosso modelo de viés de anotação.

Entradas do modelo

Observação: Entradas do modelo. Nosso modelo de anotação principal não funciona diretamente com texto. Em vez disso, usamos um modelo de linguagem para converter dados de comunicação em entradas de modelo (conhecido como incorporação). Essas entradas contêm as informações úteis presentes nos dados, mas em uma forma que o modelo pode interpretar.

As entradas para nosso modelo de anotação principal contêm uma grande quantidade de informações do texto de entrada. Isso permite que o modelo aprenda relacionamentos complexos que influenciam as previsões do rótulo. No entanto, para o modelo de viés de anotação, isso também permite que o modelo se concentre em diferenças pequenas e sem sentido em recursos como nomes de arquivos.

A redução de dimensionamento é uma maneira de filtrar informações enquanto mantém as propriedades significativas das entradas originais. O uso de entradas reduzidas impede que o modelo de viés se concentre em recursos pequenos, enquanto retém informações importantes em um conjunto de dados.

Os usuários apenas criam rótulos para tópicos que desejam rastrear, portanto, incluir rótulos durante a redução de dimensionamento significa que mantemos as funcionalidades de entrada mais importantes. Com essa abordagem, nosso modelo de viés de anotação não se concentra mais em recursos pequenos e leva em consideração rótulos ao estimar o viés.

A redução de dimensionamento é usada para reduzir o tamanho das entradas para o modelo de viés, enquanto mantém funcionalidades úteis

Viés de anotação no Communications Mining

Usamos nosso modelo de viés de anotação para duas tarefas principais no Communications Mining.

Pontuações de equilíbrio

Detectar e lidar com o viés de anotação é vital para pontuações confiáveis de validação do modelo. Por isso, mostramos o desempenho do modelo de viés de anotação na classificação do modelo.

Isso está na forma de uma medida de similaridade entre os dados revisados e não revisados. Uma pontuação de similaridade baixa indica uma grande diferença entre dados revisados e não revisados, destacando o viés de anotação no conjunto de dados.

O fator Saldo na classificação do modelo fornece uma pontuação com base na similaridade entre dados revisados e não revisados

Rebalanceamento

A melhor maneira de criar um conjunto não enviesado de dados revisados é anotar uma seleção aleatória de exemplos. Dessa forma, os rótulos revisados sempre corresponderão à distribuição subjacente. No entanto, anotar dessa maneira é ineficiente, especialmente para conceitos raros.

Em vez disso, o Communications Mining usa o aprendizado ativo para acelerar o processo de anotação, direcionando os exemplos mais úteis. Esses exemplos direcionados nem sempre correspondem à distribuição de dados subjacente, o que significa que vieses de anotação podem se desenvolver gradualmente ao longo do tempo.

Não é garantido que o aprendizado ativo produza um conjunto isento de vieses de exemplos revisados. No entanto, quando o viés de anotação é detectado, podemos usar o modelo de viés de anotação para resolver qualquer desvio. Dessa forma, nos beneficiamos do tempo de treinamento reduzido do aprendizado ativo e do baixo viés de anotação da amostra aleatória.

Isso é a base para nossa visualização Rebalance , que mostra pontos de dados que o modelo de viés tem confiança que não foram revisados e, portanto, sub-representados no conjunto de dados. Anotar esses exemplos fornece uma maneira rápida de lidar com o viés de anotação em um conjunto de dados.

Aprendizado ativo equilibrado

Para demonstrar como o rebalanceamento melhora o desempenho do Communications Mining, simulamos usuários anotando exemplos seguindo três estratégias de aprendizado ativas.

Aleatório. Anote uma seleção aleatória dos exemplos não revisados.
Padrão Anote exemplos dos quais o Communications Mining não tem certeza ou aqueles com a maior entropia de previsão. Essa é uma abordagem comum para o aprendizado ativo e é equivalente a usar apenas a visualização Teach no Communications Mining.
Communications Mining. Siga a estratégia de aprendizado ativo do Communications Mining, que sugere as principais ações de treinamento para melhorar o modelo atual. Isso inclui a exibição Rebalance .

Executamos essas simulações no conjunto de dados de código aberto da Reputação fornecido pela NLTK , que contém artigos de notícias marcados com um ou mais dos 90 rótulos. Para cada execução, o mesmo conjunto inicial de 100 exemplos selecionado aleatoriamente foi usado. Para cada etapa da simulação, modelamos usuários anotando 50 exemplos selecionados pela estratégia de aprendizado ativa. Então, o Communications Mining retreina e o processo é repetido.

O gráfico abaixo mostra o desempenho do modelo de anotação do Communications Mining na tarefa possível à medida que mais exemplos são anotados. A pontuação de saldo também é mostrada, representando a quantidade de viés de anotação presente no conjunto de dados.

Pontuação de balanceamento e precisão média média para diferentes estratégias de aprendizado ativas treinadas no conjunto de dados da RU. docs image

Seguindo a estratégia de aprendizado ativo padrão, recebemos uma precisão média semelhante à Communications Mining, com amostra aleatória com a menor pontuação entre as três estratégias. No entanto, o aprendizado ativo padrão também leva a um viés de anotação significativo, o que significa que os resultados da validação para essa abordagem podem ser enganosos.

A estratégia de aprendizado ativo do Communications Mining produz pontuações de saldo semelhantes à amostra aleatória, mas requer menos exemplos para produzir o mesmo desempenho do modelo. Isso significa que o aprendizado ativo com o Rebalanceamento oferece o melhor do aprendizado ativo padrão e da amostra aleatória: exemplos revisados imparciais e bom desempenho do modelo em menos tempo.

Summary

Para obter pontuações de validação de modelo precisas, os dados anotados devem ser representativos do conjunto de dados como um todo.
O modelo de viés de anotação do Communications Mining compara dados revisados e não revisados para localizar tópicos que estão sub-representados no conjunto de dados.
A visualização Rebalance pode ser usada para resolver rapidamente o viés de anotação em um conjunto de dados.
O aprendizado ativo do Communications Mining leva a menos viés de anotação do que as abordagens padrão e tem um desempenho melhor do que a amostra aleatória isoladamente.

Nesta página