- Documentos da API
- CLI
- Guias de integração
- Blog
- Como as máquinas aprendem a entender as palavras: um guia para incorporações ao NLP
- Aprendizado baseado em solicitação com Transformers
- Efficient Transformers II: extração de conhecimento e ajustes finos
- Transformers eficientes I: mecanismos de atenção
- Modelagem de intenção hierárquica profunda não supervisionada: obtenção de valor sem dados de treinamento
- Corrigindo viés de anotação com Communications Mining
- Aprendizado ativo: melhores modelos de ML em menos tempo
- Está tudo nos números - avaliando o desempenho do modelo com métricas
- Por que a validação de modelos é importante
- Comparação do Communications Mining e do Google AutoML para inteligência de dados conversacional
Comparação do Communications Mining e do Google AutoML para inteligência de dados conversacional
Quando se trata de aproveitar o poder do NLP e do ML para automatizar processos, obter melhores análises e entender mais fundo as conversas que uma empresa tem, a primeira decisão geralmente é comprar uma solução ou criar a sua própria.
Este post compara o desempenho e a filosofia de design da plataforma Communications Mining com uma das soluções de NLP em nuvem mais potentes, o AutoML do Google.
Esperamos fornecer alguns insights sobre o processo de uso de um produto de inteligência de comunicação empresarial dedicado, comparado ao uso de uma ferramenta de uso mais geral, e as vantagens de se esperar.
O Communications Mining e o Google AutoML são soluções que exigem que o usuário crie um conjunto de dados de treinamento anotado que associa rótulos a conversas. A qualidade dos dados de treinamento determina a qualidade das previsões retornadas desse modelo treinado.
A chave para dados de treinamento de alta qualidade é aplicar rótulos de forma consistente e representar com precisão o domínio sobre o qual você deseja fazer previsões.
A primeira grande diferença entre o Communications Mining e o Google AutoML é a filosofia do design em relação a como o produto deve ser usado.
Tarefas de anotação vs. aprendizado ativo
O fluxo do AutoML é criar um conjunto de dados anotado offline, que é carregado e usado para treinar um modelo. Anotar um conjunto de dados é uma operação dispendiosa que requer muito trabalho inicial. A forma como os rótulos são produzidos está fora do escopo do AutoML, mas uma solução possível é terceirizar a anotação para terceiros. O Google fornece tarefas de anotação para esse fim, que são integradas ao AutoML, ou pode-se usar o Amazon 's Robot .
Isso não é o ideal por alguns motivos
-
O acesso de terceiros muitas vezes é um impedimento para conversas internas confidenciais.
-
Pode não ser interessante terceirizar a anotação para pessoas que não tenham o insight relevante necessário para capturar por completo as complexidades das comunicações de uma empresa
-
O conhecimento contextual do domínio é a chave para dados de treinamento de alta qualidade. Por exemplo, qualquer pessoa pode anotar imagens de transferências, mas menos ainda e-mails de uma caixa de correio de banco de investimento pós-operação, para isso são necessários Especialistas no Assunto (SMEs).
No Communications Mining, incentivamos as pessoas a carregar uma grande quantidade de dados não anotados e a usar nosso aprendizado ativo para criar a anotação interativamente. Entendemos que a exploração e a anotação de dados interativas são a chave para criar um conjunto de rótulos que realmente capturam todas as informações e detalhes interessantes das conversas de uma empresa no nível certo de granularidade.
Obviamente, se você já tiver um conjunto de dados anotado grande que gostaria de usar como ponto de partida, pode usar nossa ferramenta CLI para carregar também o conjunto de dados anotado.
Criação de modelos em cascata e ágil
O AutoML fornece alguma ajuda sobre como melhorar um modelo, revelando falsos positivos e falsos negativos para cada rótulo. O Communications Mining fornece um conjunto de avisos e ações sugeridas para cada rótulo, o que permite que os usuários entendam melhor os modos de falha de seu modelo e, assim, a maneira mais rápida de melhorá-lo.
Outro eixo ao longo do qual o AutoML e o Communications Mining diferem é o modelo de dados que utilizam. O AutoML fornece uma estrutura de propósito geral tanto para entradas quanto para destinos. Communications Mining é otimizado para os principais canais de comunicação mediados por linguagem natural.
Conversas semiestruturadas
A maioria das conversas digitais acontece em um dos seguintes formatos:
-
Emails
-
Tíquetes
-
Chats
-
Chamadas telefônicas
-
Feedback / Revisões / Pesquisas
Todos esses formatos são semiestruturados, os quais têm informações além do texto que contêm. Um email tem um remetente e alguns destinatários, além de um assunto. Os chats têm participantes e carimbos de data/hora diferentes. As avaliações podem ter metadados associados, como a pontuação.
O AutoML não tem uma maneira canônica de representar essas informações semiestruturadas ao carregar exemplos de treinamento; ele lida apenas com texto. O Communications Mining fornece suporte de primeira classe para estrutura de e-mail, bem como campos de metadados arbitrários por meio de propriedades do usuário.
Conforme exibido no exemplo abaixo, os e-mails empresariais geralmente contêm assinaturas grandes e/ou avisos de exoneração de responsabilidade que podem ser muito maiores do que o conteúdo real do e-mail. O AutoML não tem lógica de remoção de assinaturas, portanto, usamos o Communications Mining para analisar as assinaturas antes de passá-las para o AutoML. Embora os algoritmos de machine learning modernos possam lidar muito bem com o ruído devido às assinaturas, o mesmo não pode ser considerado em relação aos rotuladores humanos. Ao tentar analisar um e-mail para qualquer rótulo que se aplique e diferenciar temas interessantes, a carga cognitiva de ter que ignorar as assinaturas longas não é desprezível e pode levar a uma qualidade pior do rótulo.
Conceitos relacionados
Delivery
> Speed Delivery
> Cost Delivery
> Tracking
. Para insights mais refinados, outros detalhamentos são possíveis, como Delivery
> Cost
> Free Shipping Delivery
> Cost
> Taxes & Customs
.
Delivery
de nível superior sem precisar fazer nada explicitamente em relação aos rótulos filhos.
O AutoML não é compatível com rótulos estruturados; em vez disso, supõe total dependência entre rótulos. Esse é o modelo de dados mais usado para rótulos NLP, mas acredita-se que ele não tenha a especificidade necessária para trabalhar de maneira otimizada com conversas semiestruturadas.
Além da estrutura do rótulo, o sentimento de um trecho de texto geralmente é interessante para feedback ou análise de pesquisas. O Google fornece um modelo de sentimento separado, que permite que os usuários usem um modelo de sentimento pronto para uso que fornecerá um sentimento global para a entrada. No entanto, para uma linguagem natural complexa, é bastante comum ter vários sentimentos simultaneamente. Por exemplo, considere o seguinte feedback:
Positive
e Negative
de cada rótulo, não há como indicar que essas são duas versões do mesmo rótulo, o que significa que seria necessário anotar duas vezes maior que muitos dados.
Entradas idênticas
Uma outra observação interessante é em relação à desduplicação de entradas. Em geral, ao validar um modelo de machine learning, é vital preservar a separação rigorosa entre os conjuntos de treinamento e teste para evitar o vazamento de dados, que pode levar a estimativas de desempenho superotimistas e, assim, causar falhas inesperadas na implantação.
O AutoML desduplicará automaticamente todas as entradas, avisando o usuário que há entradas duplicadas. Embora seja a abordagem certa para uma API NLP de uso geral, esse não é o caso para dados de conversas.
Muitos e-mails que são enviados internamente são gerados automaticamente, desde mensagens de ausência temporária até lembretes de reuniões. Ao analisar os resultados de uma pesquisa, é totalmente possível que muitas pessoas respondam exatamente à mesma coisa, especialmente para perguntas restritas como
Is there anything we could do to improve? → No.
Isso significa que muitas dessas entradas duplicadas são explicitamente duplicadas na distribuição do mundo real, e é importante avaliar o desempenho do modelo com essas entradas bem conhecidas e estritamente idênticas.
Agoraque discutimos as diferenças de nível superior, queremos avaliar o desempenho bruto de ambos os produtos para ver qual deles exigiria menos esforço para implantar um modelo pronto para produção.
Configuração
Procuramos tornar a comparação o mais leal possível. Avaliamos o desempenho em três conjuntos de dados representativos dos três principais casos de uso de NLP empresarial
Tamanho |
Rótulos Atribuídos |
Rótulos Exclusivos | |
---|---|---|---|
E-mails do Banco de investimento |
1368 |
4493 |
59 |
E-mails de Subscrição de Seguro |
3964 |
5188 |
25 |
Feedback de comércio eletrônico |
3510 |
7507 |
54 |
Processamos os dados da seguinte maneira
-
Formato dos dados. Para o Communications Mining, usamos o suporte de e-mail integrado. O AutoML espera um blob de texto, portanto, para representar a estrutura de email, usamos o formato
Subject: <SUBJECT-TEXT> Body: <BODY-TEXT>
-
Remoção de Assinatura. Todos os corpos de e-mails foram pré-processados para remover suas assinaturas antes de serem passados para o modelo de aprendizado de máquina.
Como as tarefas de anotação do AutoML não são aplicáveis aos dados internos confidenciais, usamos rótulos anotados por PMEs com a plataforma de aprendizado ativo Communications Mining para criar os dados supervisionados que usaremos para treinar ambos os modelos.
Escolhemos esses conjuntos de dados devido à sua natureza representativa e não os modificamos após ver os resultados iniciais, para evitar qualquer viés de amostra ou escolha aleatória.
Mantemos um conjunto de testes fixo que usamos para avaliar ambas as plataformas, e treinamos ambas com os mesmos dados de treinamento. O AutoML requer que os usuários especifiquem manualmente as divisões de treinamento e validação, para isso, amostramos aleatoriamente 10% dos dados de treinamento para usar como validação, conforme sugerido pela documentação do AutoML.
Métricas
A página Validação do Communications Mining ajuda os usuários a entender o desempenho de seus modelos. A métrica principal que usamos é Precisão média média. O AutoML relata a Precisão média em todas as previsões de rótulos, bem como a Precisão e o recall em um determinado limite.
A Precisão Média média considera melhor o desempenho de todos os rótulos, uma vez que é uma média não ponderada do desempenho de rótulos individuais, enquanto que a Precisão Média, Precisão e Recall capturam o comportamento global do modelo em todas as entradas e rótulos e, assim, representam melhor os atributos comumente rótulos ocorrentes.
Comparamos as seguintes métricas:
-
Precisão média média A métrica usada pelo Communications Mining, que é a precisão média macro entre rótulos
-
Precisão média A métrica usada pelo AutoML, que é a precisão mínima média em todas as previsões
-
A Precisão de pontuação F1 e a Recall, por si só, não são significativas, pois uma pode ser trocada pela outra. Relatamos a pontuação F1, que representa o desempenho de uma tarefa em que precisão e recall são igualmente importantes.
Os Leitores interessados podem encontrar as Curvas de Precisão-Recall completas na seção relevante.
O Communications Mining supera o AutoML em todas as métricas em todos os conjuntos de dados de referência, em média de 5 a 10 pontos. Essa é uma indicação clara de que uma ferramenta especializada para aprender com as comunicações é mais adaptada para automações e análises corporativas de alto desempenho.
Como o AutoML foi criado para lidar com tarefas NLP de uso geral, ele deve ser flexível o suficiente para se adaptar a qualquer tarefa baseada em texto, em detrimento de qualquer tarefa específica. Além disso, como muitas soluções prontas para uso que aproveitam o aprendizado de transferência, o conhecimento inicial do AutoML é focado mais na linguagem do dia a dia comumente usada em mídias sociais e artigos de mídia. Isso significa que a quantidade de dados necessários para adaptá-lo à comunicação empresarial é muito maior do que um modelo cujo objetivo principal é lidar com a comunicação empresarial, como o Communications Mining, que pode aproveitar o aprendizado de transferência de conhecimentos iniciais muito semelhantes. Em termos de impacto no mundo real, isso significa mais valor para as PME: tempo gasto anotando, mais tempo antes de extrair valor do modelo e maior custo de adoção.
Registre com poucos dados
Além do conjunto de dados completo, também queremos avaliar o desempenho de modelos treinados com poucos dados. Como a coleta de dados de treinamento é um processo custoso e demorado, a velocidade na qual um modelo melhora quando fornecidos dados é uma consideração importante ao escolher uma plataforma de NLP.
O aprendizado com poucos dados é conhecido como aprendizado de poucos disparos. Especificamente, ao tentar aprender com exemplos K para cada rótulo, isso geralmente é anotado como aprendizado K-shot.
Para avaliar o desempenho com poucas disparos, criamos versões menores de cada conjunto de dados amostrando 5 e 10 exemplos de cada rótulo, e registramos esses conjuntos como conjuntos de dados de 5 e 10 disparos, respectivamente. Como mencionamos anteriormente, o Communications Mining usa uma estrutura de rótulo hierárquica, o que significa que não podemos amostrar exatamente 5 exemplos para cada rótulo, pois os filhos não podem se inscrever sem os pais. Assim, construímos esses conjuntos de dados amostrando rótulos folha na hierarquia, para que os pais tenham potencialmente mais exemplos.
Essas amostras são selecionadas de forma completamente aleatória, sem nenhum viés de aprendizado ativo que possa beneficiar a plataforma Communications Mining.
Como o AutoML não permite que os usuários treinem modelos, a menos que todos os rótulos tenham pelo menos 10 exemplos, não é possível relatar o desempenho de cinco disparos
No modo de baixo número de dados, o Communications Mining supera significativamente o AutoML na maioria das métricas para todas as tarefas. Observamos que o desempenho de 5 disparos para o Communications Mining já é concorrente do desempenho do AutoML de 10 disparos na maioria das métricas.
Ter um modelo preciso com poucos pontos de treinamento anotados é incrivelmente poderoso, pois significa que os humanos podem começar a trabalhar colaborativamente com o modelo muito mais cedo, restringindo o loop de aprendizado ativo.
A métrica em que o AutoML tem melhor desempenho é a Precisão média média para o desempenho de 10 disparos para o Feedback do cliente, em que o AutoML supera o Communications Mining em 1,5 ponto.
Como o AutoML é uma ferramenta de uso geral, ele funciona melhor para dados em prosa, e o feedback do cliente geralmente não inclui dados semiestruturados importantes ou jargões específicos de domínios com os quais uma ferramenta de uso geral teria problemas, o que pode ser uma razão pela qual o AutoML funciona bem.
Tempo de treinamento
O treinamento do modelo é um processo complexo; portanto, o tempo de treinamento é um fator importante a ser considerado. O treinamento rápido do modelo significa ciclos de iteração rápidos e um loop de feedback mais restrito. Isso significa que cada rótulo aplicado por um humano resulta em melhorias mais rápidas para o modelo, o que reduz o tempo necessário para obter valor do modelo.
Communications Mining |
AutoML | |
---|---|---|
E-mails do Banco de investimento |
1m32s |
4h4m |
Feedback de comércio eletrônico |
2m45s |
4h4m |
E-mails de Subscrição de Seguro |
55s |
3h59m |
O Communications Mining foi construído para o aprendizado ativo. O tempo de treinamento é muito importante para nós, e nossos modelos são otimizados para treinar rápido sem comprometer a precisão.
Treinar um modelo de AutoML é ~200x mais lento em média em comparação com o Communications Mining.
Os modelos de AutoML requerem ordens de magnitude mais longas para treinar, o que os torna muito menos propensos a serem usados em um loop de aprendizado ativo. Como o tempo de iteração é muito longo, o melhor caminho para melhorar um AutoML é provavelmente ter grandes lotes de anotações entre o retreinamento do modelo, o que traz riscos de anotação de dados redundante (fornecendo mais exemplos de treinamento para um conceito que já é bem compreendido) e má exploração de dados (não saber o que o modelo não sabe torna mais difícil atingir uma maior cobertura de conceito).
Ao construir uma solução de NLP empresarial, o poder preditivo bruto de um modelo é apenas um aspecto que precisa ser considerado. Embora tenhamos encontrado que o Communications Mining supera o AutoML em tarefas empresariais comuns de NLP, os principais insights que recebemos foram as diferenças fundamentais nas abordagens ao NLP que essas plataformas têm.
-
O Communications Mining é uma ferramenta sob medida para a análise semiestruturada de conversas. Ele inclui mais dos componentes necessários para construir um modelo do zero em uma estrutura ágil.
-
O AutoML é uma ferramenta de NLP de uso geral que deve ser integrada a outros componentes para ser eficaz. Ela se concentra mais na construção de modelos com dados anotados pré-existentes, em uma estrutura em cascata para a construção de modelos de aprendizado de máquina.
-
Ambas as ferramentas são capazes de criar modelos de última geração altamente concorrentes, mas o Communications Mining é mais adequado para as tarefas específicas que são comuns na análise de comunicação empresarial.
A menos que os requisitos exatos possam ser definidos antecipadamente, os longos tempos de treinamento dos modelos de AutoML são proibitivos para conduzir a exploração interativa de dados em um loop de aprendizado ativo, algo para o que o Communications Mining foi criado.
O requisito do AutoML de ter 10 exemplos para cada rótulo antes de treinar um modelo significa que não é possível usar efetivamente o modelo para guiar a anotação nos estágios iniciais, que é justamente a parte mais difícil de um projeto de machine learning.
Além disso, a lacuna distributiva entre as tarefas que o AutoML e o Communications Mining esperam significa que a ferramenta mais específica é capaz de produzir modelos de maior qualidade mais rapidamente, devido ao uso mais focado do aprendizado de transferência.
Se você achou esta comparação interessante, tem quaisquer comentários ou perguntas, ou quer tentar usar o Communications Mining para entender melhor as conversas da sua empresa, entre em contato com a UiPath!