ai-center
latest
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo.
AI Center
Automation CloudAutomation SuiteStandalone
Last updated 10 de out de 2024

Classificação de textos

Pacotes do SO > Análise de idiomas > TextClassification

Esse é um modelo genérico retreinável para a classificação de idiomas. Esse pacote de ML deve ser retreinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado.

Esse modelo é uma arquitetura de aprendizado profundo para a classificação de idiomas. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em idioma natural. Uma GPU pode ser usada tanto no tempo de serviço quanto no tempo de treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade. O modelo teve seu código aberto pelo Facebook AI Research.

Idiomas

O principal fator determinante do desempenho do modelo será a qualidade dos dados usados para o treinamento. Além disso, os dados usados para parametrizar esse modelo também podem influenciar o desempenho. Esse modelo foi treinado nos 100 principais idiomas com as maiores Wikipedias (lista completa)

Detalhes do modelo

Tipo de Entrada

JSON

Descrição da entrada

Texto a ser classificado como string: "I loved this movie".

Descrição da saída

JSON com o nome de classe previsto, a confiança associada nessa previsão de classes (entre 0 e 1).

Exemplo:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.

Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).

Formato do conjunto de dados

Há duas opções possíveis para estruturar seu conjunto de dados para esse modelo. Não é possível usar ambas as opções ao mesmo tempo. Por padrão, o modelo procurará o arquivo dataset.csv no diretório da pasta superior; se for achado, ele usará a opção 2 aqui; caso contrário, o modelo tentará usar a opção 1 (estrutura da pasta).

Use a estrutura da pasta para separar sua classe

Crie uma pasta para cada classe (no nível superior do conjunto de dados) e adicione um arquivo de texto por ponto de dados na pasta correspondente (a pasta é a classe, e o arquivo só tem a entrada). A estrutura do conjunto de dados tem a seguinte aparência:

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

Use um arquivo csv

Reagrupe todos os seus dados em um arquivo csv chamado dataset.csv no nível superior do seu conjunto de dados. O arquivo precisará ter duas colunas: input (o texto) e target (a classe). Ele terá a seguinte aparência:

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Papel

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, de Devlin, Jacob e Chang, Ming-Wei e Lee, Kenton e Toutanova, Kristina.

  • Idiomas
  • Detalhes do modelo
  • Tipo de Entrada
  • Descrição da entrada
  • Descrição da saída
  • Pipelines
  • Formato do conjunto de dados
  • Papel

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.