- Notas de Versão
- Introdução
- Notificações
- Projetos
- Conjuntos de dados
- Rotulagem de Dados
- Pacotes de ML
- Pacotes para uso imediato
- Pipelines
- Habilidades de ML
- Logs de ML
- Document UnderstandingTM no AI Center
- API do AI Center
- Licenciamento
- Modelos de soluções de IA
- Como fazer
- Guia básico de solução de problemas

AI Center
Pacotes do SO > Análise de idiomas > TextClassification
Esse é um modelo genérico retreinável para a classificação de idiomas. Esse pacote de ML deve ser retreinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado.
Esse modelo é uma arquitetura de aprendizado profundo para a classificação de idiomas. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em idioma natural. Uma GPU pode ser usada tanto no tempo de serviço quanto no tempo de treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade. O modelo teve seu código aberto pelo Facebook AI Research.
O principal fator determinante do desempenho do modelo será a qualidade dos dados usados para o treinamento. Além disso, os dados usados para parametrizar esse modelo também podem influenciar o desempenho. Esse modelo foi treinado nos 100 principais idiomas com as maiores Wikipedias (lista completa)
Tipo de Entrada
JSON
Descrição da entrada
Texto a ser classificado como string: "I loved this movie".
Descrição da saída
JSON com o nome de classe previsto, a confiança associada nessa previsão de classes (entre 0 e 1).
Exemplo:
{
"class": "Positive",
"confidence": 0.9422031841278076
}
{
"class": "Positive",
"confidence": 0.9422031841278076
}
Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.
Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).
Formato do conjunto de dados
Há duas opções possíveis para estruturar seu conjunto de dados para esse modelo. Não é possível usar ambas as opções ao mesmo tempo. Por padrão, o modelo procurará o arquivo dataset.csv no diretório da pasta superior; se for achado, ele usará a opção 2 aqui; caso contrário, o modelo tentará usar a opção 1 (estrutura da pasta).
Use a estrutura da pasta para separar sua classe
Crie uma pasta para cada classe (no nível superior do conjunto de dados) e adicione um arquivo de texto por ponto de dados na pasta correspondente (a pasta é a classe, e o arquivo só tem a entrada). A estrutura do conjunto de dados tem a seguinte aparência:
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Use um arquivo csv
Reagrupe todos os seus dados em um arquivo csv chamado dataset.csv no nível superior do seu conjunto de dados. O arquivo precisará ter duas colunas: input (o texto) e target (a classe). Ele terá a seguinte aparência:
input,target
I like this movie,positive
I hated the acting,negative
input,target
I like this movie,positive
I hated the acting,negative
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, de Devlin, Jacob e Chang, Ming-Wei e Lee, Kenton e Toutanova, Kristina.