- Notas de Versão
- Introdução
- Notificações
- Projetos
- Conjuntos de dados
- Rotulagem de Dados
- Pacotes de ML
- Pacotes para uso imediato
- Pipelines
- Habilidades de ML
- Logs de ML
- Document UnderstandingTM no AI Center
- API do AI Center
- Licenciamento
- Modelos de soluções de IA
- Como fazer
- Guia básico de solução de problemas
Classificação de textos
Pacotes do SO > Análise de idiomas > TextClassification
Esse é um modelo genérico retreinável para a classificação de idiomas. Esse pacote de ML deve ser retreinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado.
Esse modelo é uma arquitetura de aprendizado profundo para a classificação de idiomas. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em idioma natural. Uma GPU pode ser usada tanto no tempo de serviço quanto no tempo de treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade. O modelo teve seu código aberto pelo Facebook AI Research.
O principal fator determinante do desempenho do modelo será a qualidade dos dados usados para o treinamento. Além disso, os dados usados para parametrizar esse modelo também podem influenciar o desempenho. Esse modelo foi treinado nos 100 principais idiomas com as maiores Wikipedias (lista completa)
Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.
Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).
Há duas opções possíveis para estruturar seu conjunto de dados para esse modelo. Não é possível usar ambas as opções ao mesmo tempo. Por padrão, o modelo procurará o arquivo dataset.csv no diretório da pasta superior; se for achado, ele usará a opção 2 aqui; caso contrário, o modelo tentará usar a opção 1 (estrutura da pasta).
Use a estrutura da pasta para separar sua classe
Crie uma pasta para cada classe (no nível superior do conjunto de dados) e adicione um arquivo de texto por ponto de dados na pasta correspondente (a pasta é a classe, e o arquivo só tem a entrada). A estrutura do conjunto de dados tem a seguinte aparência:
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Use um arquivo csv
Reagrupe todos os seus dados em um arquivo csv chamado dataset.csv no nível superior do seu conjunto de dados. O arquivo precisará ter duas colunas: input (o texto) e target (a classe). Ele terá a seguinte aparência:
input,target
I like this movie,positive
I hated the acting,negative
input,target
I like this movie,positive
I hated the acting,negative
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, de Devlin, Jacob e Chang, Ming-Wei e Lee, Kenton e Toutanova, Kristina.