- Introdução
- Notificações
- Projetos
- Conjuntos de dados
- Rotulagem de Dados
- Pacotes de ML
- Pacotes para uso imediato
- Pipelines
- Habilidades de ML
- Logs de ML
- Document UnderstandingTM no AI Center
- API do AI Center
- Licenciamento
- Modelos de soluções de IA
- Como fazer
- Guia básico de solução de problemas
Guia do usuário do AI Center
Este pacote de ML ficará obsoleto em breve. Para obter mais informações, consulte a página Linha do tempo de descontinuação no guia Visão geral .
A Classificação de texto com vários rótulos está atualmente em visualização pública.
A UiPath® está comprometida com a estabilidade e a qualidade de nossos produtos, mas as funcionalidades de visualização sempre estão sujeitas à alteração com base no feedback que recebemos de nossos clientes. O uso das funcionalidades de visualização não é recomendado para implantações de produção.
Classificação de texto com vários rótulos de Pacotes para uso imediato
Esse é um modelo genérico e retreinável para marcar um texto com vários rótulos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. É recomendável o uso de uma GPU, especialmente durante o treinamento.Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.
Idiomas
Esse modelo multilíngue é compatível com os idiomas da lista a seguir. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:
- Africâner
- Albanês
- Árabe
- Aragonês
- Armênio
- Asturiano
- Azeri
- Basquir
- Basco
- Bávaro
- Bielorrusso
- Bengalês
- Bishnupriya Manipuri
- Bósnio
- Bretão
- Búlgaro
- Birmanês
- Catalão
- Cebuano
- Checheno
- Chinês (Simplificado)
- Chinês (Tradicional)
- Chuvache
- Croata
- Checo
- Dinamarquês
- Holandês
- English
- Estoniano
- Finlandês
- Francês
- Galego
- Georgiano
- Alemão
- Grego
- Gujarati
- Haitiano
- Hebraico
- Hindi
- Húngaro
- Islandês
- Ido
- Indonésio
- Irlandês
- Italiano
- Japonês
- Javanês
- Canarês
- Cazaque
- Quirguiz
- Coreano
- Latim
- Letão
- Lituano
- Lombardo
- Baixo saxão
- Luxemburguês
- Macedônio
- Malgaxe
- Malaio
- Malaiala
- Marata
- Minangkabau
- Nepalês
- Neuari
- Norueguês (bokmal)
- Norueguês (nynorsk)
- Occitano
- Persa (farsi)
- Piemontês
- Polonês
- Português
- Punjabi
- Romeno
- Russo
- Ânglico escocês
- Sérvio
- Servo-croata
- Siciliano
- Eslovaco
- Esloveno
- Azeri do sul
- Espanhol
- Sundanês
- Suaíli
- Sueco
- Tagalog
- Tajique
- Tamil
- Tártaro
- Telugu
- Turco
- Ucraniano
- Urdu
- Usbeque
- Vietnamita
- Volapuque
- Waray-Waray
- Galês
- Frísico ocidental
- Punjabi ocidental
- Iorubá
Detalhes do modelo
Tipo de Entrada
JSON
Descrição da entrada
Texto a ser classificado como string: “Amo esse ator, mas odeio seus filmes”.
Descrição da saída
JSON com duas listas. A primeira lista terá o(s) rótulo(s) previsto(s) e a segunda lista terá a confiança associada ao rótulo previsto (entre 0 e 1).
Exemplo:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
Recomendar GPU
Por padrão, recomenda-se uma GPU.
Treinamento Habilitado
O treinamento está habilitado.
Pipelines
Esse pacote oferece suporte a todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação). Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado. O modelo usa técnicas avançadas para encontrar um modelo com bom desempenho. Nos treinamentos seguintes após o primeiro, o modelo usa um aprendizado incremental (ou seja, a versão treinada anteriormente será usada no fim de uma execução de treinamento).
Formato do conjunto de dados
O modelo lerá todos os arquivos CSV no diretório especificado. Em cada arquivo CSV, o modelo espera que haja duas colunas ou duas propriedades, text e label por padrão. Os nomes dessas duas colunas e/ou propriedades são configuráveis usando variáveis de ambiente.
Formato de arquivo CSV
Cada arquivo CSV pode ter qualquer número de colunas, mas apenas duas serão usadas pelo modelo. Essas colunas são especificadas pelos parâmetros dataset.text_column_name (se não for modificado, o valor padrão é text) e dataset.target_column_name (se não for modificado, o valor padrão é labels).
Por exemplo, um único arquivo CSV pode ter a seguinte aparência:
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
Treinamento na GPU ou na CPU
É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.
Variáveis de Ambiente
- dataset.text_column_name — valor padrão
text - model.epochs — valor padrão
100 - dataset.target_column_name — valor padrão
label
Artefatos
Matriz de confusão
Para cobrir melhor todos os rótulos no caso da “Classificação de texto com vários rótulos”, a matriz de confusão é um arquivo JSON. Fornecemos uma matriz de confusão para cada rótulo ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Relatório da classificação
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Avaliação
Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]