- Notas de Versão
- Introdução
- Notificações
- Projetos
- Conjuntos de dados
- Rotulagem de Dados
- Pacotes de ML
- Pacotes para uso imediato
- Pipelines
- Habilidades de ML
- Logs de ML
- Document UnderstandingTM no AI Center
- API do AI Center
- Licenciamento
- Modelos de soluções de IA
- Como fazer
- Guia básico de solução de problemas
Classificação de texto multilabel
A Classificação de texto com vários rótulos está atualmente em visualização pública.
A UiPath® assume um compromisso quanto à estabilidade e à qualidade de nossos produtos. Porém, as funcionalidades de visualização sempre estão sujeitas à alteração, com base no feedback que recebemos de nossos clientes. O uso das funcionalidades de visualização não é recomendado para implantações de produção.
Classificação de texto com vários rótulos de Pacotes para uso imediato
Esse é um modelo genérico e retreinável para marcar um texto com vários rótulos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. É recomendável o uso de uma GPU, especialmente durante o treinamento.Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.
Esse modelo multilíngue é compatível com os idiomas relacionados abaixo. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:
- Africâner
- Albanês
- Árabe
- Aragonês
- Armênio
- Asturiano
- Azeri
- Basquir
- Basco
- Bávaro
- Bielorrusso
- Bengalês
- Bishnupriya Manipuri
- Bósnio
- Bretão
- Búlgaro
- Birmanês
- Catalão
- Cebuano
- Checheno
- Chinês (Simplificado)
- Chinês (Tradicional)
- Chuvache
- Croata
- Checo
- Dinamarquês
- Holandês
- English
- Estoniano
- Finlandês
- Francês
- Galego
- Georgiano
- Alemão
- Grego
- Gujarati
- Haitiano
- Hebraico
- Hindi
- Húngaro
- Islandês
- Ido
- Indonésio
- Irlandês
- Italiano
- Japonês
- Javanês
- Canarês
- Cazaque
- Quirguiz
- Coreano
- Latim
- Letão
- Lituano
- Lombardo
- Baixo saxão
- Luxemburguês
- Macedônio
- Malgaxe
- Malaio
- Malaiala
- Marata
- Minangkabau
- Nepalês
- Neuari
- Norueguês (bokmal)
- Norueguês (nynorsk)
- Occitano
- Persa (farsi)
- Piemontês
- Polonês
- Português
- Punjabi
- Romeno
- Russo
- Ânglico escocês
- Sérvio
- Servo-croata
- Siciliano
- Eslovaco
- Esloveno
- Azeri do sul
- Espanhol
- Sundanês
- Suaíli
- Sueco
- Tagalog
- Tajique
- Tamil
- Tártaro
- Telugu
- Turco
- Ucraniano
- Urdu
- Usbeque
- Vietnamita
- Volapuque
- Waray-Waray
- Galês
- Frísico ocidental
- Punjabi ocidental
- Iorubá
JSON com duas listas. A primeira lista terá o(s) rótulo(s) previsto(s) e a segunda lista terá a confiança associada ao rótulo previsto (entre 0 e 1).
Exemplo:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
Esse pacote oferece suporte a todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação). Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado. O modelo usa técnicas avançadas para encontrar um modelo com bom desempenho. Nos treinamentos seguintes após o primeiro, o modelo usa um aprendizado incremental (ou seja, a versão treinada anteriormente será usada no fim de uma execução de treinamento).
text
e label
por padrão. Os nomes dessas duas colunas e/ou propriedades são configuráveis usando variáveis de ambiente.
Formato de arquivo CSV
text
) e dataset.target_column_name (se não for modificado, o valor padrão é labels
).
Por exemplo, um único arquivo CSV pode ter a seguinte aparência:
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.
- dataset.text_column_name — valor padrão
text
- model.epochs — valor padrão
100
- dataset.target_column_name — valor padrão
label
Matriz de confusão
Para cobrir melhor todos os rótulos no caso da “Classificação de texto com vários rótulos”, a matriz de confusão é um arquivo JSON. Fornecemos uma matriz de confusão para cada rótulo ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Relatório da classificação
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Avaliação
Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]