- Introdução
- Notificações
- Projetos
- Conjuntos de dados
- Rotulagem de Dados
- Pacotes de ML
- Pacotes para uso imediato
- Pipelines
- Habilidades de ML
- Logs de ML
- Document UnderstandingTM no AI Center
- API do AI Center
- Licenciamento
- Modelos de soluções de IA
- Como fazer
- Guia básico de solução de problemas
Guia do usuário do AI Center
Pacotes prontos para usar > UiPath Language Analysis > MultiLingualTextClassification
Este pacote de ML está obsoleto. Para obter mais informações, consulte a página Linha do tempo de descontinuação no guia Visão geral .
Esse é um modelo genérico e retreinável para a classificação de textos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. Uma GPU é recomendada especialmente durante o treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.
Idiomas
Esse modelo multilíngue é compatível com os idiomas da lista a seguir. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:
- Africâner
- Albanês
- Árabe
- Aragonês
- Armênio
- Asturiano
- Azeri
- Basquir
- Basco
- Bávaro
- Bielorrusso
- Bengalês
- Bishnupriya Manipuri
- Bósnio
- Bretão
- Búlgaro
- Birmanês
- Catalão
- Cebuano
- Checheno
- Chinês (Simplificado)
- Chinês (Tradicional)
- Chuvache
- Croata
- Checo
- Dinamarquês
- Holandês
- English
- Estoniano
- Finlandês
- Francês
- Galego
- Georgiano
- Alemão
- Grego
- Gujarati
- Haitiano
- Hebraico
- Hindi
- Húngaro
- Islandês
- Ido
- Indonésio
- Irlandês
- Italiano
- Japonês
- Javanês
- Canarês
- Cazaque
- Quirguiz
- Coreano
- Latim
- Letão
- Lituano
- Lombardo
- Baixo saxão
- Luxemburguês
- Macedônio
- Malgaxe
- Malaio
- Malaiala
- Marata
- Minangkabau
- Nepalês
- Neuari
- Norueguês (bokmal)
- Norueguês (nynorsk)
- Occitano
- Persa (farsi)
- Piemontês
- Polonês
- Português
- Punjabi
- Romeno
- Russo
- Ânglico escocês
- Sérvio
- Servo-croata
- Siciliano
- Eslovaco
- Esloveno
- Azeri do sul
- Espanhol
- Sundanês
- Suaíli
- Sueco
- Tagalog
- Tajique
- Tamil
- Tártaro
- Telugu
- Tailandês
- Turco
- Ucraniano
- Urdu
- Usbeque
- Vietnamita
- Volapuque
- Waray-Waray
- Galês
- Frísico ocidental
- Punjabi ocidental
- Iorubá
Detalhes do modelo
Tipo de Entrada
JSON
Descrição da entrada
Texto a ser classificado como string: 'I loved this movie.'
Descrição da saída
JSON com o nome de classe previsto, a confiança associada nessa previsão de classes (entre 0 e 1).
Exemplo:
{
"prediction": "Positive",
"confidence": 0.9422031841278076
}
{
"prediction": "Positive",
"confidence": 0.9422031841278076
}
Recomendar GPU
Por padrão, recomenda-se uma GPU.
Treinamento Habilitado
Por padrão, o treinamento está habilitado.
Pipelines
Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote. Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).
Formato do conjunto de dados
Estão disponíveis três opções para estruturar seu conjunto de dados para esse modelo: JSON, CSV e o formato JSON do AI Center (que é também o formato de exportação da ferramenta de rotulagem. O modelo lerá todos os arquivos CSV e JSON no diretório especificado. Para todo formato, o modelo espera duas colunas ou duas propriedades: dataset.input_column_name e dataset.target_column_name por padrão. Os nomes dessas duas colunas e/ou diretórios são configuráveis usando variáveis de ambiente.
Formato de arquivo CSV
Each CSV file can have any number of columns, but only two will be used by the model. Those columns are specified by the dataset.input_column_name and dataset.target_column_name parameters.
Check the following sample and environment variables for a CSV file format example.
text, label
I like this movie, 7
I hated the acting, 9
text, label
I like this movie, 7
I hated the acting, 9
As variáveis de ambiente para o exemplo anterior seriam as seguintes:
- dataset.input_format:
auto - dataset.input_column_name:
text - dataset.output_column_name:
label
Formato de arquivo JSON
Vários pontos de dados podem fazer parte do mesmo arquivo JSON.
Check the following sample and environment variables for a JSON file format example.
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
[
{
"text": "I like this movie",
"label": "7"
},
{
"text": "I hated the acting",
"label": "9"
}
]
As variáveis de ambiente para o exemplo anterior seriam as seguintes:
- dataset.input_format:
auto - dataset.input_column_name:
text - dataset.output_column_name:
label
formato de arquivo ai_center
Este é o valor padrão das variáveis de ambiente que podem ser definidas e este modelo lerá todos os arquivos em um diretório fornecido com uma extensão .json .
Check the following sample and environment variables for an ai_center file format example.
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
{
"annotations": {
"intent": {
"to_name": "text",
"choices": [
"TransactionIssue",
"LoanIssue"
]
},
"sentiment": {
"to_name": "text",
"choices": [
"Very Positive"
]
},
"ner": {
"to_name": "text",
"labels": [
{
"start_index": 37,
"end_index": 47,
"entity": "Stakeholder",
"value": " Citi Bank"
},
{
"start_index": 51,
"end_index": 61,
"entity": "Date",
"value": "07/19/2018"
},
{
"start_index": 114,
"end_index": 118,
"entity": "Amount",
"value": "$500"
},
{
"start_index": 288,
"end_index": 293,
"entity": "Stakeholder",
"value": " Citi"
}
]
}
},
"data": {
"cc": "",
"to": "xyz@abc.com",
"date": "1/29/2020 12:39:01 PM",
"from": "abc@xyz.com",
"text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
Para aproveitar o JSON de amostra anterior, as variáveis de ambiente precisam ser definidas da seguinte maneira:
- dataset.input_format:
ai_center - dataset.input_column_name:
data.text - dataset.output_column_name:
annotations.intent.choices
Treinamento na GPU ou na CPU
É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.
Variáveis de Ambiente
- dataset.input_column_name
- O nome da coluna de entrada que contém o texto.
- O valor padrão é
data.text. - Certifique-se de que esta variável esteja configurada de acordo com seu arquivo JSON ou CSV de entrada.
- dataset.target_column_name
- O nome da coluna de destino que contém o texto.
- O valor padrão é
annotations.intent.choices. - Certifique-se de que esta variável esteja configurada de acordo com seu arquivo JSON ou CSV de entrada.
- dataset.input_format
- O formato de entrada dos dados de treinamento.
- O valor padrão é
ai_center. - Os valores suportados são:
ai_centerouauto. - If
ai_centeris selected, onlyJSONfiles are supported. Make sure to also change the value of the dataset.target_column_name toannotations.sentiment.choicesifai_centeris selected. - Se
autofor selecionado, os arquivosCoNLLeJSONserão suportados.
- modelo.épocas
- O número de épocas.
- Valor padrão:
100.
Artefatos
Matriz de confusão
Relatório da classificação
precision recall f1-score support
positive 0.94 0.94 0.94 10408
negative 0.93 0.93 0.93 9592
accuracy 0.94 20000
macro avg 0.94 0.94 0.94 20000
weighted avg 0.94 0.94 0.94 20000
precision recall f1-score support
positive 0.94 0.94 0.94 10408
negative 0.93 0.93 0.93 9592
accuracy 0.94 20000
macro avg 0.94 0.94 0.94 20000
weighted avg 0.94 0.94 0.94 20000
Dados
Arquivo CSV de avaliação
Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98