AI Center - Classificação de texto multilíngue

ai-center

latest

false

Guia do usuário do AI Center

Introdução
Notificações
- Minhas notificações
Projetos
- Sobre projetos
- Gerenciando projetos
Conjuntos de dados
- Sobre conjuntos de dados
- Gerenciar conjuntos de dados
Rotulagem de Dados
Pacotes de ML
Pacotes para uso imediato
Pipelines
Habilidades de ML
- Sobre as Habilidades de ML
- Gerenciar habilidades de ML
Logs de ML
- Sobre os logs de ML
Document UnderstandingTM no AI Center
- Document Manager
- Serviços de OCR
API do AI Center
- Visão geral
- Lista de APIs
Licenciamento
Modelos de soluções de IA
- Sobre os modelos de soluções de IA
  - IA de e-mail
Como fazer
- Pacotes de ML
  - Uso da NER personalizada com o aprendizado contínuo
- Habilidades de ML
Guia básico de solução de problemas

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Classificação de texto multilíngue

Pacote de ML multiLingualTextClassification pronto para uso no AI Center, um modelo retreinável para classificação de texto em vários idiomas.

Pacotes prontos para usar > UiPath Language Analysis > MultiLingualTextClassification

Observação:

Este pacote de ML está obsoleto. Para obter mais informações, consulte a página Linha do tempo de descontinuação no guia Visão geral .

Esse é um modelo genérico e retreinável para a classificação de textos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. Uma GPU é recomendada especialmente durante o treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.

Idiomas

Esse modelo multilíngue é compatível com os idiomas da lista a seguir. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:

Africâner
Albanês
Árabe
Aragonês
Armênio
Asturiano
Azeri
Basquir
Basco
Bávaro
Bielorrusso
Bengalês
Bishnupriya Manipuri
Bósnio
Bretão
Búlgaro
Birmanês
Catalão
Cebuano
Checheno
Chinês (Simplificado)
Chinês (Tradicional)
Chuvache
Croata
Checo
Dinamarquês
Holandês
English
Estoniano
Finlandês
Francês
Galego
Georgiano
Alemão
Grego
Gujarati
Haitiano
Hebraico
Hindi
Húngaro
Islandês
Ido
Indonésio
Irlandês
Italiano
Japonês
Javanês
Canarês
Cazaque
Quirguiz
Coreano
Latim
Letão
Lituano
Lombardo
Baixo saxão
Luxemburguês
Macedônio
Malgaxe
Malaio
Malaiala
Marata
Minangkabau
Nepalês
Neuari
Norueguês (bokmal)
Norueguês (nynorsk)
Occitano
Persa (farsi)
Piemontês
Polonês
Português
Punjabi
Romeno
Russo
Ânglico escocês
Sérvio
Servo-croata
Siciliano
Eslovaco
Esloveno
Azeri do sul
Espanhol
Sundanês
Suaíli
Sueco
Tagalog
Tajique
Tamil
Tártaro
Telugu
Tailandês
Turco
Ucraniano
Urdu
Usbeque
Vietnamita
Volapuque
Waray-Waray
Galês
Frísico ocidental
Punjabi ocidental
Iorubá

Detalhes do modelo

Tipo de Entrada

JSON

Descrição da entrada

Texto a ser classificado como string: 'I loved this movie.'

Descrição da saída

JSON com o nome de classe previsto, a confiança associada nessa previsão de classes (entre 0 e 1).

Exemplo:

{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}
{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}

Por padrão, recomenda-se uma GPU.

Treinamento Habilitado

Por padrão, o treinamento está habilitado.

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote. Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).

Formato do conjunto de dados

Estão disponíveis três opções para estruturar seu conjunto de dados para esse modelo: JSON, CSV e o formato JSON do AI Center (que é também o formato de exportação da ferramenta de rotulagem. O modelo lerá todos os arquivos CSV e JSON no diretório especificado. Para todo formato, o modelo espera duas colunas ou duas propriedades: dataset.input_column_name e dataset.target_column_name por padrão. Os nomes dessas duas colunas e/ou diretórios são configuráveis usando variáveis de ambiente.

Formato de arquivo CSV

Each CSV file can have any number of columns, but only two will be used by the model. Those columns are specified by the dataset.input_column_name and dataset.target_column_name parameters.

Check the following sample and environment variables for a CSV file format example.

text, label
I like this movie, 7
I hated the acting, 9
text, label
I like this movie, 7
I hated the acting, 9

As variáveis de ambiente para o exemplo anterior seriam as seguintes:

dataset.input_format: auto
dataset.input_column_name: text
dataset.output_column_name: label

Formato de arquivo JSON

Vários pontos de dados podem fazer parte do mesmo arquivo JSON.

Check the following sample and environment variables for a JSON file format example.

[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]
[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]

As variáveis de ambiente para o exemplo anterior seriam as seguintes:

dataset.input_format: auto
dataset.input_column_name: text
dataset.output_column_name: label

formato de arquivo ai_center

Este é o valor padrão das variáveis de ambiente que podem ser definidas e este modelo lerá todos os arquivos em um diretório fornecido com uma extensão .json .

Check the following sample and environment variables for an ai_center file format example.

{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."
{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."

Para aproveitar o JSON de amostra anterior, as variáveis de ambiente precisam ser definidas da seguinte maneira:

dataset.input_format: ai_center
dataset.input_column_name: data.text
dataset.output_column_name: annotations.intent.choices

Treinamento na GPU ou na CPU

É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.

Variáveis de Ambiente

dataset.input_column_name
- O nome da coluna de entrada que contém o texto.
- O valor padrão é data.text.
- Certifique-se de que esta variável esteja configurada de acordo com seu arquivo JSON ou CSV de entrada.
dataset.target_column_name
- O nome da coluna de destino que contém o texto.
- O valor padrão é annotations.intent.choices.
- Certifique-se de que esta variável esteja configurada de acordo com seu arquivo JSON ou CSV de entrada.
dataset.input_format
- O formato de entrada dos dados de treinamento.
- O valor padrão é ai_center.
- Os valores suportados são: ai_center ou auto.
- If ai_center is selected, only JSON files are supported. Make sure to also change the value of the dataset.target_column_name to annotations.sentiment.choices if ai_center is selected.
- Se auto for selecionado, os arquivos CoNLL e JSON serão suportados.
modelo.épocas
- O número de épocas.
- Valor padrão: 100.

Artefatos

Matriz de confusão

Relatório da classificação

precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000
precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000

Dados

Arquivo CSV de avaliação

Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.

text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98
text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98

Esta página foi útil?

AnteriorClassificação do texto leve

AvançarSimilaridade semântica

Idiomas​

Detalhes do modelo​

Tipo de Entrada​

Descrição da entrada​

Descrição da saída​

Recomendar GPU​

Treinamento Habilitado​

Pipelines​

Formato do conjunto de dados​

Formato de arquivo CSV​

Formato de arquivo JSON​

formato de arquivo ai_center​

Treinamento na GPU ou na CPU​

Variáveis de Ambiente​

Artefatos​

Matriz de confusão​

Relatório da classificação​

Dados​

Arquivo CSV de avaliação​