AI Center
2021.10
falso
Imagem de fundo do banner
Guia do usuário do AI Center
Última atualização 11 de mar de 2024

Classificação de texto multilíngue

Pacotes prontos para usar > UiPath Language Analysis > MultiLingualTextClassification

Esse é um modelo genérico e retreinável para a classificação de textos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. Uma GPU é recomendada especialmente durante o treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.

Idiomas

Esse modelo multilíngue é compatível com os idiomas relacionados abaixo. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:

  • Africâner
  • Albanês
  • Árabe
  • Aragonês
  • Armênio
  • Asturiano
  • Azeri
  • Basquir
  • Basco
  • Bávaro
  • Bielorrusso
  • Bengalês
  • Bishnupriya Manipuri
  • Bósnio
  • Bretão
  • Búlgaro
  • Birmanês
  • Catalão
  • Cebuano
  • Checheno
  • Chinês (Simplificado)
  • Chinês (Tradicional)
  • Chuvache
  • Croata
  • Checo
  • Dinamarquês
  • Holandês
  • English
  • Estoniano
  • Finlandês
  • Francês
  • Galego
  • Georgiano
  • Alemão
  • Grego
  • Gujarati
  • Haitiano
  • Hebraico
  • Hindi
  • Húngaro
  • Islandês
  • Ido
  • Indonésio
  • Irlandês
  • Italiano
  • Japonês
  • Javanês
  • Canarês
  • Cazaque
  • Quirguiz
  • Coreano
  • Latim
  • Letão
  • Lituano
  • Lombardo
  • Baixo saxão
  • Luxemburguês
  • Macedônio
  • Malgaxe
  • Malaio
  • Malaiala
  • Marata
  • Minangkabau
  • Nepalês
  • Neuari
  • Norueguês (bokmal)
  • Norueguês (nynorsk)
  • Occitano
  • Persa (farsi)
  • Piemontês
  • Polonês
  • Português
  • Punjabi
  • Romeno
  • Russo
  • Ânglico escocês
  • Sérvio
  • Servo-croata
  • Siciliano
  • Eslovaco
  • Esloveno
  • Azeri do sul
  • Espanhol
  • Sundanês
  • Suaíli
  • Sueco
  • Tagalog
  • Tajique
  • Tamil
  • Tártaro
  • Telugu
  • Tailandês
  • Turco
  • Ucraniano
  • Urdu
  • Usbeque
  • Vietnamita
  • Volapuque
  • Waray-Waray
  • Galês
  • Frísico ocidental
  • Punjabi ocidental
  • Iorubá

Detalhes do modelo

Tipo de entrada

JSON

Descrição da Entrada

Texto a ser classificado como string: 'I loved this movie.'

Descrição da Saída

JSON com o nome de classe previsto, a confiança associada nessa previsão de classes (entre 0 e 1).

Exemplo:

{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}{
  "prediction": "Positive", 
  "confidence": 0.9422031841278076
}

Recomendar GPU

Por padrão, recomenda-se uma GPU.

Treinamento Habilitado

Por padrão, o treinamento está habilitado.

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote. Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).

Formato do conjunto de dados

Três opções estão disponíveis para estruturar seu conjunto de dados para este modelo: formato JSON, CSV e AI Center™ JSON. O modelo lerá todos os arquivos CSV e JSON no diretório especificado. Para cada formato, o modelo espera duas colunas ou duas propriedades, dataset.input_column_name e dataset.target_column_name por padrão. Os nomes dessas duas colunas e/ou diretórios são configuráveis usando variáveis de ambiente.

Formato de arquivo CSV

Cada arquivo CSV pode ter qualquer número de colunas, mas apenas duas serão usadas pelo modelo. Essas colunas são especificadas pelos parâmetros dataset.input_column_name e dataset.target_column_name.

Verifique as variáveis de amostra e ambiente a seguir para obter um exemplo de formato de arquivo CSV.

text, label
I like this movie, 7
I hated the acting, 9text, label
I like this movie, 7
I hated the acting, 9

As variáveis de ambiente para o exemplo anterior seriam as seguintes:

  • dataset.input_format: auto
  • dataset.input_column_name: text
  • dataset.output_column_name: label

Formato de arquivo JSON

Vários pontos de dados podem fazer parte do mesmo arquivo JSON.

Verifique o exemplo a seguir e as variáveis de ambiente para obter um exemplo de formato de arquivo JSON.

[
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
][
  {
    "text": "I like this movie",
    "label": "7"
  },
  {
    "text": "I hated the acting",
    "label": "9"
  }
]

As variáveis de ambiente para o exemplo anterior seriam as seguintes:

  • dataset.input_format: auto
  • dataset.input_column_name: text
  • dataset.output_column_name: label

formato de arquivo ai_center

Este é o valor padrão das variáveis de ambiente que podem ser definidas e este modelo lerá todos os arquivos em um diretório fornecido com uma extensão .json .

Verifique a amostra e as variáveis de ambiente a seguir para obter um exemplo de formato de arquivo ai_center.

{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."{
    "annotations": {
        "intent": {
            "to_name": "text",
            "choices": [
                "TransactionIssue",
                "LoanIssue"
            ]
        },
        "sentiment": {
            "to_name": "text",
            "choices": [
                "Very Positive"
            ]
        },
        "ner": {
            "to_name": "text",
            "labels": [
                {
                    "start_index": 37,
                    "end_index": 47,
                    "entity": "Stakeholder",
                    "value": " Citi Bank"
                },
                {
                    "start_index": 51,
                    "end_index": 61,
                    "entity": "Date",
                    "value": "07/19/2018"
                },
                {
                    "start_index": 114,
                    "end_index": 118,
                    "entity": "Amount",
                    "value": "$500"
                },
                {
                    "start_index": 288,
                    "end_index": 293,
                    "entity": "Stakeholder",
                    "value": " Citi"
                }
            ]
        }
    },
    "data": {
        "cc": "",
        "to": "xyz@abc.com",
        "date": "1/29/2020 12:39:01 PM",
        "from": "abc@xyz.com",
        "text": "I opened my new checking account with Citi Bank in 07/19/2018 and met the requirements for the promotion offer of $500 . It has been more than 6 months and I have not received any bonus. I called the customer service several times in the past few months but no any response. I request the Citi honor its promotion offer as advertised."

Para aproveitar o JSON de amostra anterior, as variáveis de ambiente precisam ser definidas da seguinte maneira:

  • dataset.input_format: ai_center
  • dataset.input_column_name: data.text
  • dataset.output_column_name: annotations.intent.choices

Treinamento na GPU ou na CPU

É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.

Variáveis de Ambiente

  • dataset.input_column_name
    • O nome da coluna de entrada que contém o texto.
    • O valor padrão é data.text.
    • Certifique-se de que esta variável esteja configurada de acordo com seu arquivo JSON ou CSV de entrada.
  • dataset.target_column_name
    • O nome da coluna de destino que contém o texto.
    • O valor padrão é annotations.intent.choices.
    • Certifique-se de que esta variável esteja configurada de acordo com seu arquivo JSON ou CSV de entrada.
  • dataset.input_format
    • O formato de entrada dos dados de treinamento.
    • O valor padrão é ai_center.
    • Os valores suportados são: ai_center ou auto.
    • Se ai_center for selecionado, apenas arquivos JSON serão suportados. Certifique-se de alterar também o valor de dataset.target_column_name para annotations.sentiment.choices se ai_center for selecionado.
    • Se auto for selecionado, os arquivos CoNLL e JSON serão suportados.
  • modelo.épocas
    • O número de épocas.
    • Valor padrão: 100.

Artefatos

Matriz de confusão



Relatório de classificação

precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000precision    recall  f1-score   support
         positive     0.94      0.94      0.94     10408
         negative     0.93      0.93      0.93      9592
    accuracy                              0.94     20000
   macro avg          0.94      0.94      0.94     20000
weighted avg          0.94      0.94      0.94     20000

Dados

Arquivo CSV de avaliação

Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.

text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98text,label,predict,confidence
I like this movie, positive, positive, 0.99
I hated the acting, negative, negative, 0.98

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.