AI Center
Mais recente
falso
Imagem de fundo do banner
AI Center
Última atualização 18 de abril de 2024

Classificação de texto multilabel

Observação:

A Classificação de texto com vários rótulos está atualmente em visualização pública.

A UiPath assume um compromisso quanto à estabilidade e à qualidade de nossos produtos. Porém, as funcionalidades de visualização sempre estão sujeitas à alteração, com base no feedback que recebemos de nossos clientes. O uso das funcionalidades de visualização não é recomendado para implantações de produção.

Classificação de texto com vários rótulos de Pacotes para uso imediato

Esse é um modelo genérico e retreinável para marcar um texto com vários rótulos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. É recomendável o uso de uma GPU, especialmente durante o treinamento.Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.

Idiomas

Esse modelo multilíngue é compatível com os idiomas relacionados abaixo. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:

  • Africâner
  • Albanês
  • Árabe
  • Aragonês
  • Armênio
  • Asturiano
  • Azeri
  • Basquir
  • Basco
  • Bávaro
  • Bielorrusso
  • Bengalês
  • Bishnupriya Manipuri
  • Bósnio
  • Bretão
  • Búlgaro
  • Birmanês
  • Catalão
  • Cebuano
  • Checheno
  • Chinês (Simplificado)
  • Chinês (Tradicional)
  • Chuvache
  • Croata
  • Checo
  • Dinamarquês
  • Holandês
  • English
  • Estoniano
  • Finlandês
  • Francês
  • Galego
  • Georgiano
  • Alemão
  • Grego
  • Gujarati
  • Haitiano
  • Hebraico
  • Hindi
  • Húngaro
  • Islandês
  • Ido
  • Indonésio
  • Irlandês
  • Italiano
  • Japonês
  • Javanês
  • Canarês
  • Cazaque
  • Quirguiz
  • Coreano
  • Latim
  • Letão
  • Lituano
  • Lombardo
  • Baixo saxão
  • Luxemburguês
  • Macedônio
  • Malgaxe
  • Malaio
  • Malaiala
  • Marata
  • Minangkabau
  • Nepalês
  • Neuari
  • Norueguês (bokmal)
  • Norueguês (nynorsk)
  • Occitano
  • Persa (farsi)
  • Piemontês
  • Polonês
  • Português
  • Punjabi
  • Romeno
  • Russo
  • Ânglico escocês
  • Sérvio
  • Servo-croata
  • Siciliano
  • Eslovaco
  • Esloveno
  • Azeri do sul
  • Espanhol
  • Sundanês
  • Suaíli
  • Sueco
  • Tagalog
  • Tajique
  • Tamil
  • Tártaro
  • Telugu
  • Turco
  • Ucraniano
  • Urdu
  • Usbeque
  • Vietnamita
  • Volapuque
  • Waray-Waray
  • Galês
  • Frísico ocidental
  • Punjabi ocidental
  • Iorubá

Detalhes do modelo

Tipo de entrada

JSON

Descrição da Entrada

Texto a ser classificado como string: “Amo esse ator, mas odeio seus filmes”.

Descrição da Saída

JSON com duas listas. A primeira lista terá o(s) rótulo(s) previsto(s) e a segunda lista terá a confiança associada ao rótulo previsto (entre 0 e 1).

Exemplo:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

Recomendar GPU

Por padrão, recomenda-se uma GPU.

Treinamento Habilitado

O treinamento está habilitado.

Pipelines

Esse pacote oferece suporte a todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação). Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado. O modelo usa técnicas avançadas para encontrar um modelo com bom desempenho. Nos treinamentos seguintes após o primeiro, o modelo usa um aprendizado incremental (ou seja, a versão treinada anteriormente será usada no fim de uma execução de treinamento).

Formato do conjunto de dados

O modelo lerá todos os arquivos CSV no diretório especificado. Em cada arquivo CSV, o modelo espera que haja duas colunas ou duas propriedades, text e label por padrão. Os nomes dessas duas colunas e/ou propriedades são configuráveis usando variáveis de ambiente.

Formato de arquivo CSV

Cada arquivo CSV pode ter qualquer número de colunas, mas apenas duas serão usadas pelo modelo. Essas colunas são especificadas pelos parâmetros dataset.text_column_name (se não for modificado, o valor padrão é text) e dataset.target_column_name (se não for modificado, o valor padrão é labels).

Por exemplo, um único arquivo CSV pode ter a seguinte aparência:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Treinamento na GPU ou na CPU

É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.

Variáveis de Ambiente

  • dataset.text_column_name — valor padrão text
  • model.epochs — valor padrão 100
  • dataset.target_column_name — valor padrão label

Artefatos

Matriz de confusão

Para cobrir melhor todos os rótulos no caso da “Classificação de texto com vários rótulos”, a matriz de confusão é um arquivo JSON. Fornecemos uma matriz de confusão para cada rótulo ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Relatório de classificação

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Avaliação

Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

Was this page helpful?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Logotipo branco da Uipath
Confiança e segurança
© 2005-2024 UiPath. All rights reserved.