ai-center
latest
false
Importante :
A tradução automática foi aplicada parcialmente neste conteúdo.
UiPath logo, featuring letters U and I in white
AI Center
Automation CloudAutomation SuiteStandalone
Last updated 19 de nov de 2024

Classificação de texto multilabel

Observação:

A Classificação de texto com vários rótulos está atualmente em visualização pública.

UiPath® is committed to stability and quality of our products, but preview features are always subject to change based on feedback that we receive from our customers. Using preview features is not recommended for production deployments.

Classificação de texto com vários rótulos de Pacotes para uso imediato

Esse é um modelo genérico e retreinável para marcar um texto com vários rótulos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. É recomendável o uso de uma GPU, especialmente durante o treinamento.Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.

Idiomas

Esse modelo multilíngue é compatível com os idiomas relacionados abaixo. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:

  • Africâner
  • Albanês
  • Árabe
  • Aragonês
  • Armênio
  • Asturiano
  • Azeri
  • Basquir
  • Basco
  • Bávaro
  • Bielorrusso
  • Bengalês
  • Bishnupriya Manipuri
  • Bósnio
  • Bretão
  • Búlgaro
  • Birmanês
  • Catalão
  • Cebuano
  • Checheno
  • Chinês (Simplificado)
  • Chinês (Tradicional)
  • Chuvache
  • Croata
  • Checo
  • Dinamarquês
  • Holandês
  • English
  • Estoniano
  • Finlandês
  • Francês
  • Galego
  • Georgiano
  • Alemão
  • Grego
  • Gujarati
  • Haitiano
  • Hebraico
  • Hindi
  • Húngaro
  • Islandês
  • Ido
  • Indonésio
  • Irlandês
  • Italiano
  • Japonês
  • Javanês
  • Canarês
  • Cazaque
  • Quirguiz
  • Coreano
  • Latim
  • Letão
  • Lituano
  • Lombardo
  • Baixo saxão
  • Luxemburguês
  • Macedônio
  • Malgaxe
  • Malaio
  • Malaiala
  • Marata
  • Minangkabau
  • Nepalês
  • Neuari
  • Norueguês (bokmal)
  • Norueguês (nynorsk)
  • Occitano
  • Persa (farsi)
  • Piemontês
  • Polonês
  • Português
  • Punjabi
  • Romeno
  • Russo
  • Ânglico escocês
  • Sérvio
  • Servo-croata
  • Siciliano
  • Eslovaco
  • Esloveno
  • Azeri do sul
  • Espanhol
  • Sundanês
  • Suaíli
  • Sueco
  • Tagalog
  • Tajique
  • Tamil
  • Tártaro
  • Telugu
  • Turco
  • Ucraniano
  • Urdu
  • Usbeque
  • Vietnamita
  • Volapuque
  • Waray-Waray
  • Galês
  • Frísico ocidental
  • Punjabi ocidental
  • Iorubá

Detalhes do modelo

Tipo de Entrada

JSON

Descrição da entrada

Texto a ser classificado como string: “Amo esse ator, mas odeio seus filmes”.

Descrição da saída

JSON com duas listas. A primeira lista terá o(s) rótulo(s) previsto(s) e a segunda lista terá a confiança associada ao rótulo previsto (entre 0 e 1).

Exemplo:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

Recomendar GPU

Por padrão, recomenda-se uma GPU.

Treinamento Habilitado

O treinamento está habilitado.

Pipelines

Esse pacote oferece suporte a todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação). Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado. O modelo usa técnicas avançadas para encontrar um modelo com bom desempenho. Nos treinamentos seguintes após o primeiro, o modelo usa um aprendizado incremental (ou seja, a versão treinada anteriormente será usada no fim de uma execução de treinamento).

Formato do conjunto de dados

O modelo lerá todos os arquivos CSV no diretório especificado. Em cada arquivo CSV, o modelo espera que haja duas colunas ou duas propriedades, text e label por padrão. Os nomes dessas duas colunas e/ou propriedades são configuráveis usando variáveis de ambiente.

Formato de arquivo CSV

Cada arquivo CSV pode ter qualquer número de colunas, mas apenas duas serão usadas pelo modelo. Essas colunas são especificadas pelos parâmetros dataset.text_column_name (se não for modificado, o valor padrão é text) e dataset.target_column_name (se não for modificado, o valor padrão é labels).

Por exemplo, um único arquivo CSV pode ter a seguinte aparência:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Treinamento na GPU ou na CPU

É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.

Variáveis de Ambiente

  • dataset.text_column_name — valor padrão text
  • model.epochs — valor padrão 100
  • dataset.target_column_name — valor padrão label

Artefatos

Matriz de confusão

Para cobrir melhor todos os rótulos no caso da “Classificação de texto com vários rótulos”, a matriz de confusão é um arquivo JSON. Fornecemos uma matriz de confusão para cada rótulo ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Relatório da classificação

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Avaliação

Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

Esta página foi útil?

Obtenha a ajuda que você precisa
Aprendendo RPA - Cursos de automação
Fórum da comunidade da Uipath
Uipath Logo White
Confiança e segurança
© 2005-2024 UiPath. Todos os direitos reservados.