AI Center - Classificação de texto multilabel

ai-center

latest

false

Guia do usuário do AI Center

Introdução
Notificações
- Minhas notificações
Projetos
- Sobre projetos
- Gerenciando projetos
Conjuntos de dados
- Sobre conjuntos de dados
- Gerenciar conjuntos de dados
Rotulagem de Dados
Pacotes de ML
Pacotes para uso imediato
Pipelines
Habilidades de ML
- Sobre as Habilidades de ML
- Gerenciar habilidades de ML
Logs de ML
- Sobre os logs de ML
Document UnderstandingTM no AI Center
- Document Manager
- Serviços de OCR
API do AI Center
- Visão geral
- Lista de APIs
Licenciamento
Modelos de soluções de IA
- Sobre os modelos de soluções de IA
  - IA de e-mail
Como fazer
- Pacotes de ML
  - Uso da NER personalizada com o aprendizado contínuo
- Habilidades de ML
Guia básico de solução de problemas

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

Classificação de texto multilabel

Pacote de ML multilabelTextClassification pronto para uso no AI Center, um modelo de visualização para classificar texto em várias categorias simultâneas.

Observação:

Este pacote de ML ficará obsoleto em breve. Para obter mais informações, consulte a página Linha do tempo de descontinuação no guia Visão geral .

Observação:

A Classificação de texto com vários rótulos está atualmente em visualização pública.

A UiPath® está comprometida com a estabilidade e a qualidade de nossos produtos, mas as funcionalidades de visualização sempre estão sujeitas à alteração com base no feedback que recebemos de nossos clientes. O uso das funcionalidades de visualização não é recomendado para implantações de produção.

Classificação de texto com vários rótulos de Pacotes para uso imediato

Esse é um modelo genérico e retreinável para marcar um texto com vários rótulos. Esse pacote de ML deve ser treinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em linguagem natural. É recomendável o uso de uma GPU, especialmente durante o treinamento.Uma GPU proporciona uma melhoria de 5x a 10x na velocidade.

Idiomas

Esse modelo multilíngue é compatível com os idiomas da lista a seguir. Esses idiomas foram escolhidos porque são os 100 principais idiomas com as maiores Wikipedias:

Africâner
Albanês
Árabe
Aragonês
Armênio
Asturiano
Azeri
Basquir
Basco
Bávaro
Bielorrusso
Bengalês
Bishnupriya Manipuri
Bósnio
Bretão
Búlgaro
Birmanês
Catalão
Cebuano
Checheno
Chinês (Simplificado)
Chinês (Tradicional)
Chuvache
Croata
Checo
Dinamarquês
Holandês
English
Estoniano
Finlandês
Francês
Galego
Georgiano
Alemão
Grego
Gujarati
Haitiano
Hebraico
Hindi
Húngaro
Islandês
Ido
Indonésio
Irlandês
Italiano
Japonês
Javanês
Canarês
Cazaque
Quirguiz
Coreano
Latim
Letão
Lituano
Lombardo
Baixo saxão
Luxemburguês
Macedônio
Malgaxe
Malaio
Malaiala
Marata
Minangkabau
Nepalês
Neuari
Norueguês (bokmal)
Norueguês (nynorsk)
Occitano
Persa (farsi)
Piemontês
Polonês
Português
Punjabi
Romeno
Russo
Ânglico escocês
Sérvio
Servo-croata
Siciliano
Eslovaco
Esloveno
Azeri do sul
Espanhol
Sundanês
Suaíli
Sueco
Tagalog
Tajique
Tamil
Tártaro
Telugu
Turco
Ucraniano
Urdu
Usbeque
Vietnamita
Volapuque
Waray-Waray
Galês
Frísico ocidental
Punjabi ocidental
Iorubá

Detalhes do modelo

Tipo de Entrada

JSON

Descrição da entrada

Texto a ser classificado como string: “Amo esse ator, mas odeio seus filmes”.

Descrição da saída

JSON com duas listas. A primeira lista terá o(s) rótulo(s) previsto(s) e a segunda lista terá a confiança associada ao rótulo previsto (entre 0 e 1).

Exemplo:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}
{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

Por padrão, recomenda-se uma GPU.

Treinamento Habilitado

O treinamento está habilitado.

Pipelines

Esse pacote oferece suporte a todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação). Para a maioria dos casos de uso, nenhum parâmetro precisa ser especificado. O modelo usa técnicas avançadas para encontrar um modelo com bom desempenho. Nos treinamentos seguintes após o primeiro, o modelo usa um aprendizado incremental (ou seja, a versão treinada anteriormente será usada no fim de uma execução de treinamento).

Formato do conjunto de dados

O modelo lerá todos os arquivos CSV no diretório especificado. Em cada arquivo CSV, o modelo espera que haja duas colunas ou duas propriedades, text e label por padrão. Os nomes dessas duas colunas e/ou propriedades são configuráveis usando variáveis de ambiente.

Formato de arquivo CSV

Cada arquivo CSV pode ter qualquer número de colunas, mas apenas duas serão usadas pelo modelo. Essas colunas são especificadas pelos parâmetros dataset.text_column_name (se não for modificado, o valor padrão é text) e dataset.target_column_name (se não for modificado, o valor padrão é labels).

Por exemplo, um único arquivo CSV pode ter a seguinte aparência:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Treinamento na GPU ou na CPU

É possível usar GPU ou CPU para treinamento. Recomendamos usar a GPU, pois ela é mais rápida.

Variáveis de Ambiente

dataset.text_column_name — valor padrão text
model.epochs — valor padrão 100
dataset.target_column_name — valor padrão label

Artefatos

Matriz de confusão

Para cobrir melhor todos os rótulos no caso da “Classificação de texto com vários rótulos”, a matriz de confusão é um arquivo JSON. Fornecemos uma matriz de confusão para cada rótulo ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}
{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Relatório da classificação

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}
{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Avaliação

Esse é um arquivo CSV com previsões sobre o conjunto de testes usado para avaliação.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

Esta página foi útil?

AnteriorSimilaridade semântica

AvançarAnálise de imagens da UiPath

Idiomas​

Detalhes do modelo​

Tipo de Entrada​

Descrição da entrada​

Descrição da saída​

Recomendar GPU​

Treinamento Habilitado​

Pipelines​

Formato do conjunto de dados​

Formato de arquivo CSV​

Treinamento na GPU ou na CPU​

Variáveis de Ambiente​

Artefatos​

Matriz de confusão​

Relatório da classificação​

Avaliação​