ai-center

latest

false

Notas de Versão
Introdução
Notificações
- Minhas notificações
Projetos
- Sobre projetos
- Gerenciando projetos
Conjuntos de dados
- Sobre conjuntos de dados
- Gerenciar conjuntos de dados
Rotulagem de Dados
Pacotes de ML
Pacotes para uso imediato
Pipelines
Habilidades de ML
- Sobre as Habilidades de ML
- Gerenciar habilidades de ML
Logs de ML
- Sobre os logs de ML
Document UnderstandingTM no AI Center
- Document Manager
- Serviços de OCR
API do AI Center
- Visão geral
- Lista de APIs
Licenciamento
Modelos de soluções de IA
- Sobre os modelos de soluções de IA
  - IA de e-mail
Como fazer
- Pacotes de ML
  - Uso da NER personalizada com o aprendizado contínuo
- Habilidades de ML
Guia básico de solução de problemas

Importante :

A tradução automática foi aplicada parcialmente neste conteúdo. A localização de um conteúdo recém-publicado pode levar de 1 a 2 semanas para ficar disponível.

AI Center

ENTREGA:

Automation Cloud Automation Suite Standalone

Última atualização 13 de fev de 2025

Classificação de textos

Pacotes do SO > Análise de idiomas > TextClassification

Esse é um modelo genérico retreinável para a classificação de idiomas. Esse pacote de ML deve ser retreinado; se for implantado sem treinamento primeiro, a implantação falhará, com um erro informando que o modelo não foi treinado.

Esse modelo é uma arquitetura de aprendizado profundo para a classificação de idiomas. Ele é baseado no BERT, um método autosupervisionado para o pré-treinamento de sistemas de processamento em idioma natural. Uma GPU pode ser usada tanto no tempo de serviço quanto no tempo de treinamento. Uma GPU proporciona uma melhoria de 5x a 10x na velocidade. O modelo teve seu código aberto pelo Facebook AI Research.

Idiomas

O principal fator determinante do desempenho do modelo será a qualidade dos dados usados para o treinamento. Além disso, os dados usados para parametrizar esse modelo também podem influenciar o desempenho. Esse modelo foi treinado nos 100 principais idiomas com as maiores Wikipedias (lista completa)

Detalhes do modelo

Tipo de Entrada

JSON

Descrição da entrada

Texto a ser classificado como string: "I loved this movie".

Descrição da saída

JSON com o nome de classe previsto, a confiança associada nessa previsão de classes (entre 0 e 1).

Exemplo:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Pipelines

Todos os três tipos de pipelines (Treinamento completo, Treinamento e Avaliação) são suportados por esse pacote.

Para a maioria dos casos de uso, não é necessário especificar parâmetros: o modelo usa técnicas avançadas para encontrar um modelo de bom desempenho. Nos treinamentos subsequentes após o primeiro, o modelo usa aprendizado incremental (ou seja, a versão treinada anteriormente será usada no final de uma execução de treinamento).

Formato do conjunto de dados

Há duas opções possíveis para estruturar seu conjunto de dados para esse modelo. Não é possível usar ambas as opções ao mesmo tempo. Por padrão, o modelo procurará o arquivo dataset.csv no diretório da pasta superior; se for achado, ele usará a opção 2 aqui; caso contrário, o modelo tentará usar a opção 1 (estrutura da pasta).

Use a estrutura da pasta para separar sua classe

Crie uma pasta para cada classe (no nível superior do conjunto de dados) e adicione um arquivo de texto por ponto de dados na pasta correspondente (a pasta é a classe, e o arquivo só tem a entrada). A estrutura do conjunto de dados tem a seguinte aparência:

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

Use um arquivo csv

Reagrupe todos os seus dados em um arquivo csv chamado dataset.csv no nível superior do seu conjunto de dados. O arquivo precisará ter duas colunas: input (o texto) e target (a classe). Ele terá a seguinte aparência:

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Papel

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, de Devlin, Jacob e Chang, Ming-Wei e Lee, Kenton e Toutanova, Kristina.

Nesta página

Idiomas
Detalhes do modelo
Tipo de Entrada
Descrição da entrada
Descrição da saída
Pipelines
Formato do conjunto de dados
Papel

Esta página foi útil?

AnteriorDetecção de objetos

AvançarClassificação AutoML do TPOT

Suporte e serviços

Obtenha a ajuda que você precisa

UiPath Academy

Aprendendo RPA - Cursos de automação

Fórum do UiPath

Fórum da comunidade da Uipath

Confiança e segurança

Termos de Uso

Política de Privacidade

Política de cookies