ai-center

latest

false

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

AI Center

ENTREGA:

Última actualización 2 de may. de 2025

Clasificación de texto

Nota: Los paquetes ML listos para usar pronto quedarán obsoletos. Para obtener más información, consulta la página Línea de tiempo de obsolescencia en la guía Información general .

Paquetes del SO > Análisis de idioma > TextClassification

Este es un modelo genérico y reentrenable para la clasificación de idiomas. Este paquete ML debe reentrenarse. Si se implementa sin entrenarse antes, la implementación fallará con un error que indica que el modelo no está entrenado.

Este modelo es una arquitectura de aprendizaje profundo para la clasificación de idiomas. Se basa en el modelo BERT, un método autogestionado para preentrenar los sistemas de procesamiento de idiomas naturales. Puede utilizarse una GPU tanto en el momento del servicio como en el del entrenamiento. Una GPU ofrece de 5 a 10 veces más mejoras en la velocidad. El modelo se hizo de código abierto por Facebook AI Research.

Lenguajes

El principal impulsor del rendimiento del modelo será la calidad de los datos utilizada para el entrenamiento. Además, los datos utilizados para parametrizar este modelo también pueden influir en el rendimiento. Este modelo fue entrenado en los principales 100 idiomas con las Wikipedias más grandes (lista completa)

Detalles del modelo

Tipo de entrada

JSON

Descripción de entrada

Texto que se clasificará como cadena: "Me encantó esta película".

Descripción de salida

JSON con el nombre de clase predecido; confianza asociada a esa predicción de clase (entre 0-1).

Ejemplo:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Procesos

Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación).

Para la mayoría de casos de uso, no se necesitan especificaciones de parámetros; el modelo utiliza técnicas avanzadas para encontrar un modelo eficiente. En entrenamientos posteriores al primero, el modelo utiliza el aprendizaje incremental (es decir, se utilizará la versión previamente entrenada, al final de una ejecución de entrenamiento).

Formato del conjunto de datos

Hay dos opciones posibles para estructurar tu conjunto de datos para este modelo. No puedes usar ambas opciones al mismo tiempo. De forma predeterminada, el modelo buscará el archivo dataset.csv en el directorio de carpetas superior; si lo encuentra, utiliza la opción 2 y, si no, el modelo intenta usar la opción 1 (estructura de carpetas).

Usar la estructura de carpetas para separar tu clase

Crea una carpeta para cada clase (en el nivel superior del conjunto de datos) y añade un archivo de texto por punto de datos en la carpeta correspondiente (la carpeta es la clase y el archivo solo tiene el input). La estructura del conjunto de datos debería verse así:

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

Utiliza un archivo .csv.

Reagrupa todos tus datos en un archivo .csv llamado dataset.csv en el nivel superior de tu conjunto de datos. El archivo tendrá que tener dos columnas: input (el texto) y target (la clase). Se vería de la siguiente forma:

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Papel

BERT: preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje, por Jacob Devlin, Ming-Wie Chang, Kenton Lee y Kristina Toutanova.

En esta página

Lenguajes
Detalles del modelo
Tipo de entrada
Descripción de entrada
Descripción de salida
Procesos
Formato del conjunto de datos
Papel

¿Te ha resultado útil esta página?

AnteriorDetección de objetos

Sig.Clasificación TPOT AutoML

Soporte y servicios

Obtén la ayuda que necesitas

UiPath Academy

RPA para el aprendizaje - Cursos de automatización

Foro de UiPath

Foro de la comunidad UiPath

Confianza y seguridad

Términos de uso

Política de privacidad

Política de cookies