AI Center
Más reciente
False
Imagen de fondo del banner
AI Center
Última actualización 18 de abr. de 2024

Clasificación de texto

Paquetes del SO > Análisis de idioma > TextClassification

Este es un modelo genérico y reentrenable para la clasificación de idiomas. Este paquete ML debe reentrenarse. Si se implementa sin entrenarse antes, la implementación fallará con un error que indica que el modelo no está entrenado.

Este modelo es una arquitectura de aprendizaje profundo para la clasificación de idiomas. Se basa en el modelo BERT, un método autogestionado para preentrenar los sistemas de procesamiento de idiomas naturales. Puede utilizarse una GPU tanto en el momento del servicio como en el del entrenamiento. Una GPU ofrece de 5 a 10 veces más mejoras en la velocidad. El modelo se hizo de código abierto por Facebook AI Research.

Lenguajes

El principal impulsor del rendimiento del modelo será la calidad de los datos utilizada para el entrenamiento. Además, los datos utilizados para parametrizar este modelo también pueden influir en el rendimiento. Este modelo fue entrenado en los principales 100 idiomas con las Wikipedias más grandes (lista completa)

Detalles del modelo

Tipo de entrada

JSON

Descripción de entrada

Texto que se clasificará como cadena: "Me encantó esta película".

Descripción de salida

JSON con el nombre de clase predecido; confianza asociada a esa predicción de clase (entre 0-1).

Ejemplo:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

Procesos

Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación).

Para la mayoría de casos de uso, no se necesitan especificaciones de parámetros; el modelo utiliza técnicas avanzadas para encontrar un modelo eficiente. En entrenamientos posteriores al primero, el modelo utiliza el aprendizaje incremental (es decir, se utilizará la versión previamente entrenada, al final de una ejecución de entrenamiento).

Formato del conjunto de datos

Hay dos opciones posibles para estructurar tu conjunto de datos para este modelo. No puedes usar ambas opciones al mismo tiempo. De forma predeterminada, el modelo buscará el archivo dataset.csv en el directorio de carpetas superior; si lo encuentra, utiliza la opción 2 y, si no, el modelo intenta usar la opción 1 (estructura de carpetas).

Usar la estructura de carpetas para separar tu clase

Crea una carpeta para cada clase (en el nivel superior del conjunto de datos) y añade un archivo de texto por punto de datos en la carpeta correspondiente (la carpeta es la clase y el archivo solo tiene el input). La estructura del conjunto de datos debería verse así:

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

Utiliza un archivo .csv.

Reagrupa todos tus datos en un archivo .csv llamado dataset.csv en el nivel superior de tu conjunto de datos. El archivo tendrá que tener dos columnas: input (el texto) y target (la clase). Se vería de la siguiente forma:

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Papel

BERT: Preentrenamiento de transformadores bidireccionales profundos para la comprensión del lenguaje por Devlin, Jacob y Chang, Ming-Wei y Lee, Kenton y Toutanova, Kristina.

  • Lenguajes
  • Detalles del modelo
  • Tipo de entrada
  • Descripción de entrada
  • Descripción de salida
  • Procesos
  • Formato del conjunto de datos
  • Papel

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.