AI Center: clasificación de texto con múltiples etiquetas

ai-center

latest

false

Guía del usuario de AI Center

Primeros pasos
Notificaciones
- Mis notificaciones
Proyectos
- Acerca de los proyectos
- Gestionar proyectos
Conjuntos de datos
- Acerca de los conjuntos de datos
- Gestión de conjuntos de datos
Etiquetado de datos
Paquetes ML
Paquetes listos para usar
Procesos
Habilidades ML
- Acerca de las habilidades ML
- Gestión de habilidades ML
Logs de ML
- Acerca de los registros ML
Document UnderstandingTM en AI Center
- Administrador de documentos
- Servicios de OCR
API de AI Center
- Información general
- Lista de API
Licencia
Plantillas de soluciones de AI
- Acerca de las plantillas de soluciones de AI
  - Enviar un correo electrónico a AI
Tutorial
- Paquetes ML
  - Utilizar NER personalizado con aprendizaje continuo
- Habilidades ML
Guía básica de resolución de problemas

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Clasificación de texto multietiqueta

Paquete ML listo para usar MultilabelTextClassification en AI Center, un modelo de vista previa para clasificar texto en varias categorías concurrentes.

Nota:

Este paquete ML pronto quedará obsoleto. Para obtener más información, consulta la página Línea de tiempo de obsolescencia en la guía Información general .

Nota:

Clasificación de texto multietiqueta está actualmente en vista previa pública.

UiPath® está comprometido con la estabilidad y la calidad de nuestros productos, pero las características de vista previa siempre están sujetas a cambios en función de los comentarios que recibimos de nuestros clientes. No se recomienda el uso de características de vista previa para implementaciones de producción.

Clasificación de texto multietiqueta para paquetes listos para usar

Se trata de un modelo genérico y que se puede volver a entrenar para etiquetar un texto con varias etiquetas. Este paquete ML debe entrenarse y, si se implementa sin haberse entrenado antes, la implementación fallará mostrando un error que indica que el modelo no está entrenado. Se basa en el modelo BERT, un método autogestionado para entrenar previamente los sistemas de procesamiento de idiomas naturales. Se recomienda una GPU, especialmente durante el entrenamiento. Una GPU ofrece una mejora de la velocidad de entre 5 y 10 veces superior.

Lenguajes

Este modelo multilingüe admite los idiomas de la siguiente lista. Se eligieron estos idiomas porque son los 100 idiomas principales con las Wikipedias más grandes:

Afrikáans
Albanés
Árabe
Aragonés
Armenio
Asturiano
Azerbaiyano
Baskir
Vasco
Bávaro
Bielorruso
Bengalí
Bishnupriya Manipuri
Bosnio
Bretón
Búlgaro
Birmano
Catalán
Cebuano
Checheno
Chino (simplificado)
Chino (Tradicional)
Chuvasio
Croata
Checo
Danés
Holandés
English
Estonio
Finlandés
Francés
Gallego
Georgiano
Alemán
Griego
Gujaratí
Haitiano
Hebreo
Hindi
Húngaro
Islandés
Ido
Indonesio
Irlandés
Italiano
Japonés
Javanés
Canarés
Kazajo
Kirguís
Koreano
Latín
Letón
Lituano
Lombardo
Bajo sajón
Luxemburgués
Macedonio
Malgache
Malayo
Malayo
Maratí
Minangkabau
Nepalí
Nevarí
Noruego (Bokmal)
Noruego (Nynorsk)
Occitano
Persa (Farsi)
Piamontés
Polaco
Portugués
Punyabí
Rumano
Ruso
Escocés
Serbio
Serbo-croata
Siciliano
Eslovaco
Esloveno
Azerbaiyano del sur
Español
Sundanés
Suajili
Sueco
Tagalo
Tayiko
Tamil
Tártaro
Telugu
Turco
Ucraniano
Urdu
Uzbeko
Vietnamita
Volapük
Waray-Waray
Galés
Frisón occidental
Punyabí occidental
Yoruba

Detalles del modelo

Tipo de entrada

JSON

Descripción de entrada

Texto que se va a clasificar como cadena: 'Me encanta este actor, pero odio sus películas'.

Descripción de salida

JSON con dos listas. La primera lista contendrá la(s) etiqueta(s) prevista(s) y la segunda lista contendrá la confianza asociada a la etiqueta prevista (entre 0 y 1).

Ejemplo:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}
{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

De forma predeterminada, se recomienda una GPU.

Capacitación habilitada

El entrenamiento está habilitado.

Procesos

Este paquete admite los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación). En la mayoría de los casos de uso, no es necesario especificar los parámetros. El modelo utiliza técnicas avanzadas para encontrar un modelo eficaz. En las sesiones de entrenamiento subsiguientes a la primera, el modelo utiliza el aprendizaje incremental (es decir, se utilizará la versión previamente entrenada, al final de una sesión de entrenamiento).

Formato del conjunto de datos

El modelo leerá todos los archivos CSV en el directorio especificado. En cada archivo CSV, el modelo prevé de manera predeterminada dos columnas o dos propiedades: text y label. Los nombres de estas dos columnas y/o propiedades pueden configurarse mediante variables de entorno.

Formato de archivo CSV

Cada archivo CSV puede tener cualquier número de columnas, aunque el modelo solo utilizará dos. Estas columnas se especifican mediante los parámetros dataset.text_column_name (si no se modifica, el valor predeterminado es text) y dataset.target_column_name (si no se modifica, el valor predeterminado es labels).

Por ejemplo, un único archivo CSV puede tener el siguiente aspecto:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Entrenamiento en GPU o CPU

Puedes utilizar GPU o CPU para el entrenamiento. Se recomienda utilizar la GPU, ya que es más rápido.

Variables de entorno

dataset.text_column_name: valor predeterminado text
model.epochs: valor predeterminado 100.
dataset.target_column_name: valor predeterminado label

Artefactos

Matriz de confusión

Para abarcar mejor todas las etiquetas, en el caso de Clasificación de texto multietiqueta la matriz de confusión es un archivo JSON. Se proporciona una matriz de confusión para cada etiqueta ([[#Verdaderos positivos, #Verdaderos negativos], [# Falsos positivos, # Falsos negativos]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}
{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Informe de clasificación

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}
{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Evaluación

Este es un archivo CSV con predicciones en el conjunto de pruebas utilizado para la evaluación.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

¿Te ha resultado útil esta página?

AnteriorSimilitud semántica

Sig.Análisis de imagen de UiPath

Lenguajes​

Detalles del modelo​

Tipo de entrada​

Descripción de entrada​

Descripción de salida​

GPU recomendada​

Capacitación habilitada​

Procesos​

Formato del conjunto de datos​

Formato de archivo CSV​

Entrenamiento en GPU o CPU​

Variables de entorno​

Artefactos​

Matriz de confusión​

Informe de clasificación​

Evaluación​