AI Center
Más reciente
False
Imagen de fondo del banner
AI Center
Última actualización 18 de abr. de 2024

Clasificación de texto multietiqueta

Nota:

Clasificación de texto multietiqueta está actualmente en vista previa pública.

UiPath se compromete a mantener la estabilidad y la calidad de sus productos, pero las características de la vista previa están siempre sujetas a cambios basados en los comentarios que recibimos de nuestros clientes. No se recomienda utilizar las funciones de vista previa para las implementaciones de producción.

Clasificación de texto multietiqueta para paquetes listos para usar

Se trata de un modelo genérico y que se puede volver a entrenar para etiquetar un texto con varias etiquetas. Este paquete ML debe entrenarse y, si se implementa sin haberse entrenado antes, la implementación fallará mostrando un error que indica que el modelo no está entrenado. Se basa en el modelo BERT, un método autogestionado para entrenar previamente los sistemas de procesamiento de idiomas naturales. Se recomienda una GPU, especialmente durante el entrenamiento. Una GPU ofrece una mejora de la velocidad de entre 5 y 10 veces superior.

Lenguajes

Este modelo multilingüe admite los idiomas enumerados a continuación. Se han elegido estos idiomas porque son los 100 idiomas más importantes con las Wikipedias más grandes:

  • Afrikáans
  • Albanés
  • Árabe
  • Aragonés
  • Armenio
  • Asturiano
  • Azerbaiyano
  • Baskir
  • Vasco
  • Bávaro
  • Bielorruso
  • Bengalí
  • Bishnupriya Manipuri
  • Bosnio
  • Bretón
  • Búlgaro
  • Birmano
  • Catalán
  • Cebuano
  • Checheno
  • Chino (simplificado)
  • Chino (Tradicional)
  • Chuvasio
  • Croata
  • Checo
  • Danés
  • Holandés
  • English
  • Estonio
  • Finlandés
  • Francés
  • Gallego
  • Georgiano
  • Alemán
  • Griego
  • Gujaratí
  • Haitiano
  • Hebreo
  • Hindi
  • Húngaro
  • Islandés
  • Ido
  • Indonesio
  • Irlandés
  • Italiano
  • Japonés
  • Javanés
  • Canarés
  • Kazajo
  • Kirguís
  • Koreano
  • Latín
  • Letón
  • Lituano
  • Lombardo
  • Bajo sajón
  • Luxemburgués
  • Macedonio
  • Malgache
  • Malayo
  • Malayo
  • Maratí
  • Minangkabau
  • Nepalí
  • Nevarí
  • Noruego (Bokmal)
  • Noruego (Nynorsk)
  • Occitano
  • Persa (Farsi)
  • Piamontés
  • Polaco
  • Portugués
  • Punyabí
  • Rumano
  • Ruso
  • Escocés
  • Serbio
  • Serbo-croata
  • Siciliano
  • Eslovaco
  • Esloveno
  • Azerbaiyano del sur
  • Español
  • Sundanés
  • Suajili
  • Sueco
  • Tagalo
  • Tayiko
  • Tamil
  • Tártaro
  • Telugu
  • Turco
  • Ucraniano
  • Urdu
  • Uzbeko
  • Vietnamita
  • Volapük
  • Waray-Waray
  • Galés
  • Frisón occidental
  • Punyabí occidental
  • Yoruba

Detalles del modelo

Tipo de entrada

JSON

Descripción de entrada

Texto que se va a clasificar como cadena: 'Me encanta este actor, pero odio sus películas'.

Descripción de salida

JSON con dos listas. La primera lista contendrá la(s) etiqueta(s) prevista(s) y la segunda lista contendrá la confianza asociada a la etiqueta prevista (entre 0 y 1).

Ejemplo:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

GPU recomendada

De forma predeterminada, se recomienda una GPU.

Capacitación habilitada

El entrenamiento está habilitado.

Procesos

Este paquete admite los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación). En la mayoría de los casos de uso, no es necesario especificar los parámetros. El modelo utiliza técnicas avanzadas para encontrar un modelo eficaz. En las sesiones de entrenamiento subsiguientes a la primera, el modelo utiliza el aprendizaje incremental (es decir, se utilizará la versión previamente entrenada, al final de una sesión de entrenamiento).

Formato del conjunto de datos

El modelo leerá todos los archivos CSV en el directorio especificado. En cada archivo CSV, el modelo prevé de manera predeterminada dos columnas o dos propiedades: text y label. Los nombres de estas dos columnas y/o propiedades pueden configurarse mediante variables de entorno.

Formato de archivo CSV

Cada archivo CSV puede tener cualquier número de columnas, aunque el modelo solo utilizará dos. Estas columnas se especifican mediante los parámetros dataset.text_column_name (si no se modifica, el valor predeterminado es text) y dataset.target_column_name (si no se modifica, el valor predeterminado es labels).

Por ejemplo, un único archivo CSV puede tener el siguiente aspecto:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

Entrenamiento en GPU o CPU

Puedes utilizar GPU o CPU para el entrenamiento. Se recomienda utilizar la GPU, ya que es más rápido.

Variables de entorno

  • dataset.text_column_name: valor predeterminado text
  • model.epochs: valor predeterminado 100.
  • dataset.target_column_name: valor predeterminado label

Artefactos

Matriz de confusión

Para abarcar mejor todas las etiquetas, en el caso de Clasificación de texto multietiqueta la matriz de confusión es un archivo JSON. Se proporciona una matriz de confusión para cada etiqueta ([[#Verdaderos positivos, #Verdaderos negativos], [# Falsos positivos, # Falsos negativos]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

Informe de clasificación

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

Evaluación

Este es un archivo CSV con predicciones en el conjunto de pruebas utilizado para la evaluación.

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

Was this page helpful?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Logotipo blanco de UiPath
Confianza y seguridad
© 2005-2024 UiPath. All rights reserved.