- Notas relacionadas
- Primeros pasos
- Notificaciones
- Proyectos
- Conjuntos de datos
- Etiquetado de datos
- Paquetes ML
- Paquetes listos para usar
- Procesos
- Habilidades ML
- Logs de ML
- Document UnderstandingTM en AI Center
- API de AI Center
- Licencia
- Plantillas de soluciones de AI
- Tutorial
- Guía básica de resolución de problemas
Clasificación de texto multietiqueta
Clasificación de texto multietiqueta está actualmente en vista previa pública.
UiPath® está comprometido con la estabilidad y la calidad de nuestros productos, pero las características de vista previa siempre están sujetas a cambios en función de los comentarios que recibimos de nuestros clientes. No se recomienda el uso de características de vista previa para implementaciones de producción.
Clasificación de texto multietiqueta para paquetes listos para usar
Se trata de un modelo genérico y que se puede volver a entrenar para etiquetar un texto con varias etiquetas. Este paquete ML debe entrenarse y, si se implementa sin haberse entrenado antes, la implementación fallará mostrando un error que indica que el modelo no está entrenado. Se basa en el modelo BERT, un método autogestionado para entrenar previamente los sistemas de procesamiento de idiomas naturales. Se recomienda una GPU, especialmente durante el entrenamiento. Una GPU ofrece una mejora de la velocidad de entre 5 y 10 veces superior.
Este modelo multilingüe admite los idiomas enumerados a continuación. Se han elegido estos idiomas porque son los 100 idiomas más importantes con las Wikipedias más grandes:
- Afrikáans
- Albanés
- Árabe
- Aragonés
- Armenio
- Asturiano
- Azerbaiyano
- Baskir
- Vasco
- Bávaro
- Bielorruso
- Bengalí
- Bishnupriya Manipuri
- Bosnio
- Bretón
- Búlgaro
- Birmano
- Catalán
- Cebuano
- Checheno
- Chino (simplificado)
- Chino (Tradicional)
- Chuvasio
- Croata
- Checo
- Danés
- Holandés
- English
- Estonio
- Finlandés
- Francés
- Gallego
- Georgiano
- Alemán
- Griego
- Gujaratí
- Haitiano
- Hebreo
- Hindi
- Húngaro
- Islandés
- Ido
- Indonesio
- Irlandés
- Italiano
- Japonés
- Javanés
- Canarés
- Kazajo
- Kirguís
- Koreano
- Latín
- Letón
- Lituano
- Lombardo
- Bajo sajón
- Luxemburgués
- Macedonio
- Malgache
- Malayo
- Malayo
- Maratí
- Minangkabau
- Nepalí
- Nevarí
- Noruego (Bokmal)
- Noruego (Nynorsk)
- Occitano
- Persa (Farsi)
- Piamontés
- Polaco
- Portugués
- Punyabí
- Rumano
- Ruso
- Escocés
- Serbio
- Serbo-croata
- Siciliano
- Eslovaco
- Esloveno
- Azerbaiyano del sur
- Español
- Sundanés
- Suajili
- Sueco
- Tagalo
- Tayiko
- Tamil
- Tártaro
- Telugu
- Turco
- Ucraniano
- Urdu
- Uzbeko
- Vietnamita
- Volapük
- Waray-Waray
- Galés
- Frisón occidental
- Punyabí occidental
- Yoruba
Texto que se va a clasificar como cadena: 'Me encanta este actor, pero odio sus películas'.
JSON con dos listas. La primera lista contendrá la(s) etiqueta(s) prevista(s) y la segunda lista contendrá la confianza asociada a la etiqueta prevista (entre 0 y 1).
Ejemplo:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
Este paquete admite los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación). En la mayoría de los casos de uso, no es necesario especificar los parámetros. El modelo utiliza técnicas avanzadas para encontrar un modelo eficaz. En las sesiones de entrenamiento subsiguientes a la primera, el modelo utiliza el aprendizaje incremental (es decir, se utilizará la versión previamente entrenada, al final de una sesión de entrenamiento).
text
y label
. Los nombres de estas dos columnas y/o propiedades pueden configurarse mediante variables de entorno.
Formato de archivo CSV
text
) y dataset.target_column_name (si no se modifica, el valor predeterminado es labels
).
Por ejemplo, un único archivo CSV puede tener el siguiente aspecto:
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
Puedes utilizar GPU o CPU para el entrenamiento. Se recomienda utilizar la GPU, ya que es más rápido.
- dataset.text_column_name: valor predeterminado
text
- model.epochs: valor predeterminado
100
. - dataset.target_column_name: valor predeterminado
label
Matriz de confusión
Para abarcar mejor todas las etiquetas, en el caso de Clasificación de texto multietiqueta la matriz de confusión es un archivo JSON. Se proporciona una matriz de confusión para cada etiqueta ([[#Verdaderos positivos, #Verdaderos negativos], [# Falsos positivos, # Falsos negativos]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
Informe de clasificación
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
Evaluación
Este es un archivo CSV con predicciones en el conjunto de pruebas utilizado para la evaluación.
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]