- Notas relacionadas
- Requisitos
- Instalación
- Primeros pasos
- Proyectos
- Conjuntos de datos
- Paquetes ML
- Procesos
- Habilidades ML
- Logs de ML
- Document Understanding en AI Fabric
- Guía básica de resolución de problemas
Clasificación de texto en francés
Paquetes del SO > Análisis de idioma > FrenchTextClassification
Este modelo es un modelo de clasificación de texto genérico que utiliza el aprendizaje de transferencia para el idioma francés y debe entrenarse antes de empezar a utilizarlo para la predicción. Se basa en integraciones de CamemBERT en las que añadimos una red neural totalmente conectada de 3 capas para clasificar datos. CamemBERT es un modelo de idioma vanguardista para el francés que se basa en la arquitectura RoBERTa preentrenada en el subcorpus francés del corpus multilingüe OSCAR de HuggingFace.
Texto que se clasificará como cadena: "Mon séjour dans cet hôtel s’est très bien passé".
String JSON con nombre de clase predecida; confianza asociada a la predicción de esa clase (entre 0-1) y una lista de todas las clases con la confianza asociada en el campo "all_predictions".
Ejemplo:
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación).
Mientras entrenas el modelo por primera vez, se inferirán clases viendo todo el conjunto de datos proporcionado. Cuando el modelo esté entrenado, se utilizarán las mismas clases para las predicciones y el reentrenamiento futuro. Si quieres restablecer las clases (o añadir nuevas clases), tendrás que reentrenar el modelo con el restablecimiento de la variable de entorno (consulta abajo).
El uso de una GPU hará que la ejecución del proceso sea mucho más rápida y se recomienda para el entrenamiento en conjuntos de datos grandes.
Este paquete ML buscará archivos .json y .csv en tu conjunto de datos (no en los subdirectorios).
- Archivos .csv: se espera un .csv con encabezados llamados input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class") y una línea por dato.
- Archivos .json: se espera que solo contengan un punto de datos con campos input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class").
- epochs: personaliza el número de epochs para procesos de entrenamiento o procesos completos (10, predeterminado).
- input_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("text", de forma predeterminada).
- target_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("class", de forma predeterminada).
- reset: añade esta variable de entorno si quieres reentrenar desde cero las tres capas de la red neural o cambiar clases. De forma predeterminada, este modelo utiliza el aprendizaje de transferencia y mantiene las mismas clases que el entrenamiento anterior.
La función de evaluación produce dos artefactos:
-
predictions.csv: archivo CSV con 4 columnas:
- text: texto de entrada que se clasifica.
- class: clase de datos reales del conjunto de datos.
- predicted_class: clase predecida por el modelo.
- confidence: puntuación de confianza asociada a la predicción.
-
metrics.json: archivo .json que reagrupa exactitud, macrovalor f1 promediado, precisión y exhaustividad, junto con el valor f1, la precisión y la exhaustividad para cada clase. Ejemplo:
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
Papel
CamemBERT: un buen modelo de idioma francés de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah y Benoît Sagot.