AI Center - Clasificación de texto en francés

ai-center

2020.10

false

AI Center

Notas relacionadas
Requisitos
- Requisitos de hardware y software
- Arquitectura de AI Fabric
Instalación
Primeros pasos
- Acerca de AI Fabric
- Utilizar AI Fabric
Proyectos
- Acerca de los proyectos
- Gestionar proyectos
Conjuntos de datos
- Acerca de los conjuntos de datos
- Gestión de conjuntos de datos
Paquetes ML
- Acerca de los paquetes ML
- Creación de paquetes ML
- Gestión de paquetes ML
  - Importar/Exportar paquetes ML
- Paquetes listos para usar
  - Clasificación de texto en inglés
  - Clasificación de texto en francés
  - Clasificación TPOT AutoML
  - Clasificación TPOT XGBoost
  - UiPath Document Understanding
- Ejemplos
Procesos
Habilidades ML
- Acerca de las habilidades ML
- Gestión de habilidades ML
Logs de ML
- Acerca de los registros ML
Document Understanding en AI Fabric
- Gestor de datos
- Servicios de OCR
Guía básica de resolución de problemas
- Resolución general de problemas de AI Center y preguntas frecuentes

Importante :

La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Clasificación de texto en francés

Paquetes del SO > Análisis de idioma > FrenchTextClassification

Este modelo es un modelo de clasificación de texto genérico que utiliza el aprendizaje de transferencia para el idioma francés y debe entrenarse antes de empezar a utilizarlo para la predicción. Se basa en integraciones de CamemBERT en las que añadimos una red neural totalmente conectada de 3 capas para clasificar datos. CamemBERT es un modelo de idioma vanguardista para el francés que se basa en la arquitectura RoBERTa preentrenada en el subcorpus francés del corpus multilingüe OSCAR de HuggingFace.

Tipo de entrada

JSON

Descripción de entrada

Texto que se clasificará como cadena: "Mon séjour dans cet hôtel s’est très bien passé".

Descripción de salida

String JSON con nombre de clase predecida; confianza asociada a la predicción de esa clase (entre 0-1) y una lista de todas las clases con la confianza asociada en el campo "all_predictions".

Ejemplo:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Procesos

Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación).

Mientras entrenas el modelo por primera vez, se inferirán clases viendo todo el conjunto de datos proporcionado. Cuando el modelo esté entrenado, se utilizarán las mismas clases para las predicciones y el reentrenamiento futuro. Si quieres restablecer las clases (o añadir nuevas clases), tendrás que reentrenar el modelo con el restablecimiento de la variable de entorno (consulta abajo).

El uso de una GPU hará que la ejecución del proceso sea mucho más rápida y se recomienda para el entrenamiento en conjuntos de datos grandes.

Formato del conjunto de datos

Este paquete ML buscará archivos .json y .csv en tu conjunto de datos (no en los subdirectorios).

Archivos .csv: se espera un .csv con encabezados llamados input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class") y una línea por dato.
Archivos .json: se espera que solo contengan un punto de datos con campos input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class").

Variables de entorno

epochs: personaliza el número de epochs para procesos de entrenamiento o procesos completos (10, predeterminado).
input_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("text", de forma predeterminada).
target_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("class", de forma predeterminada).
reset: añade esta variable de entorno si quieres reentrenar desde cero las tres capas de la red neural o cambiar clases. De forma predeterminada, este modelo utiliza el aprendizaje de transferencia y mantiene las mismas clases que el entrenamiento anterior.

Artefactos

La función de evaluación produce dos artefactos:

predictions.csv: archivo CSV con 4 columnas:
- text: texto de entrada que se clasifica.
- class: clase de datos reales del conjunto de datos.
- predicted_class: clase predecida por el modelo.
- confidence: puntuación de confianza asociada a la predicción.

metrics.json: archivo .json que reagrupa exactitud, macrovalor f1 promediado, precisión y exhaustividad, junto con el valor f1, la precisión y la exhaustividad para cada clase. Ejemplo:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papel

CamemBERT: un buen modelo de idioma francés de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah y Benoît Sagot.

https://camembert-model.fr/

En esta página

Tipo de entrada
Descripción de entrada
Descripción de salida
Procesos
Formato del conjunto de datos
Variables de entorno
Artefactos

¿Te ha resultado útil esta página?

AnteriorClasificación de texto en inglés

Sig.Clasificación TPOT AutoML