AI Center - Clasificación de texto en francés

ai-center

latest

false

Guía del usuario de AI Center

Primeros pasos
Notificaciones
- Mis notificaciones
Proyectos
- Acerca de los proyectos
- Gestionar proyectos
Conjuntos de datos
- Acerca de los conjuntos de datos
- Gestión de conjuntos de datos
Etiquetado de datos
Paquetes ML
Paquetes listos para usar
Procesos
Habilidades ML
- Acerca de las habilidades ML
- Gestión de habilidades ML
Logs de ML
- Acerca de los registros ML
Document UnderstandingTM en AI Center
- Administrador de documentos
- Servicios de OCR
API de AI Center
- Información general
- Lista de API
Licencia
Plantillas de soluciones de AI
- Acerca de las plantillas de soluciones de AI
  - Enviar un correo electrónico a AI
Tutorial
- Paquetes ML
  - Utilizar NER personalizado con aprendizaje continuo
- Habilidades ML
Guía básica de resolución de problemas

Importante :

Este contenido se ha localizado parcialmente a partir de un sistema de traducción automática. La localización de contenidos recién publicados puede tardar entre una y dos semanas en estar disponible.

Clasificación de texto en francés

Paquete ML de código abierto FrenchTextClassification en AI Center, un modelo obsoleto reentrenable para la clasificación de texto en francés.

Nota:

Los paquetes ML listos para usar están obsoletos. Para obtener más información, consulta la página Línea de tiempo de obsolescencia en la guía Información general .

Paquetes del SO > Análisis de idioma > FrenchTextClassification

Este modelo es un modelo de clasificación de texto genérico que utiliza el aprendizaje de transferencia para el idioma francés y debe entrenarse antes de empezar a utilizarlo para la predicción. Se basa en integraciones de CamemBERT en las que añadimos una red neural totalmente conectada de 3 capas para clasificar datos. CamemBERT es un modelo de idioma vanguardista para el francés que se basa en la arquitectura RoBERTa preentrenada en el subcorpus francés del corpus multilingüe OSCAR de HuggingFace.

Detalles del modelo

Tipo de entrada

JSON

Descripción de entrada

Texto que se clasificará como cadena: "Mon séjour dans cet hôtel s’est très bien passé".

Descripción de salida

String JSON con nombre de clase predecida; confianza asociada a la predicción de esa clase (entre 0-1) y una lista de todas las clases con la confianza asociada en el campo "all_predictions".

Ejemplo:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}
{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Procesos

Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación).

Mientras entrenas el modelo por primera vez, las clases se inferirán al observar todo el conjunto de datos proporcionado. Una vez entrenado el modelo, se utilizarán las mismas clases para las predicciones y el reentrenamiento futuro. Si quieres restablecer las clases (o añadir nuevas clases), debes volver a entrenar el modelo utilizando la variable de entorno reset.

El uso de una GPU hará que la ejecución del proceso sea mucho más rápida y se recomienda para el entrenamiento en conjuntos de datos grandes.

Formato del conjunto de datos

Este paquete ML buscará archivos .json y .csv en tu conjunto de datos (no en los subdirectorios).

Archivos .csv: se espera un .csv con encabezados llamados input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class") y una línea por dato.
Archivos .json: se espera que solo contengan un punto de datos con campos input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class").

Variables de entorno

epochs: personaliza el número de epochs para procesos de entrenamiento o procesos completos (10, predeterminado).
input_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("text", de forma predeterminada).
target_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("class", de forma predeterminada).
reset: añade esta variable de entorno si quieres reentrenar desde cero las tres capas de la red neural o cambiar clases. De forma predeterminada, este modelo utiliza el aprendizaje de transferencia y mantiene las mismas clases que el entrenamiento anterior.

Artefactos

La función de evaluación produce dos artefactos:

predictions.csv: archivo CSV con 4 columnas:
- text: texto de entrada que se clasifica.
- class: clase de datos reales del conjunto de datos.
- predicted_class: clase predecida por el modelo.
- confidence: puntuación de confianza asociada a la predicción.

metrics.json: archivo .json que reagrupa exactitud, macrovalor f1 promediado, precisión y exhaustividad, junto con el valor f1, la precisión y la exhaustividad para cada clase. Ejemplo:

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}
{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Papel

CamemBERT: un buen modelo de idioma francés de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah y Benoît Sagot.

https://camembert-model.fr/

En esta página

Detalles del modelo
Tipo de entrada
Descripción de entrada
Descripción de salida
Procesos
Formato del conjunto de datos
Variables de entorno
Artefactos
Papel

¿Te ha resultado útil esta página?

AnteriorClasificación de texto en inglés

Sig.Clasificación de texto en japonés

Detalles del modelo​

Tipo de entrada​

Descripción de entrada​

Descripción de salida​

Procesos​

Formato del conjunto de datos​

Variables de entorno​

Artefactos​

Papel​