ai-center
2020.10
false
AI Center
Automation CloudAutomation SuiteStandalone
Last updated 6 de jun. de 2024

Clasificación de texto en francés

Paquetes del SO > Análisis de idioma > FrenchTextClassification

Este modelo es un modelo de clasificación de texto genérico que utiliza el aprendizaje de transferencia para el idioma francés y debe entrenarse antes de empezar a utilizarlo para la predicción. Se basa en integraciones de CamemBERT en las que añadimos una red neural totalmente conectada de 3 capas para clasificar datos. CamemBERT es un modelo de idioma vanguardista para el francés que se basa en la arquitectura RoBERTa preentrenada en el subcorpus francés del corpus multilingüe OSCAR de HuggingFace.

Tipo de entrada

JSON

Descripción de entrada

Texto que se clasificará como cadena: "Mon séjour dans cet hôtel s’est très bien passé".

Descripción de salida

String JSON con nombre de clase predecida; confianza asociada a la predicción de esa clase (entre 0-1) y una lista de todas las clases con la confianza asociada en el campo "all_predictions".

Ejemplo:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

Procesos

Este paquete es compatible con los tres tipos de procesos (entrenamiento completo, entrenamiento y evaluación).

Mientras entrenas el modelo por primera vez, se inferirán clases viendo todo el conjunto de datos proporcionado. Cuando el modelo esté entrenado, se utilizarán las mismas clases para las predicciones y el reentrenamiento futuro. Si quieres restablecer las clases (o añadir nuevas clases), tendrás que reentrenar el modelo con el restablecimiento de la variable de entorno (consulta abajo).

El uso de una GPU hará que la ejecución del proceso sea mucho más rápida y se recomienda para el entrenamiento en conjuntos de datos grandes.

Formato del conjunto de datos

Este paquete ML buscará archivos .json y .csv en tu conjunto de datos (no en los subdirectorios).

  • Archivos .csv: se espera un .csv con encabezados llamados input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class") y una línea por dato.
  • Archivos .json: se espera que solo contengan un punto de datos con campos input_column (valor predeterminado: "text") y target_column (valor predeterminado: "class").

Variables de entorno

  • epochs: personaliza el número de epochs para procesos de entrenamiento o procesos completos (10, predeterminado).
  • input_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("text", de forma predeterminada).
  • target_column: cambia este valor para que coincida con el nombre de tu columna de input del conjunto de datos ("class", de forma predeterminada).
  • reset: añade esta variable de entorno si quieres reentrenar desde cero las tres capas de la red neural o cambiar clases. De forma predeterminada, este modelo utiliza el aprendizaje de transferencia y mantiene las mismas clases que el entrenamiento anterior.

Artefactos

La función de evaluación produce dos artefactos:

  • predictions.csv: archivo CSV con 4 columnas:

    • text: texto de entrada que se clasifica.
    • class: clase de datos reales del conjunto de datos.
    • predicted_class: clase predecida por el modelo.
    • confidence: puntuación de confianza asociada a la predicción.
  • metrics.json: archivo .json que reagrupa exactitud, macrovalor f1 promediado, precisión y exhaustividad, junto con el valor f1, la precisión y la exhaustividad para cada clase. Ejemplo:

    {
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }{
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }

Papel

CamemBERT: un buen modelo de idioma francés de Louis Martin, Benjamin Muller, Pedro Javier Ortiz Suárez, Yoann Dupont, Laurent Romary, Éric Villemonte de la Clergerie, Djamé Seddah y Benoît Sagot.

  • Tipo de entrada
  • Descripción de entrada
  • Descripción de salida
  • Procesos
  • Formato del conjunto de datos
  • Variables de entorno
  • Artefactos

¿Te ha resultado útil esta página?

Obtén la ayuda que necesitas
RPA para el aprendizaje - Cursos de automatización
Foro de la comunidad UiPath
Uipath Logo White
Confianza y seguridad
© 2005-2024 UiPath. Todos los derechos reservados.