AI Center

适用平台：

Automation Cloud Automation Suite Standalone

上次更新日期 2024年6月6日

法语文本分类

操作系统包 > 语言分析 > 法语文本分类

此模型是通用的文本分类模型，它使用适用于法语的迁移学习，需要先进行训练才能用于预测。它基于 CamemBERT 嵌入，并在其中添加 3 层完全连接的神经网络来对数据进行分类。CamemBERT 是一个先进的法语语言模型，它基于由 HuggingFace 在多语言语料库 OSCAR 的法语子语料库上预训练的 RoBERTa 架构。

输入类型

JSON

输入说明

要分类为字符串的文本：“Mon séjour dans cet hôtel s’est très bien passé”

输出说明

包含预测类名称以及有关该类预测的关联置信度（0 到 1）的 JSON 字符串，其中的“all_predictions”字段中列出了所有类和关联的置信度。

示例：

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

管道

此包支持所有三种类型的管道（完整训练、训练和评估）。

首次训练模型时，将通过查看所提供的整个数据集来推断类。训练模型后，系统将使用相同的类进行预测和未来的重新训练。如果要重置类（或添加新类），您需要使用环境变量 reset（见下文）来重新训练模型。

使用 GPU 将加快管道执行速度，建议用于针对大型数据集进行训练。

数据集格式

此 ML 包将在数据集（而不是子目录）中查找 json 和 csv 文件。

csv 文件：应为标头名为 input_column（默认为“text”）和 target_column（默认为“class”）的 csv，每个数据一行。
json 文件：预计仅包含一个数据点，以及“input_column”字段（默认为“text”）和“target_column”字段（默认为“class”）。

环境变量

epochs：自定义训练管道或完整管道的时期数（默认值为 10）
input_column：更改此值以匹配数据集输入列的名称（默认为“text”）
target_column：更改此值以匹配数据集输入列的名称（默认为“class”）
reset：如果要从头开始重新训练三层神经网络和/或更改类，请添加此环境变量。默认情况下，此模型使用迁移学习，并且保持与先前训练相同的类。

工件

评估函数会生成两个工件：

predictions.csv:4 列 CSV 文件：
- text：正在分类的输入文本。
- class：数据集中的地面实况类。
- predicted_class：模型预测的类。
- confidence：与预测关联的置信度分数。

metrics.json：此 json 文件对准确度、精度、宏平均 f1 值、精度、召回率和 f1 值以及每个类的精度和召回率进行重新分组。示例：

{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}{
  "accuracy": 0.7572500109672546,
  "f1_macro": 0.756912701179931,
  "precision_macro": 0.7594798901045778,
  "recall_macro": 0.7576722549210066,
  "details": [
    {
      "class": "Negative",
      "f1": 0.7659677030609786,
      "precision": 0.7329335793357934,
      "recall": 0.8021201413427562
    },
    {
      "class": "Positive",
      "f1": 0.7478576992988835,
      "precision": 0.7860262008733624,
      "recall": 0.7132243684992571
    }
  ]
}

Paper

CamemBERT：一个非常有用的法语语言模型，由 Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 共同开发。

https://camembert-model.fr/

在此页面上