AI Center
最新
False
横幅背景图像
AI Center
上次更新日期 2024年4月18日

法语文本分类

操作系统包 > 语言分析 > 法语文本分类

此模型是通用的文本分类模型,它使用适用于法语的迁移学习,需要先进行训练才能用于预测。 它基于 CamemBERT 嵌入,并在其中添加 3 层完全连接的神经网络来对数据进行分类。 CamemBERT 是一个先进的法语语言模型,它基于由 HuggingFace 在多语言语料库 OSCAR 的法语子语料库上预训练的 RoBERTa 架构。

模型详细信息

输入类型

JSON

输入说明

要分类为字符串的文本:“Mon séjour dans cet hôtel s’est très bien passé”

输出说明

包含预测类名称以及有关该类预测的关联置信度(0 到 1)的 JSON 字符串,其中的“all_predictions”字段中列出了所有类和关联的置信度。

示例:

{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}{
  "class": "Positive",
  "confidence": 0.9996203184127808,
  "all_predictions": [
    {
      "class": "Negative",
      "confidence": 0.0003796691307798028
    },
    {
      "class": "Positive",
      "confidence": 0.9996203184127808
    }
  ]
}

管道

此包支持所有三种类型的管道(完整训练、训练和评估)。

首次训练模型时,将通过查看所提供的整个数据集来推断类。训练模型后,系统将使用相同的类进行预测和未来的重新训练。如果要重置类(或添加新类),您需要使用环境变量 reset(见下文)来重新训练模型。

使用 GPU 将加快管道执行速度,建议用于针对大型数据集进行训练。

数据集格式

此 ML 包将在数据集(而不是子目录)中查找 json 和 csv 文件。

  • csv 文件:应为标头名为 input_column(默认为“text”)和 target_column(默认为“class”)的 csv,每个数据一行。
  • json 文件:预计仅包含一个数据点,以及“input_column”字段(默认为“text”)和“target_column”字段(默认为“class”)。

环境变量

  • epochs:自定义训练管道或完整管道的时期数(默认值为 10)
  • input_column:更改此值以匹配数据集输入列的名称(默认为“text”)
  • target_column:更改此值以匹配数据集输入列的名称(默认为“class”)
  • reset:如果要从头开始重新训练三层神经网络和/或更改类,请添加此环境变量。默认情况下,此模型使用迁移学习,并且保持与先前训练相同的类。

工件

评估函数会生成两个工件:

  • predictions.csv:4 列 CSV 文件:
    • text:正在分类的输入文本。
    • class:数据集中的地面实况类。
    • predicted_class:模型预测的类。
    • confidence:与预测关联的置信度分数。
  • metrics.json:此 json 文件对准确度、精度、宏平均 f1 值、精度、召回率和 f1 值以及每个类的精度和召回率进行重新分组。示例:
    {
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }{
      "accuracy": 0.7572500109672546,
      "f1_macro": 0.756912701179931,
      "precision_macro": 0.7594798901045778,
      "recall_macro": 0.7576722549210066,
      "details": [
        {
          "class": "Negative",
          "f1": 0.7659677030609786,
          "precision": 0.7329335793357934,
          "recall": 0.8021201413427562
        },
        {
          "class": "Positive",
          "f1": 0.7478576992988835,
          "precision": 0.7860262008733624,
          "recall": 0.7132243684992571
        }
      ]
    }

Paper

CamemBERT:一个非常有用的法语语言模型,由 Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 共同开发。

  • 模型详细信息
  • 输入类型
  • 输入说明
  • 输出说明
  • 管道
  • 数据集格式
  • 环境变量
  • 工件
  • Paper

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.