ai-center
latest
false
- 发行说明
- 入门指南
- 通知
- 项目
- 数据集
- 数据标签
- ML 包
- 开箱即用包
- 管道
- ML 技能
- ML 日志
- AI Center 中的 Document Understanding™
- AI Center API
- 许可
- AI 解决方案模板
- 如何
- 基本故障排除指南
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
AI Center
Last updated 2024年11月19日
法语文本分类
操作系统包 > 语言分析 > 法语文本分类
包含预测类名称以及有关该类预测的关联置信度(0 到 1)的 JSON 字符串,其中的“all_predictions”字段中列出了所有类和关联的置信度。
示例:
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
此包支持所有三种类型的管道(完整训练、训练和评估)。
首次训练模型时,将通过查看所提供的整个数据集来推断类。训练模型后,系统将使用相同的类进行预测和未来的重新训练。如果要重置类(或添加新类),您需要使用环境变量 reset(见下文)来重新训练模型。
使用 GPU 将加快管道执行速度,建议用于针对大型数据集进行训练。
此 ML 包将在数据集(而不是子目录)中查找 json 和 csv 文件。
- csv 文件:应为标头名为 input_column(默认为“text”)和 target_column(默认为“class”)的 csv,每个数据一行。
- json 文件:预计仅包含一个数据点,以及“input_column”字段(默认为“text”)和“target_column”字段(默认为“class”)。
- epochs:自定义训练管道或完整管道的时期数(默认值为 10)
- input_column:更改此值以匹配数据集输入列的名称(默认为“text”)
- target_column:更改此值以匹配数据集输入列的名称(默认为“class”)
- reset:如果要从头开始重新训练三层神经网络和/或更改类,请添加此环境变量。默认情况下,此模型使用迁移学习,并且保持与先前训练相同的类。
评估函数会生成两个工件:
- predictions.csv:4 列 CSV 文件:
- text:正在分类的输入文本。
- class:数据集中的地面实况类。
- predicted_class:模型预测的类。
- confidence:与预测关联的置信度分数。
- metrics.json:此 json 文件对准确度、精度、宏平均 f1 值、精度、召回率和 f1 值以及每个类的精度和召回率进行重新分组。示例:
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
CamemBERT:一个非常有用的法语语言模型,由 Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 共同开发。