ai-center
2020.10
false
- 发行说明
- 要求
- 安装
- 入门指南
- 项目
- 数据集
- ML 包
- 管道
- ML 技能
- ML 日志
- AI Fabric 中的 Document Understanding
- 基本故障排除指南
AI Center
Last updated 2024年6月6日
法语文本分类
操作系统包 > 语言分析 > 法语文本分类
包含预测类名称以及有关该类预测的关联置信度(0 到 1)的 JSON 字符串,其中的“all_predictions”字段中列出了所有类和关联的置信度。
示例:
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
{
"class": "Positive",
"confidence": 0.9996203184127808,
"all_predictions": [
{
"class": "Negative",
"confidence": 0.0003796691307798028
},
{
"class": "Positive",
"confidence": 0.9996203184127808
}
]
}
此 ML 包将在数据集(而不是子目录)中查找 json 和 csv 文件。
- csv 文件:应为标头名为 input_column(默认为“text”)和 target_column(默认为“class”)的 csv,每个数据一行。
- json 文件:预计仅包含一个数据点,以及“input_column”字段(默认为“text”)和“target_column”字段(默认为“class”)。
- epochs:自定义训练管道或完整管道的时期数(默认值为 10)
- input_column:更改此值以匹配数据集输入列的名称(默认为“text”)
- target_column:更改此值以匹配数据集输入列的名称(默认为“class”)
- reset:如果要从头开始重新训练三层神经网络和/或更改类,请添加此环境变量。默认情况下,此模型使用迁移学习,并且保持与先前训练相同的类。
评估函数会生成两个工件:
-
predictions.csv:4 列 CSV 文件:
- text:正在分类的输入文本。
- class:数据集中的地面实况类。
- predicted_class:模型预测的类。
- confidence:与预测关联的置信度分数。
-
metrics.json:此 json 文件对准确度、精度、宏平均 f1 值、精度、召回率和 f1 值以及每个类的精度和召回率进行重新分组。示例:
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
{ "accuracy": 0.7572500109672546, "f1_macro": 0.756912701179931, "precision_macro": 0.7594798901045778, "recall_macro": 0.7576722549210066, "details": [ { "class": "Negative", "f1": 0.7659677030609786, "precision": 0.7329335793357934, "recall": 0.8021201413427562 }, { "class": "Positive", "f1": 0.7478576992988835, "precision": 0.7860262008733624, "recall": 0.7132243684992571 } ] }
Paper
CamemBERT:一个非常有用的法语语言模型,由 Louis Martin、Benjamin Muller、Pedro Javier Ortiz Suárez、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 共同开发。