- 发行说明
- 入门指南
- 通知
- 项目
- 数据集
- 数据标签
- ML 包
- 开箱即用包
- 管道
- ML 技能
- ML 日志
- AI Center 中的 Document Understanding™
- AI Center API
- 许可
- AI 解决方案模板
- 如何
- 基本故障排除指南
多标签文本分类
多标签文本分类模型当前为公开预览版。
UiPath® is committed to stability and quality of our products, but preview features are always subject to change based on feedback that we receive from our customers. Using preview features is not recommended for production deployments.
开箱即用包多标签文本分类
这是一个可重新训练的通用模型,用于使用多个标签标记文本。 必须训练此 ML 包,如果在未训练的情况下进行部署,则部署将失败,并显示错误,指出模型未训练。 它基于 BERT,这是一种用于预训练自然语言处理系统的自我监督方法。 建议使用 GPU,尤其是在训练期间。 GPU 可将速度提高约 5 到 10 倍。
此多语言模型支持下面列出的语言。之所以选择这些语言,是因为它们是维基百科条目数最多的前 100 种语言:
- 南非荷兰语
- 阿尔巴尼亚语
- 阿拉伯语
- 阿拉贡语
- 亚美尼亚语
- 阿斯图里亚斯语
- 阿塞拜疆
- 巴什基尔
- 巴斯克语
- 巴伐利亚语
- 白俄罗斯语
- 孟加拉语
- 比什奴普莱利亚-曼尼浦尔语
- 波斯尼亚语
- 布列塔尼
- 保加利亚语
- 缅甸语
- 加泰罗尼亚语
- 宿务语
- 车臣
- 中文 (简体)
- 中文 (繁体)
- 楚瓦什语
- 克罗地亚语
- 捷克语
- 丹麦语
- 荷兰语
- 英文
- 爱沙尼亚语
- 芬兰语
- 法语
- 加利西亚语
- 格鲁吉亚语
- 德语
- 希腊语
- 古吉拉特语
- 海地语
- 希伯来语
- 印地语
- 匈牙利语
- 冰岛语
- 伊多
- 印尼语
- 爱尔兰语
- 意大利语
- 日语
- 爪哇语
- 卡纳达语
- 哈萨克语
- 吉尔吉斯语
- 韩语
- 拉丁语
- 拉脱维亚语
- 立陶宛语
- 伦巴第语
- 低萨克森语
- 卢森堡语
- 马其顿语
- 马达加斯加语
- 马来语
- 马拉雅拉姆语
- 马拉地语
- 米南卡保
- 尼泊尔语
- 尼瓦尔语
- 挪威博克马尔语
- 挪威尼诺斯克语
- 奥克西顿语
- 波斯语(现代波斯语)
- 皮埃蒙特语
- 波兰语
- 葡萄牙语
- 旁遮普语
- 罗马尼亚语
- 俄语
- 苏格兰语
- 塞尔维亚语
- 塞尔维亚语-克罗地亚语
- 西西里岛人语
- 斯洛伐克语
- 斯洛文尼亚语
- 南阿塞拜疆语
- 西班牙语
- 巽他语
- 斯瓦希里语
- 瑞典语
- 他加禄语
- 塔吉克语
- 泰米尔语
- 鞑靼人
- 泰卢固语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 沃拉卜克语
- 瓦瑞瓦瑞语
- 威尔士语
- 西弗里西亚语
- 西部旁遮普语
- 约鲁巴语
包含两个列表的 JSON。 第一个列表将包含预测标签,第二个列表将包含与预测标签相关的置信度(介于 0 到 1 之间)。
示例:
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
{
"labels": [
"deliver",
"payment"
],
"confidence": [
0.780,
0.899
]
}
此包支持所有三种类型的管道(完整训练、训练和评估)。 对于大多数用例,无需指定参数。 该模型使用高级技术来查找高性能模型。 在第一次训练之后的后续训练中,模型使用增量学习(也就是说,在训练运行结束时,将使用先前训练的版本)。
text
和label
。 可以使用环境变量配置这两列和/或属性的名称。
CSV 文件格式
text
)和 dataset.target_column_name(如果未修改,则默认值为 labels
)。
例如,单个 CSV 文件可能如下所示:
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
- dataset.text_column_name - 默认值
text
- model.epochs - 默认值
100
- dataset.target_column_name - 默认值
label
混淆矩阵
为了更好地覆盖所有标签,对于多标签文本分类,混淆矩阵是 JSON 文件。 我们为每个标签提供混淆矩阵 ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
{
"labels":[
"positive",
"negative"
],
"multilabel_confusion_matrix":[
[
[
83,
4
],
[
21,
4
]
],
[
[
105,
1
],
[
6,
0
]
]
]
}
分类报告
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
{
"positive": {
"precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
},
"negative": {
"precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
}
}
评估
这是一个 CSV 文件,其中包含用于评估的测试集的预测。
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]