ai-center

latest

false

入门指南
通知
- 我的通知
项目
- 关于项目
- 管理项目
数据集
- 关于数据集
- 管理数据集
数据标签
ML 包
开箱即用包
管道
ML 技能
- 关于 ML 技能
- 管理 ML 技能
ML 日志
- 关于 ML 日志
AI Center 中的 Document Understanding™
- Document Manager
- OCR 服务
AI Center API
- 概述
- API 列表
许可
AI 解决方案模板
- 关于 AI 解决方案模板
  - 电子邮件 AI
如何
- ML 包
  - 将自定义命名实体识别与持续学习结合使用
- ML 技能
基本故障排除指南

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

AI Center 用户指南

多标签文本分类

备注：

此 ML 包即将弃用。有关更多信息，请查看概述指南中的“弃用时间线” 页面。

备注：

多标签文本分类当前提供公共预览版。

UiPath™ 致力于提高产品的稳定性和质量，但预览功能始终会根据我们从客户收到的反馈而随时更改。不建议在生产部署中使用预览功能。

开箱即用包多标签文本分类

这是一个可重新训练的通用模型，用于使用多个标签标记文本。必须训练此 ML 包，如果在未训练的情况下进行部署，则部署将失败，并显示错误，指出模型未训练。它基于 BERT，这是一种用于预训练自然语言处理系统的自我监督方法。建议使用 GPU，尤其是在训练期间。 GPU 可将速度提高约 5 到 10 倍。

语言

此多语言模型支持以下列表中的语言。之所以选择这些语言，是因为它们是维基百科条目数最多的前 100 种语言：

南非荷兰语
阿尔巴尼亚语
阿拉伯语
阿拉贡语
亚美尼亚语
阿斯图里亚斯语
阿塞拜疆
巴什基尔
巴斯克语
巴伐利亚语
白俄罗斯语
孟加拉语
比什奴普莱利亚-曼尼浦尔语
波斯尼亚语
布列塔尼
保加利亚语
缅甸语
加泰罗尼亚语
宿务语
车臣
中文 (简体)
中文 (繁体)
楚瓦什语
克罗地亚语
捷克语
丹麦语
荷兰语
英文
爱沙尼亚语
芬兰语
法语
加利西亚语
格鲁吉亚语
德语
希腊语
古吉拉特语
海地语
希伯来语
印地语
匈牙利语
冰岛语
伊多
印尼语
爱尔兰语
意大利语
日语
爪哇语
卡纳达语
哈萨克语
吉尔吉斯语
韩语
拉丁语
拉脱维亚语
立陶宛语
伦巴第语
低萨克森语
卢森堡语
马其顿语
马达加斯加语
马来语
马拉雅拉姆语
马拉地语
米南卡保
尼泊尔语
尼瓦尔语
挪威博克马尔语
挪威尼诺斯克语
奥克西顿语
波斯语（现代波斯语）
皮埃蒙特语
波兰语
葡萄牙语
旁遮普语
罗马尼亚语
俄语
苏格兰语
塞尔维亚语
塞尔维亚语-克罗地亚语
西西里岛人语
斯洛伐克语
斯洛文尼亚语
南阿塞拜疆语
西班牙语
巽他语
斯瓦希里语
瑞典语
他加禄语
塔吉克语
泰米尔语
鞑靼人
泰卢固语
土耳其语
乌克兰语
乌尔都语
乌兹别克语
越南语
沃拉卜克语
瓦瑞瓦瑞语
威尔士语
西弗里西亚语
西部旁遮普语
约鲁巴语

模型详细信息

输入类型

JSON

输入说明

要分类为字符串的文本：“我喜欢这个演员，但讨厌他的电影。”

输出说明

包含两个列表的 JSON。第一个列表将包含预测标签，第二个列表将包含与预测标签相关的置信度（介于 0 到 1 之间）。

示例：

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}
{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

默认情况下，建议使用 GPU。

已启用训练

已启用训练。

管道

此包支持所有三种类型的管道（完整训练、训练和评估）。对于大多数用例，无需指定参数。该模型使用高级技术来查找高性能模型。在第一次训练之后的后续训练中，模型使用增量学习（也就是说，在训练运行结束时，将使用先前训练的版本）。

数据集格式

模型将读取指定目录中的所有 CSV 文件。在每个 CSV 文件中，模型需要两列或两个属性，默认情况下是text和label 。可以使用环境变量配置这两列和/或属性的名称。

CSV 文件格式

每个 CSV 文件可以有任意数量的列，但模型只会使用两个列。这些列由参数dataset.text_column_name指定（如果未修改，则默认值为text ）和dataset.target_column_name （如果未修改，则默认值为labels ）。

例如，单个 CSV 文件可能如下所示：

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']
text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

在 GPU 或 CPU 上训练

您可以使用 GPU 或 CPU 进行训练。我们建议使用 GPU，因为它速度更快。

环境变量

dataset.text_column_name - 默认值text
model.epochs - 默认值100
dataset.target_column_name - 默认值label

工件

混淆矩阵

为了更好地覆盖所有标签，对于多标签文本分类，混淆矩阵是 JSON 文件。我们为每个标签提供混淆矩阵 ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}
{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

分类报告

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}
{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

评估

这是一个 CSV 文件，其中包含用于评估的测试集的预测。

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]
label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

此页面有帮助吗？

前一个语义相似度

下一个UiPath 图像分析

AI Center 用户指南

语言​

模型详细信息​

输入类型​

输入说明​

输出说明​

推荐 GPU​

已启用训练​

管道​

数据集格式​

CSV 文件格式​

在 GPU 或 CPU 上训练​

环境变量​

工件​

混淆矩阵​

分类报告​

评估​