AI Center
最新
False
横幅背景图像
AI Center
上次更新日期 2024年4月18日

多标签文本分类

备注:

多标签文本分类模型当前为公开预览版。

UiPath 致力于提高产品的稳定性和质量,但预览功能始终会根据我们从客户收到的反馈而随时更改。不建议在生产部署中使用预览功能。

开箱即用包多标签文本分类

这是一个可重新训练的通用模型,用于使用多个标签标记文本。 必须训练此 ML 包,如果在未训练的情况下进行部署,则部署将失败,并显示错误,指出模型未训练。 它基于 BERT,这是一种用于预训练自然语言处理系统的自我监督方法。 建议使用 GPU,尤其是在训练期间。 GPU 可将速度提高约 5 到 10 倍。

语言

此多语言模型支持下面列出的语言。之所以选择这些语言,是因为它们是维基百科条目数最多的前 100 种语言:

  • 南非荷兰语
  • 阿尔巴尼亚语
  • 阿拉伯语
  • 阿拉贡语
  • 亚美尼亚语
  • 阿斯图里亚斯语
  • 阿塞拜疆
  • 巴什基尔
  • 巴斯克语
  • 巴伐利亚语
  • 白俄罗斯语
  • 孟加拉语
  • 比什奴普莱利亚-曼尼浦尔语
  • 波斯尼亚语
  • 布列塔尼
  • 保加利亚语
  • 缅甸语
  • 加泰罗尼亚语
  • 宿务语
  • 车臣
  • 中文 (简体)
  • 中文 (繁体)
  • 楚瓦什语
  • 克罗地亚语
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英文
  • 爱沙尼亚语
  • 芬兰语
  • 法语
  • 加利西亚语
  • 格鲁吉亚语
  • 德语
  • 希腊语
  • 古吉拉特语
  • 海地语
  • 希伯来语
  • 印地语
  • 匈牙利语
  • 冰岛语
  • 伊多
  • 印尼语
  • 爱尔兰语
  • 意大利语
  • 日语
  • 爪哇语
  • 卡纳达语
  • 哈萨克语
  • 吉尔吉斯语
  • 韩语
  • 拉丁语
  • 拉脱维亚语
  • 立陶宛语
  • 伦巴第语
  • 低萨克森语
  • 卢森堡语
  • 马其顿语
  • 马达加斯加语
  • 马来语
  • 马拉雅拉姆语
  • 马拉地语
  • 米南卡保
  • 尼泊尔语
  • 尼瓦尔语
  • 挪威博克马尔语
  • 挪威尼诺斯克语
  • 奥克西顿语
  • 波斯语(现代波斯语)
  • 皮埃蒙特语
  • 波兰语
  • 葡萄牙语
  • 旁遮普语
  • 罗马尼亚语
  • 俄语
  • 苏格兰语
  • 塞尔维亚语
  • 塞尔维亚语-克罗地亚语
  • 西西里岛人语
  • 斯洛伐克语
  • 斯洛文尼亚语
  • 南阿塞拜疆语
  • 西班牙语
  • 巽他语
  • 斯瓦希里语
  • 瑞典语
  • 他加禄语
  • 塔吉克语
  • 泰米尔语
  • 鞑靼人
  • 泰卢固语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语
  • 乌兹别克语
  • 越南语
  • 沃拉卜克语
  • 瓦瑞瓦瑞语
  • 威尔士语
  • 西弗里西亚语
  • 西部旁遮普语
  • 约鲁巴语

模型详细信息

输入类型

JSON

输入说明

要分类为字符串的文本:“我喜欢这个演员,但讨厌他的电影。”

输出说明

包含两个列表的 JSON。 第一个列表将包含预测标签,第二个列表将包含与预测标签相关的置信度(介于 0 到 1 之间)。

示例:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

推荐 GPU

默认情况下,建议使用 GPU。

已启用训练

已启用训练。

管道

此包支持所有三种类型的管道(完整训练、训练和评估)。 对于大多数用例,无需指定参数。 该模型使用高级技术来查找高性能模型。 在第一次训练之后的后续训练中,模型使用增量学习(也就是说,在训练运行结束时,将使用先前训练的版本)。

数据集格式

模型将读取指定目录中的所有 CSV 文件。 在每个 CSV 文件中,模型需要两列或两个属性,默认情况下是textlabel 。 可以使用环境变量配置这两列和/或属性的名称。

CSV 文件格式

每个 CSV 文件可以具有任意数量的列,但模型只会使用两个列。这些列由参数 dataset.text_column_name 指定(如果未修改,则默认值为 text)和 dataset.target_column_name(如果未修改,则默认值为 labels)。

例如,单个 CSV 文件可能如下所示:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

在 GPU 或 CPU 上训练

您可以使用 GPU 或 CPU 进行训练。我们建议使用 GPU,因为它速度更快。

环境变量

  • dataset.text_column_name - 默认值 text
  • model.epochs - 默认值 100
  • dataset.target_column_name - 默认值 label

工件

混淆矩阵

为了更好地覆盖所有标签,对于多标签文本分类,混淆矩阵是 JSON 文件。 我们为每个标签提供混淆矩阵 ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

分类报告

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

评估

这是一个 CSV 文件,其中包含用于评估的测试集的预测。

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.