ai-center
latest
false
重要 :
请注意此内容已使用机器翻译进行了部分本地化。
UiPath logo, featuring letters U and I in white
AI Center
Automation CloudAutomation SuiteStandalone
Last updated 2024年11月19日

多标签文本分类

备注:

多标签文本分类模型当前为公开预览版。

UiPath® is committed to stability and quality of our products, but preview features are always subject to change based on feedback that we receive from our customers. Using preview features is not recommended for production deployments.

开箱即用包多标签文本分类

这是一个可重新训练的通用模型,用于使用多个标签标记文本。 必须训练此 ML 包,如果在未训练的情况下进行部署,则部署将失败,并显示错误,指出模型未训练。 它基于 BERT,这是一种用于预训练自然语言处理系统的自我监督方法。 建议使用 GPU,尤其是在训练期间。 GPU 可将速度提高约 5 到 10 倍。

语言

此多语言模型支持下面列出的语言。之所以选择这些语言,是因为它们是维基百科条目数最多的前 100 种语言:

  • 南非荷兰语
  • 阿尔巴尼亚语
  • 阿拉伯语
  • 阿拉贡语
  • 亚美尼亚语
  • 阿斯图里亚斯语
  • 阿塞拜疆
  • 巴什基尔
  • 巴斯克语
  • 巴伐利亚语
  • 白俄罗斯语
  • 孟加拉语
  • 比什奴普莱利亚-曼尼浦尔语
  • 波斯尼亚语
  • 布列塔尼
  • 保加利亚语
  • 缅甸语
  • 加泰罗尼亚语
  • 宿务语
  • 车臣
  • 中文 (简体)
  • 中文 (繁体)
  • 楚瓦什语
  • 克罗地亚语
  • 捷克语
  • 丹麦语
  • 荷兰语
  • 英文
  • 爱沙尼亚语
  • 芬兰语
  • 法语
  • 加利西亚语
  • 格鲁吉亚语
  • 德语
  • 希腊语
  • 古吉拉特语
  • 海地语
  • 希伯来语
  • 印地语
  • 匈牙利语
  • 冰岛语
  • 伊多
  • 印尼语
  • 爱尔兰语
  • 意大利语
  • 日语
  • 爪哇语
  • 卡纳达语
  • 哈萨克语
  • 吉尔吉斯语
  • 韩语
  • 拉丁语
  • 拉脱维亚语
  • 立陶宛语
  • 伦巴第语
  • 低萨克森语
  • 卢森堡语
  • 马其顿语
  • 马达加斯加语
  • 马来语
  • 马拉雅拉姆语
  • 马拉地语
  • 米南卡保
  • 尼泊尔语
  • 尼瓦尔语
  • 挪威博克马尔语
  • 挪威尼诺斯克语
  • 奥克西顿语
  • 波斯语(现代波斯语)
  • 皮埃蒙特语
  • 波兰语
  • 葡萄牙语
  • 旁遮普语
  • 罗马尼亚语
  • 俄语
  • 苏格兰语
  • 塞尔维亚语
  • 塞尔维亚语-克罗地亚语
  • 西西里岛人语
  • 斯洛伐克语
  • 斯洛文尼亚语
  • 南阿塞拜疆语
  • 西班牙语
  • 巽他语
  • 斯瓦希里语
  • 瑞典语
  • 他加禄语
  • 塔吉克语
  • 泰米尔语
  • 鞑靼人
  • 泰卢固语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语
  • 乌兹别克语
  • 越南语
  • 沃拉卜克语
  • 瓦瑞瓦瑞语
  • 威尔士语
  • 西弗里西亚语
  • 西部旁遮普语
  • 约鲁巴语

模型详细信息

输入类型

JSON

输入说明

要分类为字符串的文本:“我喜欢这个演员,但讨厌他的电影。”

输出说明

包含两个列表的 JSON。 第一个列表将包含预测标签,第二个列表将包含与预测标签相关的置信度(介于 0 到 1 之间)。

示例:

{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}{
  "labels": [
    "deliver",
    "payment"
  ],
  "confidence": [
    0.780,
    0.899
  ]
}

推荐 GPU

默认情况下,建议使用 GPU。

已启用训练

已启用训练。

管道

此包支持所有三种类型的管道(完整训练、训练和评估)。 对于大多数用例,无需指定参数。 该模型使用高级技术来查找高性能模型。 在第一次训练之后的后续训练中,模型使用增量学习(也就是说,在训练运行结束时,将使用先前训练的版本)。

数据集格式

模型将读取指定目录中的所有 CSV 文件。 在每个 CSV 文件中,模型需要两列或两个属性,默认情况下是textlabel 。 可以使用环境变量配置这两列和/或属性的名称。

CSV 文件格式

每个 CSV 文件可以具有任意数量的列,但模型只会使用两个列。这些列由参数 dataset.text_column_name 指定(如果未修改,则默认值为 text)和 dataset.target_column_name(如果未修改,则默认值为 labels)。

例如,单个 CSV 文件可能如下所示:

text,labels
"I love this actor but I hate his movies", ['positive', 'negative']text,labels
"I love this actor but I hate his movies", ['positive', 'negative']

在 GPU 或 CPU 上训练

您可以使用 GPU 或 CPU 进行训练。我们建议使用 GPU,因为它速度更快。

环境变量

  • dataset.text_column_name - 默认值 text
  • model.epochs - 默认值 100
  • dataset.target_column_name - 默认值 label

工件

混淆矩阵

为了更好地覆盖所有标签,对于多标签文本分类,混淆矩阵是 JSON 文件。 我们为每个标签提供混淆矩阵 ([[#True Positives, #True Negatives], [# False Positives, # False Negatives]])

{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}{
    "labels":[
        "positive",
        "negative"
    ],
    "multilabel_confusion_matrix":[
        [
            [
                83,
                4
            ],
            [
                21,
                4
            ]
        ],
        [
            [
                105,
                1
            ],
            [
                6,
                0
            ]
        ]
    ]
}

分类报告

{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}{
  "positive": {
    "precision": 0.89, "recall": 0.78, "f1-score": 0.84242424242424243, "support": 100
  },
    "negative": {
      "precision": 0.9, "recall": 0.87, "f1-score": 0.86765432236398, "support": 89
    }
}

评估

这是一个 CSV 文件,其中包含用于评估的测试集的预测。

label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]label, text, predictions, confidence
{<code>positive</code>, <code>negative</code>}, "I love this actor but I hate his movies", [<code>positive</code>, <code>negative</code>], [0.9118645787239075, 0.971538782119751]

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。