AI Center
最新
False
横幅背景图像
AI Center
上次更新日期 2024年4月18日

文本分类

OS 包 > 语言分析 > 文本分类

这是一个通用、可重新训练的模型,适用于语言分类。此 ML 包必须重新训练,如果在未事先进行训练的情况下部署此包,部署将失败,并显示错误,指明模型未经过训练。

此模型是用于语言分类的深度学习架构。它基于 BERT,是一种用于预训练自然语言处理系统的自监督方法。在服务时和训练时都可以使用 GPU。GPU 可使速度提高约 5 到 10 倍。此模型由 Facebook AI 研究院开放源代码。

语言

模型性能的主要驱动因素是用于训练的数据质量。此外,用于参数化此模型的数据也可能会影响性能。此模型针对维基百科条目数最多的前 100 种语言(完整列表)进行了训练

模型详细信息

输入类型

JSON

输入说明

要分类为字符串的文本:“I loved this movie”。

输出说明

包含预测类名称以及有关该类预测的关联置信度(0 到 1)的 JSON。

示例:

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

管道

此包支持所有三种类型的管道(完整训练、训练和评估)。

对于大多数用例,不需要指定任何参数,模型将使用高级技术来查找高性能模型。在第一次训练之后的后续训练中,模型将使用增量学习(即,在训练运行结束后将使用先前训练的版本)。

数据集格式

有两种文件格式可用于构建此模型的数据集,但不能同时使用这两种格式。默认情况下,模型将在顶层文件夹目录中查找 dataset.csv 文件。如果找到该文件,则模型会使用此处的选项 2;否则模型会尝试使用选项 1(文件夹结构)。

使用文件夹结构分隔类

为每个类创建一个文件夹(在数据集的顶层),并在相应的文件夹中为每个数据点添加一个文本文件(文件夹是类,而文件仅包含输入)。数据集结构如下所示:

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

使用一个 csv 文件

在数据集的顶层将所有数据重新分组成一个名为 dataset.csv 的 csv 文件。文件需要具有两个列:输入 (text) 和目标 (class)。它如下所示:

input,target 
I like this movie,positive 
I hated the acting,negativeinput,target 
I like this movie,positive 
I hated the acting,negative

Paper

Devlin、Jacob、Chang、Ming-Wei、Lee、Kenton、Toutanova 和 Kristina 等人发表的《BERT:预训练用于语言理解的深度双向变换器》

  • 语言
  • 模型详细信息
  • 输入类型
  • 输入说明
  • 输出说明
  • 管道
  • 数据集格式
  • Paper

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.