- 发行说明
- 入门指南
- 通知
- 项目
- 数据集
- 数据标签
- ML 包
- 开箱即用包
- 管道
- ML 技能
- ML 日志
- AI Center 中的 Document Understanding™
- AI Center API
- 许可
- AI 解决方案模板
- 如何
- 基本故障排除指南
文本分类
OS 包 > 语言分析 > 文本分类
这是一个通用、可重新训练的模型,适用于语言分类。此 ML 包必须重新训练,如果在未事先进行训练的情况下部署此包,部署将失败,并显示错误,指明模型未经过训练。
此模型是用于语言分类的深度学习架构。它基于 BERT,是一种用于预训练自然语言处理系统的自监督方法。在服务时和训练时都可以使用 GPU。GPU 可使速度提高约 5 到 10 倍。此模型由 Facebook AI 研究院开放源代码。
模型性能的主要驱动因素是用于训练的数据质量。此外,用于参数化此模型的数据也可能会影响性能。此模型针对维基百科条目数最多的前 100 种语言(完整列表)进行了训练
此包支持所有三种类型的管道(完整训练、训练和评估)。
对于大多数用例,不需要指定任何参数,模型将使用高级技术来查找高性能模型。在第一次训练之后的后续训练中,模型将使用增量学习(即,在训练运行结束后将使用先前训练的版本)。
有两种文件格式可用于构建此模型的数据集,但不能同时使用这两种格式。默认情况下,模型将在顶层文件夹目录中查找 dataset.csv 文件。如果找到该文件,则模型会使用此处的选项 2;否则模型会尝试使用选项 1(文件夹结构)。
使用文件夹结构分隔类
为每个类创建一个文件夹(在数据集的顶层),并在相应的文件夹中为每个数据点添加一个文本文件(文件夹是类,而文件仅包含输入)。数据集结构如下所示:
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
使用一个 csv 文件
在数据集的顶层将所有数据重新分组成一个名为 dataset.csv 的 csv 文件。文件需要具有两个列:输入 (text) 和目标 (class)。它如下所示:
input,target
I like this movie,positive
I hated the acting,negative
input,target
I like this movie,positive
I hated the acting,negative
Devlin、Jacob、Chang、Ming-Wei、Lee、Kenton、Toutanova 和 Kristina 等人发表的《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》(BERT:预训练用于语言理解的深度双向变换器)。