ai-center

latest

false

入门指南
通知
- 我的通知
项目
- 关于项目
- 管理项目
数据集
- 关于数据集
- 管理数据集
数据标签
ML 包
开箱即用包
管道
ML 技能
- 关于 ML 技能
- 管理 ML 技能
ML 日志
- 关于 ML 日志
AI Center 中的 Document Understanding™
- Document Manager
- OCR 服务
AI Center API
- 概述
- API 列表
许可
AI 解决方案模板
- 关于 AI 解决方案模板
  - 电子邮件 AI
如何
- ML 包
  - 将自定义命名实体识别与持续学习结合使用
- ML 技能
基本故障排除指南

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

AI Center 用户指南

文本分类

备注：

已弃用开箱即用 ML 包。有关更多信息，请查看概述指南中的“弃用时间线” 页面。

OS 包 > 语言分析 > 文本分类

这是一个通用、可重新训练的模型，适用于语言分类。此 ML 包必须重新训练，如果在未事先进行训练的情况下部署此包，部署将失败，并显示错误，指明模型未经过训练。

此模型是用于语言分类的深度学习架构。它基于 BERT，是一种用于预训练自然语言处理系统的自监督方法。在服务时和训练时都可以使用 GPU。GPU 可使速度提高约 5 到 10 倍。此模型由 Facebook AI 研究院开放源代码。

语言

模型性能的主要驱动因素是用于训练的数据质量。此外，用于参数化此模型的数据也可能会影响性能。此模型针对维基百科条目数最多的前 100 种语言（完整列表）进行了训练

模型详细信息

输入类型

JSON

输入说明

要分类为字符串的文本：“I loved this movie”。

输出说明

包含预测类名称以及有关该类预测的关联置信度（0 到 1）的 JSON。

示例：

{
  "class": "Positive",
  "confidence": 0.9422031841278076
}
{
  "class": "Positive",
  "confidence": 0.9422031841278076
}

管道

此包支持所有三种类型的管道（完整训练、训练和评估）。

对于大多数用例，不需要指定任何参数，模型将使用高级技术来查找高性能模型。在第一次训练之后的后续训练中，模型将使用增量学习（即，在训练运行结束后将使用先前训练的版本）。

数据集格式

有两种文件格式可用于构建此模型的数据集，但不能同时使用这两种格式。默认情况下，模型将在顶层文件夹目录中查找 dataset.csv 文件。如果找到该文件，则模型会使用此处的选项 2；否则模型会尝试使用选项 1（文件夹结构）。

使用文件夹结构分隔类

为每个类创建一个文件夹（在数据集的顶层），并在相应的文件夹中为每个数据点添加一个文本文件（文件夹是类，而文件仅包含输入）。数据集结构如下所示：

Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..
Dataset
-- folderNamedAsClass1 # the name of the folder must be name of the class
---- text1Class1.txt #file can have any name
...
---- textNClass1.txt
-- folderNamedAsClass2
---- text1Class2.txt
...
---- textMClass2.txt
..

使用一个 csv 文件

在数据集的顶层将所有数据重新分组成一个名为 dataset.csv 的 csv 文件。文件需要具有两个列：输入 (text) 和目标 (class)。它如下所示：

input,target 
I like this movie,positive 
I hated the acting,negative
input,target 
I like this movie,positive 
I hated the acting,negative

Paper

Devlin、Jacob、Chang、Ming-Wei、Lee、Kenton、Toutanova 和 Kristina 等人发表的《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》（BERT：预训练用于语言理解的深度双向变换器）

在此页面上

语言
模型详细信息
输入类型
输入说明
输出说明
管道
数据集格式
Paper

此页面有帮助吗？

前一个目标检测

下一个TPOT AutoML Classification

AI Center 用户指南

语言​

模型详细信息​

输入类型​

输入说明​

输出说明​

管道​

数据集格式​

使用文件夹结构分隔类​

使用一个 csv 文件​

Paper​