Document Understanding - 迁移传统项目

document-understanding

latest

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

迁移传统项目

使用此页面中的说明迁移传统项目或基于 AI Center 的项目。迁移项目有两个主要步骤：

从传统项目或基于 AI Center 的项目中导出数据集。
将数据集导入新式项目。

当前限制

目前，不支持导入超过5000 页的数据集。只能成功导入前 5000 页，导入任何其他页面都将失败。例如，如果您的数据集包含 4999 页，并且您尝试导入 4 页的文档，此流程将不会成功。
批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次，则系统不会显示此信息，但会保存此信息。
不支持从 AI Center 导出。仅支持从 Document Manager 导出。

从传统项目导出数据集

导航到要迁移的传统项目并将其打开。
转到要导出的文档类型，然后选择“打开文档类型”。

图 1. 打开文档类型

从“筛选文档”下拉列表中，选择“训练集和验证集”。

图 2. 训练集和验证集

选择“导出” 。
选中“当前搜索结果”，并填写导出作业的名称。
Select Download.

图 3. 下载导出内容

从基于 AI Center 的项目中导出数据集

打开 AI Center 并导航到数据标签页面。
选择要迁移的数据标签会话。
打开 Document Manager 后，从“筛选文档”下拉列表中选择“训练集和验证集”。

图 4. 训练集和验证集

选择“导出” 。
选中“当前搜索结果”，并填写导出作业的名称。
Select Download.

图 5. 下载导出内容

导入数据集

导航到要向其中导入数据的项目，并将其打开。
选择“添加文档类型”，然后创建新的自定义文档类型。

图 6. 添加文档类型

在新的自定义文档类型中，选择“上传” ，然后选择已导出的传统项目的 zip 文件。等待上传完成。
备注：
不支持从 AI Center 导出。仅支持从 Document Manager 导出。

图 7. 上传处理

上传完成后，文档即可用于训练。

模型训练

导入数据集后，系统即会开始模型训练。训练完成后，将显示模型分数。要查看详细的模型分数，请选择分数，然后选择“详细模型分数”（预览版） 。

此操作将带您进入衡量页面，您可以在其中访问详细的模型指标。

当使用相同的数据集训练 ML 两次时，您可以观察到略有不同的模型指标。发生这种情况的原因如下：

初始化：机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性，每次训练期间不同的初始猜测可能会导致不同的结果。
随机状态：某些算法在其操作中使用随机性。例如，在训练神经网络时，随机梯度下降和小批量梯度下降等过程会引入随机性。因此，即使初始模型参数和数据集相同，模型的性能在不同的运行中也可能有所不同。
正则化：某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性，模型每次都可以使用不同的权重集运行。

但是，请务必注意，这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同，只要差异不是很大，模型理解数据的能力基本上保持不变。此外，多次重复此过程并取平均值应该会产生类似的性能指标。

在文档类型管理器中更改基本模型

如果传统项目的模型结果与新式项目的模型结果之间存在重大差异，则可能是由于基础模型不同所致。要更改基础模型，请继续执行以下步骤：

从自定义文档类型中选择三点菜单，然后选择“文档类型管理器”。
导航到“设置”选项卡。
从“基本模型”下拉列表中选择所需的模型。
进行选择后，选择“保存”。要退出，请选择“返回”。

导出类型

对于传统项目，有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果，请按“训练集和验证集”筛选文档，然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息，请查看以下表格。

表格 1. 导出类型
导出类型	导出数据	导入的数据会发生什么情况
当前搜索结果	导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。	标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。提示：要比较两种项目类型之间的模型结果，请始终将数据集导出和导入为“训练和验证” 。
全部已添加标签	从数据集中导出所有带批注的文档：训练集验证集评估集	标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。系统会忽略标记为评估的文档。
架构	导出字段列表及其各自的设置。	如果没有架构，则导入架构。如果已定义架构，则导入将失败。
全部	导出所有带注释和不带注释的文档。	标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。系统会忽略标记为评估的文档。系统会预先批注未批注的文档，并将未批注的文档视为未确认。

导入架构

您可以将架构与数据集一起导入新式项目。请按照以下步骤导入架构：

在“构建”部分中创建自定义文档类型。
导入包含架构的 zip 文件。
备注：
- 架构导入仅限于没有预先存在架构的自定义文档类型。
- 如果您将架构导入已包含架构的文档类型，则导入将失败。

迁移自动化工作流

要从传统 DU 项目迁移到 RPA 自动化中的新式项目，需要进行一项更改：将数据提取作用域中的ML 提取程序活动替换为Document Understanding 项目提取程序。无需更改其他活动 — 数字化、验证和训练活动保持不变。

备注：

如果您的工作流使用文档分类，还要将现有分类器替换为Document Understanding 项目分类器。请参阅下面的迁移分类。

替换“ML 提取程序”活动

在 Studio 项目中，打开“数据提取作用域”活动。
删除现有的ML 提取程序活动。
在数据提取作用域中添加Document Understanding 项目提取程序。
选择“获取或刷新提取程序功能” ，打开配置向导。
在“设计时凭据”下，输入您的“应用程序 ID” 、 “应用程序密码”和“租户 URL” 。
选择“获取项目”以加载可用的新式项目列表。
对于“项目” ，请从下拉列表中选择所需的新式项目。
对于“版本” ，选择项目的已部署版本。或者，选择链接到特定版本的标签。“版本”和“标签”互斥。
选择“获取功能” 。
确保选中“更新活动参数” 。

备注：

如果您连接到其他租户中的项目，请配置活动的身份验证属性（运行时凭据资产和运行时租户 URL ），以匹配向导中使用的凭据。

有关完整配置的详细信息，请参阅Document Understanding 项目提取程序。

迁移分类

如果您的自动化使用文档分类，请将现有分类器替换为“对文档范围进行分类”中的Document Understanding 项目分类器。配置步骤与提取程序的配置步骤一致：打开“配置分类器” 向导，输入您的设计时凭据，选择您的项目和版本或标签，然后选择“ 获取功能 ” 。

有关完整的配置详细信息，请参阅Document Understanding 项目分类器。

此页面有帮助吗？

前一个选择项目类型

下一个选择自动化类型

当前限制​

从传统项目导出数据集​

从基于 AI Center 的项目中导出数据集​

导入数据集​

模型训练​

在文档类型管理器中更改基本模型​

导出类型​

导入架构​

迁移自动化工作流​

替换“ML 提取程序”活动​

迁移分类​