UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2026年4月27日

迁移传统项目

使用此页面中的说明迁移传统项目或基于 AI Center 的项目。迁移项目有两个主要步骤:

  1. 从传统项目或基于 AI Center 的项目中导出数据集。
  2. 将数据集导入新式项目。

当前限制

  • 目前,不支持导入超过5000 页的数据集。只能成功导入前 5000 页,导入任何其他页面都将失败。例如,如果您的数据集包含 4999 页,并且您尝试导入 4 页的文档,此流程将不会成功。
  • 批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次,则系统不会显示此信息,但会保存此信息。
  • 不支持从 AI Center 导出。 仅支持从 Document Manager 导出。

从传统项目导出数据集

  1. 导航到要迁移的传统项目并将其打开。
  2. 转到要导出的文档类型,然后选择“打开文档类型”

图 1. 打开文档类型

收据文档类型的屏幕截图。

  1. 从“筛选文档”下拉列表中,选择“训练集和验证集”

图 2. 训练集和验证集

“筛选”字段的屏幕截图。

  1. 选择“导出”
  2. 选中“当前搜索结果”,并填写导出作业的名称。
  3. Select Download.

图 3. 下载导出内容

“导出文件”界面的屏幕截图。

从基于 AI Center 的项目中导出数据集

  1. 打开 AI Center 并导航到数据标签页面。

  2. 选择要迁移的数据标签会话

    “新建数据标记应用程序”界面的屏幕截图。

  3. 打开 Document Manager 后,从“筛选文档”下拉列表中选择“训练集和验证集”

图 4. 训练集和验证集

“筛选器”字段的屏幕截图。

  1. 选择“导出”
  2. 选中“当前搜索结果”,并填写导出作业的名称。
  3. Select Download.

图 5. 下载导出内容

“导出文件”界面的屏幕截图。

导入数据集

  1. 导航到要向其中导入数据的项目,并将其打开。
  2. 选择“添加文档类型”,然后创建新的自定义文档类型。

图 6. 添加文档类型

“添加文档类型”界面的屏幕截图。

  1. 在新的自定义文档类型中,选择“上传” ,然后选择已导出的传统项目的 zip 文件。等待上传完成。
    备注:

    不支持从 AI Center 导出。 仅支持从 Document Manager 导出。

图 7. 上传处理

“上传处理加载”界面的屏幕截图。

上传完成后,文档即可用于训练。

模型训练

导入数据集后,系统即会开始模型训练。训练完成后,将显示模型分数。要查看详细的模型分数,请选择分数,然后选择“详细模型分数”(预览版)

“模型评分”界面的屏幕截图。

此操作将带您进入衡量页面,您可以在其中访问详细的模型指标。

当使用相同的数据集训练 ML 两次时,您可以观察到略有不同的模型指标。发生这种情况的原因如下:

  • 初始化:机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性,每次训练期间不同的初始猜测可能会导致不同的结果。
  • 随机状态:某些算法在其操作中使用随机性。例如,在训练神经网络时,随机梯度下降和小批量梯度下降等过程会引入随机性。因此,即使初始模型参数和数据集相同,模型的性能在不同的运行中也可能有所不同。
  • 正则化:某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性,模型每次都可以使用不同的权重集运行。

但是,请务必注意,这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同,只要差异不是很大,模型理解数据的能力基本上保持不变。此外,多次重复此过程并取平均值应该会产生类似的性能指标。

在文档类型管理器中更改基本模型

如果传统项目的模型结果与新式项目的模型结果之间存在重大差异,则可能是由于基础模型不同所致。要更改基础模型,请继续执行以下步骤:

  1. 从自定义文档类型中选择三点菜单,然后选择“文档类型管理器”。

    “文档类型管理器”按钮的屏幕截图。

  2. 导航到“设置”选项卡。

  3. 从“基本模型”下拉列表中选择所需的模型。

    基础模型下拉列表的屏幕截图。

  4. 进行选择后,选择“保存”。要退出,请选择“返回”。

导出类型

对于传统项目,有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果,请按“训练集和验证集”筛选文档,然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息,请查看以下表格。

表格 1. 导出类型
导出类型 导出数据 导入的数据会发生什么情况
当前搜索结果 导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。 标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。提示:要比较两种项目类型之间的模型结果,请始终将数据集导出和导入为“训练和验证”
全部已添加标签 从数据集中导出所有带批注的文档:
  • 训练集
  • 验证集
  • 评估集
  • 标记为“训练”的文档用于训练模型。
  • 标记为“验证”的文档用于衡量模型性能。
  • 系统会忽略标记为评估的文档。
架构 导出字段列表及其各自的设置。 如果没有架构,则导入架构。如果已定义架构,则导入将失败。
全部 导出所有带注释和不带注释的文档。
  • 标记为“训练”的文档用于训练模型。
  • 标记为“验证”的文档用于衡量模型性能。
  • 系统会忽略标记为评估的文档。
  • 系统会预先批注未批注的文档,并将未批注的文档视为未确认。

导入架构

您可以将架构与数据集一起导入新式项目。请按照以下步骤导入架构:

  1. “构建”部分中创建自定义文档类型。
  2. 导入包含架构的 zip 文件。
    备注:
    • 架构导入仅限于没有预先存在架构的自定义文档类型。
    • 如果您将架构导入已包含架构的文档类型,则导入将失败。

迁移自动化工作流

要从传统 DU 项目迁移到 RPA 自动化中的新式项目,需要进行一项更改:将数据提取作用域中的ML 提取程序活动替换为Document Understanding 项目提取程序。无需更改其他活动,数字化、验证和训练活动保持不变。

备注:

如果您的工作流使用文档分类,还需将现有分类器替换为Document Understanding 项目分类器。请参阅下面的迁移分类

替换 ML 提取程序活动

  1. 在 Studio 项目中,打开“数据提取作用域”活动。
  2. 删除现有的ML 提取程序活动
  3. “数据提取作用域”中添加“ Document Understanding 项目提取程序”
  4. 选择“获取或刷新提取程序功能”以打开配置向导。
  5. “设计时凭据”下,输入您的“应用程序 ID”“应用程序密码”“租户 URL”
  6. 选择“获取项目”以加载可用的新式项目列表。
  7. 对于“项目” ,请从下拉列表中选择所需的新式项目。
  8. 对于“版本” ,请选择项目的已部署版本。或者,也可以选择链接到特定版本的标签。版本和标签互斥。
  9. 选择“获取功能”
  10. 确保选中“更新活动参数”
备注:

如果您连接到其他租户中的项目,请配置活动的身份验证属性(运行时凭据资产运行时租户 URL )以匹配向导中使用的凭据。

有关完整配置的详细信息,请参阅Document Understanding 项目提取程序

迁移分类

如果您的自动化使用文档分类,请在“分类文档范围”中将现有分类器替换为Document Understanding 项目分类器。配置步骤反映提取程序的步骤:打开“配置分类器向导”(多窗口) ,输入您的设计时凭据,选择您的项目和版本或标签,然后选择“获取功能”

有关完整配置的详细信息,请参阅Document Understanding 项目分类器

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新