document-understanding
latest
false
UiPath logo, featuring letters U and I in white

Document Understanding 新式项目用户指南

Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
上次更新日期 2024年12月12日

迁移传统项目

使用此页面中的说明迁移传统项目或基于 AI Center 的项目。迁移项目有两个主要步骤:
  1. 传统项目或基于 AI Center 的项目导出数据集。
  2. 将数据集导入新式项目。

当前限制

  • 目前,不支持导入超过 3000 页的数据集。只能成功导入前 3000 页,导入任何其他页面都将失败。例如,如果您的数据集包含 2999 页,并且您尝试导入 4 页的文档,则该过程将不会成功。
  • 批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次,则系统不会显示此信息,但会保存此信息。

从传统项目导出数据集

  1. 导航到要迁移的传统项目并将其打开。
  2. 转到要导出的文档类型,然后选择“打开文档类型”
    图 1. 打开文档类型

  3. 从“筛选文档”下拉列表中,选择“训练集和验证集”
    图 2. 训练集和验证集

  4. 选择 “导出”
  5. 选中“当前搜索结果”,并填写导出作业的名称。
  6. 选择“ 下载”
    图 3. 下载导出内容

从基于 AI Center 的项目中导出数据集

  1. 打开 AI Center 并导航到数据标签页面。
  2. 选择要迁移的数据标签会话


  3. 打开 Document Manager 后,从“筛选文档”下拉列表中选择“训练集和验证集”
    图 4. 训练集和验证集

  4. 选择 “导出”
  5. 选中“当前搜索结果”,并填写导出作业的名称。
  6. 选择“ 下载”
    图 5. 下载导出内容

导入数据集

  1. 导航到要向其中导入数据的项目,并将其打开。
  2. 选择“添加文档类型”,然后创建新的自定义文档类型。
    图 6. 添加文档类型

  3. 在新的自定义文档类型中,选择“上传”,然后选择已导出的传统项目的 zip 文件。等待上传完成。
    图 7. 上传处理

上传完成后,文档即可用于训练。

模型训练

导入数据集后,系统即会开始模型训练。训练完成后,将显示模型分数。要查看详细的模型分数,请选择分数,然后选择“详细模型分数”



此操作将带您进入衡量页面,您可以在其中访问详细的模型指标。

当使用相同的数据集训练 ML 两次时,您可以观察到略有不同的模型指标。发生这种情况的原因如下:

  • 初始化:机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性,每次训练期间不同的初始猜测可能会导致不同的结果。
  • 随机状态:某些算法在其操作中使用随机性。例如,在训练神经网络时,随机梯度下降和小批量梯度下降等过程会引入随机性。因此,即使初始模型参数和数据集相同,模型的性能在不同的运行中也可能有所不同。
  • 正则化:某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性,模型每次都可以使用不同的权重集运行。

但是,请务必注意,这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同,只要差异不是很大,模型理解数据的能力基本上保持不变。此外,多次重复此过程并取平均值应该会产生类似的性能指标。

在文档类型管理器中更改基本模型

如果传统项目的模型结果与新式项目的模型结果之间存在重大差异,则可能是由于基本模型不同所致。要更改基本模型,请按照以下步骤操作。
  1. 从自定义文档类型中选择三点菜单,然后选择“文档类型管理器”


  2. 导航到“设置”选项卡。
  3. 从“基本模型”下拉列表中选择所需的模型。


  4. 进行选择后,选择“保存”。要退出,请选择“返回”

导出类型

对于传统项目,有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果,请按“训练集和验证集”筛选文档,然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息,请查看以下表格。

表 1. 导出类型
导出类型导出数据导入的数据会发生什么情况
当前搜索结果导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。 标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。
提示:要比较两种项目类型之间的模型结果,请始终将数据集导出和导入为“训练和验证”。
全部已添加标签从数据集中导出所有带批注的文档:
  • 训练集
  • 验证集
  • 评估集
  • 标记为“训练”的文档用于训练模型。
  • 标记为“验证”的文档用于衡量模型性能。
  • 系统会忽略标记为评估的文档。
架构导出字段列表及其各自的设置。如果没有架构,则导入架构。如果已定义架构,则导入将失败。
全部导出所有带注释和不带注释的文档。
  • 标记为“训练”的文档用于训练模型。
  • 标记为“验证”的文档用于衡量模型性能。
  • 系统会忽略标记为评估的文档。
  • 系统会预先批注未批注的文档,并将未批注的文档视为未确认。

导入架构

您可以将架构与数据集一起导入新式项目。请按照以下步骤导入架构:
  1. 在“构建”部分中创建自定义文档类型。
  2. 导入包含架构的 zip 文件。
备注:
  • 架构导入仅限于没有预先存在架构的自定义文档类型。
  • 如果您将架构导入已包含架构的文档类型,则导入将失败。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。