document-understanding
2024.10
true
UiPath logo, featuring letters U and I in white
Document Understanding Modern Projects User Guide
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年11月11日

迁移传统项目

Use the instructions from this page to migrate a a project based on AI Center. There are two main steps in migrating a project:
  1. Export the dataset from the project based on AI Center.
  2. 将数据集导入新式项目。

当前限制

  • 目前,不支持导入超过 3000 页的数据集。只能成功导入前 3000 页,导入任何其他页面都将失败。例如,如果您的数据集包含 2999 页,并且您尝试导入 4 页的文档,则该过程将不会成功。
  • 批次名称和相应的批次结果当前不可用。如果您的数据已组织为批次,则系统不会显示此信息,但会保存此信息。

从基于 AI Center 的项目中导出数据集

  1. 打开 AI Center 并导航到数据标签页面。
  2. 选择要迁移的数据标签会话


  3. 打开 Document Manager 后,从“筛选文档”下拉列表中选择“训练集和验证集”
    Figure 1. Training and validation set

  4. 选择 “导出”
  5. 选中“当前搜索结果”,并填写导出作业的名称。
  6. 选择“ 下载”
    Figure 2. Download export

导入数据集

  1. 导航到要向其中导入数据的项目,并将其打开。
  2. 选择“添加文档类型”,然后创建新的自定义文档类型。
    Figure 3. Add document type

  3. 在新的自定义文档类型中,选择“上传”,然后选择已导出的传统项目的 zip 文件。等待上传完成。
    Figure 4. Upload processing

上传完成后,文档即可用于训练。

模型训练

导入数据集后,系统即会开始模型训练。训练完成后,将显示模型分数。要查看详细的模型分数,请选择分数,然后选择“详细模型分数”



此操作将带您进入衡量页面,您可以在其中访问详细的模型指标。

当使用相同的数据集训练 ML 两次时,您可以观察到略有不同的模型指标。发生这种情况的原因如下:

  • 初始化:机器学习使用需要初始猜测的优化方法来触发优化算法。由于这些算法的不可预测性,每次训练期间不同的初始猜测可能会导致不同的结果。
  • 随机状态:某些算法在其操作中使用随机性。例如,在训练神经网络时,随机梯度下降和小批量梯度下降等过程会引入随机性。因此,即使初始模型参数和数据集相同,模型的性能在不同的运行中也可能有所不同。
  • 正则化:某些算法包含鼓励模型保持较小权重的惩罚项。由于涉及随机性,模型每次都可以使用不同的权重集运行。

但是,请务必注意,这些细微差别并不一定意味着一个模型优于或不如另一个模型。即使指标略有不同,只要差异不是很大,模型理解数据的能力基本上保持不变。此外,多次重复此过程并取平均值应该会产生类似的性能指标。

在文档类型管理器中更改基本模型

如果传统项目的模型结果与新式项目的模型结果之间存在重大差异,则可能是由于基本模型不同所致。要更改基本模型,请按照以下步骤操作。
  1. 从自定义文档类型中选择三点菜单,然后选择“文档类型管理器”


  2. 导航到“设置”选项卡。
  3. 从“基本模型”下拉列表中选择所需的模型。


  4. 进行选择后,选择“保存”。要退出,请选择“返回”

导出类型

对于传统项目,有多种方法可用于导出数据。并非所有类型的导出数据都可以导入到新式项目中。为比较两种项目类型的模型结果,请按“训练集和验证集”筛选文档,然后选择“选择搜索结果”以导出数据集。有关各个选项的更多信息,请查看以下表格。

表 1. 导出类型
导出类型导出数据导入的数据会发生什么情况
当前搜索结果导出当前筛选的数据集。与“训练集和验证集”筛选器一起使用。 标记为“训练”的文档用于训练模型。标记为“验证”的文档用于衡量模型性能。
提示:要比较两种项目类型之间的模型结果,请始终将数据集导出和导入为“训练和验证”。
全部已添加标签从数据集中导出所有带批注的文档:
  • 训练集
  • 验证集
  • 评估集
  • 标记为“训练”的文档用于训练模型。
  • 标记为“验证”的文档用于衡量模型性能。
  • 系统会忽略标记为评估的文档。
架构导出字段列表及其各自的设置。如果没有架构,则导入架构。如果已定义架构,则导入将失败。
全部导出所有带注释和不带注释的文档。
  • 标记为“训练”的文档用于训练模型。
  • 标记为“验证”的文档用于衡量模型性能。
  • 系统会忽略标记为评估的文档。
  • 系统会预先批注未批注的文档,并将未批注的文档视为未确认。

导入架构

您可以将架构与数据集一起导入新式项目。请按照以下步骤导入架构:
  1. 在“构建”部分中创建自定义文档类型。
  2. 导入包含架构的 zip 文件。
备注:
  • 架构导入仅限于没有预先存在架构的自定义文档类型。
  • 如果您将架构导入已包含架构的文档类型,则导入将失败。

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。