document-understanding
2022.4
true
Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年10月24日

导出文档

“导出文件”对话框用于轻松导出数据以训练 ML 模型。

单击管理栏中的“导出”按钮

该对话框包含三个选项卡:

  • 立即导出
  • 计划
  • 日志


立即导出

“立即导出”选项卡使您能够:

  • 使用“下载”按钮将数据下载到本地。
  • 使用“导出”按钮将数据导出到 AI Center。可以在 AI Center 中的 export 文件夹(“Datasets”>“database_name”>“export”)下找到已导出的文件夹。

如果未定义架构,则禁用所有导出选项。



如果定义了架构,则必须输入导出名称,否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符,并且不得包含特殊字符。

您可以选择以下导出选项:

  • 当前搜索结果 - 按预定义关键字/指定批次或文本查询筛选的带标签文档。如果未应用任何筛选器,则导出当前视图中的所有带标签文档。
  • “全部已添加标签”- 所有至少包含一个已标记字段(任意类型)的文档;更准确地说,是来自“带标签”筛选器的文档。
  • 架构 - 包含字段及其配置的 zip 文件,可将其导入到不同的 Document Manager 会话中。

“向后兼容导出”复选框使您能够应用旧版导出行为,即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果,请尝试以下方法。取消选中此项以原始多页形式导出文档。

重要提示:

Document Manager 2021.10 版支持标记多页文档。与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。

此要求与向后兼容的导出无关。

导出验证

要导出数据集,需要在至少 10 个不同的文档中为所有字段加上标签。否则,导出将失败,并显示以下消息:





对于分类字段,还存在另一个要求:需要在至少一个文档中为每个选项加上标签。否则,导出将失败,并显示以下消息:



仅导出评估集数据时,将禁用所有验证。

数据集格式

包含来自 Document Manager 的导出数据集的文件夹。这包括:

  • schema.json:此文件包含要提取的字段及其类型
  • split.csv:此文件夹包含每个文档的拆分,这些文档将在训练管道中用于训练验证
  • images:此文件夹包含所有已标记页面的图像;
  • latest:此文件夹包含 .json 文件,以及每个页面中的已标记数据;


计划公开预览版

此处介绍计划导出功能。

日志

“日志”选项卡显示最新的导出日志。

如果导出成功,日志将显示已处理的文档数量和导出持续时间。



如果架构导出成功,日志将显示导出持续时间。



在文件导出过程中,您可以查看导出状态。这对于大型导出尤其有用。



日志还会显示错误消息,例如:



如果自动重新训练成功,则还会显示数据集的 fine-tune 文件夹中的导入日志:



  • 立即导出
  • 导出验证
  • 数据集格式
  • 计划公开预览版
  • 日志

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。