document-understanding

2022.4

true

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 用户指南

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2025年2月4日

导出文档

“导出文件”对话框用于轻松导出数据以训练 ML 模型。

单击管理栏中的“导出”按钮。

该对话框包含三个选项卡：

立即导出

“立即导出”选项卡使您能够：

使用“下载”按钮将数据下载到本地。
使用“导出”按钮将数据导出到 AI Center。可以在 AI Center 中的 export 文件夹（“Datasets”>“database_name”>“export”）下找到已导出的文件夹。

如果未定义架构，则禁用所有导出选项。

如果定义了架构，则必须输入导出名称，否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符，并且不得包含特殊字符。

您可以选择以下导出选项：

当前搜索结果 - 按预定义关键字/指定批次或文本查询筛选的带标签文档。如果未应用任何筛选器，则导出当前视图中的所有带标签文档。
“全部已添加标签”- 所有至少包含一个已标记字段（任意类型）的文档；更准确地说，是来自“带标签”筛选器的文档。
架构 - 包含字段及其配置的 zip 文件，可将其导入到不同的 Document Manager 会话中。

“向后兼容导出”复选框使您能够应用旧版导出行为，即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果，请尝试以下方法。取消选中此项以原始多页形式导出文档。

重要提示：

Document Manager 2021.10 版支持标记多页文档。与以前的版本相比（每个页面都需要单独标记），这是一个重大变化。标记和导出多页文档时，假设每个文档代表一个逻辑文档。例如，一个六页的文档可能包含单张六页的发票，但不应包含三张不同的发票（每张发票两页）。这对于评估集尤其重要。

此要求与向后兼容的导出无关。

导出验证

要导出数据集，需要在至少 10 个不同的文档中为所有字段加上标签。否则，导出将失败，并显示以下消息：

对于分类字段，还存在另一个要求：需要在至少一个文档中为每个选项加上标签。否则，导出将失败，并显示以下消息：

仅导出评估集数据时，将禁用所有验证。

数据集格式

包含来自 Document Manager 的导出数据集的文件夹。这包括：

schema.json：此文件包含要提取的字段及其类型
split.csv：此文件夹包含每个文档的拆分，这些文档将在训练管道中用于训练或验证
images：此文件夹包含所有已标记页面的图像；
latest：此文件夹包含 .json 文件，以及每个页面中的已标记数据；

计划公开预览版

此处介绍计划导出功能。

日志

“日志”选项卡显示最新的导出日志。

如果导出成功，日志将显示已处理的文档数量和导出持续时间。

如果架构导出成功，日志将显示导出持续时间。

在文件导出过程中，您可以查看导出状态。这对于大型导出尤其有用。

日志还会显示错误消息，例如：

如果自动重新训练成功，则还会显示数据集的 fine-tune 文件夹中的导入日志：

在此页面上

立即导出
导出验证
数据集格式
计划公开预览版
日志

此页面有帮助吗？

前一个搜索文档

下一个复选框和签名

获取您需要的帮助

了解 RPA - 自动化课程

UiPath Community 论坛