- 入门指南
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 深度学习
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding 用户指南
导出文档
link立即导出
link“立即导出”选项卡使您能够:
- 使用“下载”按钮将数据下载到本地。
- 使用“导出”按钮将数据导出到 AI Center。可以在 AI Center 中的 export 文件夹(“Datasets”>“database_name”>“export”)下找到已导出的文件夹。
如果您先下载数据集,然后再将该数据集上传到 AI Center,请确保在上传前解压缩数据集。
如果未定义架构,则禁用所有导出选项。
如果定义了架构,则必须输入导出名称,否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符,并且不得包含特殊字符。
您可以选择以下导出选项:
- 当前搜索结果 - 按预定义关键字/指定批次或文本查询筛选的带标签文档。如果未应用任何筛选器,则导出当前视图中的所有带标签文档。
- “全部已添加标签”- 所有至少包含一个已标记字段(任意类型)的文档;更准确地说,是来自“带标签”筛选器的文档。
- 架构 - 包含字段及其配置的 zip 文件,可将其导入到不同的 Data Manager 会话中。
“向后兼容导出”复选框使您能够应用旧版导出行为,即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果,请尝试以下方法。取消选中此项以原始多页形式导出文档。
Data Manager 2021.10 发行版支持标记多页文档。与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。
此要求与向后兼容的导出无关。
导出验证
要导出数据集,需要在至少 10 个不同的文档中为所有字段加上标签。否则,导出将失败,并显示以下消息:
对于分类字段,还存在另一个要求:需要在至少一个文档中为每个选项加上标签。否则,导出将失败,并显示以下消息:
仅导出评估集数据时,将禁用所有验证。
数据集格式
包含来自 Data Manager 的导出数据集的文件夹。这包括:
schema.json
:此文件包含要提取的字段及其类型split.csv
:此文件夹包含每个文档的拆分,这些文档将在训练管道中用于训练或验证- images:此文件夹包含所有已标记页面的图像;
-
latest:此文件夹包含
.json
文件,以及每个页面中的已标记数据;
日志
link“日志”选项卡显示最新的导出日志。
如果导出成功,日志将显示已处理的文档数量和导出持续时间。
如果架构导出成功,日志将显示导出持续时间。
在文件导出过程中,您可以查看导出状态。这对于大型导出尤其有用。
日志还会显示错误消息,例如:
如果自动重新训练成功,则还会显示数据集的 fine-tune 文件夹中的导入日志: