document-understanding
2022.4
false
- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
导出文档
“立即导出”选项卡使您能够:
- 使用“下载”按钮将数据下载到本地。
- 使用“导出”按钮将数据导出到 AI Center。可以在 AI Center 中的 export 文件夹(“Datasets”>“database_name”>“export”)下找到已导出的文件夹。
如果您先下载数据集,然后再将该数据集上传到 AI Center,请确保在上传前解压缩数据集。
如果未定义架构,则禁用所有导出选项。
如果定义了架构,则必须输入导出名称,否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符,并且不得包含特殊字符。
您可以选择以下导出选项:
- 当前搜索结果 - 按预定义关键字/指定批次或文本查询筛选的带标签文档。如果未应用任何筛选器,则导出当前视图中的所有带标签文档。
- “全部已添加标签”- 所有至少包含一个已标记字段(任意类型)的文档;更准确地说,是来自“带标签”筛选器的文档。
- 架构 - 包含字段及其配置的 zip 文件,可将其导入到不同的 Data Manager 会话中。
“向后兼容导出”复选框使您能够应用旧版导出行为,即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果,请尝试以下方法。取消选中此项以原始多页形式导出文档。
重要提示:
Data Manager 2021.10 发行版支持标记多页文档。与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。
此要求与向后兼容的导出无关。
要导出数据集,需要在至少 10 个不同的文档中为所有字段加上标签。否则,导出将失败,并显示以下消息:
对于分类字段,还存在另一个要求:需要在至少一个文档中为每个选项加上标签。否则,导出将失败,并显示以下消息:
仅导出评估集数据时,将禁用所有验证。
此处介绍计划导出功能。