document-understanding
2024.10
true
- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 支持的语言
- 深度学习
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- 活动
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 用户指南
上次更新日期 2025年9月15日
导出文档
link立即导出
link“立即导出”选项卡使您能够:
- 下载到 Excel - 以 Excel 格式在本地下载数据。
- 下载 - 在本地下载数据。
- 导出到 AI Center - 将数据导出到 AI Center。可以在 AI Center 中的 export 文件夹(“Datasets”>“database_name”>“export”)下找到已导出的文件夹。
注意:如果选择了“架构”或“向后兼容的导出”选项,则无法使用“下载到 Excel”功能。
如果未定义架构,则禁用所有导出选项。
如果定义了架构,则必须输入导出名称,否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符,并且不得包含特殊字符。
即使架构包含多值字段,您也可以导出或下载该架构。
您可以选择以下导出选项:
- 当前搜索结果 - 按预定义关键字/指定批次或文本查询筛选的带标签文档。如果未应用任何筛选器,则导出当前视图中的所有带标签文档。
- “全部已添加标签”- 所有至少包含一个已标记字段(任意类型)的文档;更准确地说,是来自“带标签”筛选器的文档。
- 架构 - 包含字段及其配置的 zip 文件,可将其导入到不同的 Document Manager 会话中。
- 全部 - 导出所有文档,无论是否应用标签。
“向后兼容导出”复选框使您能够应用旧版导出行为,即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果,请尝试以下方法。取消选中此项以原始多页形式导出文档。
导出验证
要导出数据集,需要在至少 10 个不同的页面中为所有字段加上标签。否则,导出将失败,并显示以下消息:
对于分类字段,还存在另一个要求:需要在至少一个文档中为每个选项加上标签。否则,导出将失败,并显示以下消息:
仅导出评估集数据时,将禁用所有验证。
数据集格式
包含来自 Document Manager 的导出数据集的文件夹。这包括:
schema.json
:此文件包含要提取的字段及其类型split.csv
:此文件夹包含每个文档的拆分,这些文档将在训练管道中用于训练或验证- images:此文件夹包含所有已标记页面的图像;
-
latest:此文件夹包含
.json
文件,以及每个页面中的已标记数据;
日志
link“日志”选项卡显示最新的导出日志。
如果导出成功,日志将显示已处理的文档数量和导出持续时间。
如果架构导出成功,日志将显示导出持续时间。
在文件导出过程中,您可以查看导出状态。这对于大型导出尤其有用。
日志还会显示错误消息,例如:
如果自动重新训练成功,则还会显示数据集的 fine-tune 文件夹中的导入日志: