- 概述
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 护照 - ML 包
- 工资单 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 硬件要求
- 管道
- Document Manager
- OCR 服务
- 支持的语言
- 深度学习
- Insights 仪表板
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 许可
- Activities (活动)
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentProcessing.Contracts
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities

Document Understanding user guide
导出文档
“导出文件”对话框用于轻松导出数据以训练 ML 模型。
Select the Export button
from the management bar.
该对话框包含三个选项卡:
立即导出
“立即导出”选项卡使您能够:
- Download to Excel - Download the data locally in an Excel format.
- Download - Download the data locally.
- Export to AI Center - Export the data to AI Center. The exported folders can be found in AI Center under the export folder (Datasets > dataset_name > export).
The Download to Excel function cannot be used if Schema or Backwards-compatible export options are selected.
如果未定义架构,则禁用所有导出选项。
如果定义了架构,则必须输入导出名称,否则将禁用“下载”和“导出”按钮。有效名称最多可包含 24 个字符,并且不得包含特殊字符。
即使架构包含多值字段,您也可以导出或下载该架构。
您可以选择以下导出选项:
- 当前搜索结果 - 按预定义关键字/指定批次或文本查询筛选的带标签文档。如果未应用任何筛选器,则导出当前视图中的所有带标签文档。
- “全部已添加标签”- 所有至少包含一个已标记字段(任意类型)的文档;更准确地说,是来自“带标签”筛选器的文档。
- 架构 - 包含字段及其配置的 zip 文件,可将其导入到不同的 Document Manager 会话中。
- All - exports all documents, no matter if labels are applied or not.
“向后兼容导出”复选框使您能够应用旧版导出行为,即将每个页面导出为单独的文档。如果使用默认方式导出的已训练模型未达到预期效果,请尝试以下方法。取消选中此项以原始多页形式导出文档。
导出验证
要导出数据集,需要在至少 10 个不同的页面中为所有字段加上标签。否则,导出将失败,并显示以下消息:


对于分类字段,还存在另一个要求:需要在至少一个文档中为每个选项加上标签。否则,导出将失败,并显示以下消息:

仅导出评估集数据时,将禁用所有验证。
数据集格式
包含来自 Document Manager 的导出数据集的文件夹。这包括:
-
schema.json:此文件包含要提取的字段及其类型 -
split.csv:此文件夹包含每个文档的拆分,这些文档将在训练管道中用于训练或验证 -
images:此文件夹包含所有已标记页面的图像;
-
latest:此文件夹包含
.json文件,以及每个页面中的已标记数据;
日志
“日志”选项卡显示最新的导出日志。
如果导出成功,日志将显示已处理的文档数量和导出持续时间。

如果架构导出成功,日志将显示导出持续时间。

在文件导出过程中,您可以查看导出状态。这对于大型导出尤其有用。

日志还会显示错误消息,例如:

In case of a successful auto-retraining, the import logs from the fine-tune folder of the dataset are displayed as well:
