document-understanding
latest
false
- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- 快速入门教程
- 框架组件
- ML 包
- 概述
- Document Understanding - ML 包
- DocumentClassifier - ML 包
- 具有 OCR 功能的 ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 其他开箱即用的 ML 包
- 公共端点
- 流量限制
- OCR 配置
- 管道
- OCR 服务
- 支持的语言
- 深度学习
- 许可
Document Understanding 用户指南
Last updated 2024年11月14日
导入文档
“导入数据”对话框用于轻松导入要添加标签或修订的新文档。
单击管理栏中的“导入”按钮 。
该对话框包含以下控件:
- “批处理名称”文本字段 - 必须输入导出名称,否则将禁用“浏览或拖放文件”部分;有效名称最多可包含 24 个字符,并且不应包含特殊字符。
- “将此作为评估集”复选框 - 如果选中,则数据集将用于评估目的。
- “浏览或拖放文件”部分 - 单击“浏览要上传的文件”以浏览目录,或直接将文件拖放到框架内。
-
“状态”部分 - 单击“(加载上一个导入日志)”以查看最新导入的状态;上传数据时,在“状态”部分,您将收到文件的概述,系统会提示您单击“是”以继续导入,或单击“取消”以中止导入。
Document Manager 中支持 4 种类型的导入:
- 架构导入
- 原始文档导入(每次导入最多 2000 页和 4000 MiB)
- Document Manager 数据集导入(每次导入 4000 MiB)
- 验证站点数据集导入(每次导入最多 2000 页和 4000 MiB)
如果要使用与现有会话相同的架构启动新的 Document Manager 会话,可以按照以下步骤操作:
- 单击管理栏中的“导出”按钮。
- 在“导出文件”对话框中,选中“架构”选项。
- 单击对话框中的“导出”按钮。系统将导出
.zip
文件。 - 单击管理栏中的“导入”按钮。
- 将
.zip
文件直接上传或拖放到新的 Document Manager 会话中(请勿解压缩)。在此步骤中,您还可以上传预定义的架构。 - 单击“状态”部分中的“是”以继续导入。已导入架构。
也可以将架构导入应用于多值字段。
重要提示:请注意,多值字段仅与版本 2022.10 或更高版本的模型兼容。
要导入先前在另一个 Document Manager 会话中标记的数据集,您需要获取最初导出的
.zip
文件,并将其直接导入到新的 Document Manager 实例中。
如果新的 Document Manager 实例完全为空(无任何数据且未定义任何字段),则系统将同时导入带标签的文档和架构。
如果新的 Document Manager 实例已定义字段,则新导入的数据集需要具有相同字段或这些字段的子集。否则,导入将被拒绝。
如果您从 Automation Cloud™ 环境导出数据库,然后将其导入到本地部署中,则需要执行以下步骤:
- 解压缩数据集文件。
- 编辑存档中的
scheman.json
文件。 - 从
json
文件中删除所有display_name
属性,然后保存该文件。 - 重新压缩数据集,并将其导入到本地部署会话中。
拆分大型数据集
要导入大于 1GB 或包含超过 1500 个文件的 Document Manager 数据集,建议您使用此脚本将
.zip
文件拆分为多个小于 1GB 且包含少于 1500 个文件的 .zip
文件。
当 RPA 工作流使用现有 ML 模型处理文档时,某些文档可能需要使用验证站点活动(在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供)进行人工验证。
在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出,并可用于借助下方所述的功能来训练 ML 模型。
注意:对于验证站点数据集导入,则必须定义架构。
请按照以下步骤操作:
- 配置机器学习提取程序训练器,以将数据输出到路径为
<Trainer/Output/Folder>
的文件夹中(使用任何空文件夹路径)。 - 运行 RPA 工作流,包括验证站点和机器学习提取程序训练器。
- 机器学习提取程序训练器将在输出文件夹中创建三个子文件夹:文档、元数据和预测。
- 压缩
<Trainer/Output/Folder>
以获取.zip
文件,例如 TrainerOutputFolder.zip。 - 将
.zip
文件导入到 Document Manager 中,该文件管理器会检测导入是否包含机器学习提取程序训练器生成的数据,并相应地导入数据。
如果缺少数据集所需的字段,则导入对话框中将显示错误消息。