Document Understanding 用户指南

适用平台：

上次更新日期 2025年3月5日

导入文档

“导入数据”对话框用于轻松导入要添加标签或修订的新文档。

单击管理栏中的“导入”按钮。

该对话框包含以下控件：

“批处理名称”文本字段 - 必须输入导出名称，否则将禁用“浏览或拖放文件”部分；有效名称最多可包含 24 个字符，并且不应包含特殊字符。
“将此作为评估集”复选框 - 如果选中，则数据集将用于评估目的。
“浏览或拖放文件”部分 - 单击“浏览要上传的文件”以浏览目录，或直接将文件拖放到框架内。
“状态”部分 - 单击“（加载上一个导入日志）”以查看最新导入的状态；上传数据时，在“状态”部分，您将收到文件的概述，系统会提示您单击“是”以继续导入，或单击“取消”以中止导入。

Document Manager 中支持 4 种类型的导入：

如果要使用与现有会话相同的架构启动新的 Document Manager 会话，可以按照以下步骤操作：

也可以将架构导入应用于多值字段。

重要提示：请注意，多值字段仅与版本 2022.10 或更高版本的模型兼容。

可以导入以添加标签的文档类型包括：.pdf、.tiff、.png、.jpg。

原始文档导入不支持 .zip 文件。

导入前需要配置 OCR 设置。

请按照以下步骤操作：

单击“导入”按钮。系统将显示“导入数据”对话框。
在“批次名称”字段中提供批次名称。这使您日后可以使用“搜索”下拉列表轻松筛选和查找这些文档。
- 如果要使用此文档批次来训练 ML 模型，请取消选中“将此作为评估集”复选框。
- 如果要使用此文档批次来评估 ML 模型（即衡量其性能），请选中“将此作为评估集”复选框。这可确保训练管道忽略数据。
上传一个或一组文件，或者将文件拖放到“浏览或拖放文件”部分。
单击“是”。导入文件或文件集。

要导入先前在另一个 Document Manager 会话中标记的数据集，您需要获取最初导出的 .zip 文件，并将其直接导入到新的 Document Manager 实例中。

如果新的 Document Manager 实例完全为空（无任何数据且未定义任何字段），则系统将同时导入带标签的文档和架构。

如果新的 Document Manager 实例已定义字段，则新导入的数据集需要具有相同字段或这些字段的子集。否则，导入将被拒绝。

如果您从 Automation Cloud™ 环境导出数据库，然后将其导入到本地部署中，则需要执行以下步骤：

要导入大于 1GB 或包含超过 1500 个文件的 Document Manager 数据集，建议您使用此脚本将 .zip 文件拆分为多个小于 1GB 且包含少于 1500 个文件的 .zip 文件。

当 RPA 工作流使用现有 ML 模型处理文档时，某些文档可能需要使用验证站点活动（在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供）进行人工验证。

在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出，并可用于借助下方所述的功能来训练 ML 模型。

注意：对于验证站点数据集导入，则必须定义架构。

请按照以下步骤操作：

配置机器学习提取程序训练器，以将数据输出到路径为 <Trainer/Output/Folder> 的文件夹中（使用任何空文件夹路径）。
运行 RPA 工作流，包括验证站点和机器学习提取程序训练器。
机器学习提取程序训练器将在输出文件夹中创建三个子文件夹：文档、元数据和预测。
压缩 <Trainer/Output/Folder> 以获取 .zip 文件，例如 TrainerOutputFolder.zip。
将 .zip 文件导入到 Document Manager 中，该文件管理器会检测导入是否包含机器学习提取程序训练器生成的数据，并相应地导入数据。