Document Understanding 用户指南

适用平台：

上次更新日期 2025年2月4日

导入文档

“导入数据”对话框用于轻松导入要添加标签或修订的新文档。

单击管理栏中的“导入”按钮。

该对话框包含以下控件：

Document Manager 中支持 4 种类型的导入：

如果要使用与现有会话相同的架构启动新的 Document Manager 会话，可以按照以下步骤操作：

可以导入以添加标签的文档类型包括：.pdf、.tiff、.png、.jpg。

请按照以下步骤操作：

单击“导入”按钮。系统将显示“导入数据”对话框。
在“批次名称”字段中提供批次名称。这使您日后可以使用“搜索”下拉列表轻松筛选和查找这些文档。
- 如果要使用此文档批次来训练 ML 模型，请取消选中“将此作为评估集”复选框。
- 如果要使用此文档批次来评估 ML 模型（即衡量其性能），请选中“将此作为评估集”复选框。这可确保训练管道忽略数据。
如果文档超过 150 页，请选中“启用大文档”复选框。否则，请取消选中该复选框。
上传一个或一组文件，或者将文件拖放到“浏览或拖放文件”部分。
单击“是”。导入文件或文件集。

要导入先前在另一个 Document Manager 会话中标记的数据集，您需要获取最初导出的 .zip 文件，并将其直接导入到新的 Document Manager 实例中。

如果新的 Document Manager 实例完全为空（无任何数据且未定义任何字段），则系统将同时导入带标签的文档和架构。

如果新的 Document Manager 实例已定义字段，则新导入的数据集需要具有相同字段或这些字段的子集。否则，导入将被拒绝。

要导入大于 1GB 或包含超过 1500 个文件的 Document Manager 数据集，建议您使用此脚本将 .zip 文件拆分为多个小于 1GB 且包含少于 1500 个文件的 .zip 文件。

当 RPA 工作流使用现有 ML 模型处理文档时，某些文档可能需要使用验证站点活动（在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供）进行人工验证。

在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出，并可用于借助下方所述的功能来训练 ML 模型。

注意：对于验证站点数据集导入，则必须定义架构。

请按照以下步骤操作：

配置机器学习提取程序训练器，以将数据输出到路径为 <Trainer/Output/Folder> 的文件夹中（使用任何空文件夹路径）。
运行 RPA 工作流，包括验证站点和机器学习提取程序训练器。
机器学习提取程序训练器将在输出文件夹中创建三个子文件夹：文档、元数据和预测。
压缩 <Trainer/Output/Folder> 以获取 .zip 文件，例如 TrainerOutputFolder.zip。
将 .zip 文件导入到 Document Manager 中，该文件管理器会检测导入是否包含机器学习提取程序训练器生成的数据，并相应地导入数据。