document-understanding
2022.4
true
Document Understanding 用户指南
Automation CloudAutomation Cloud Public SectorAutomation SuiteStandalone
Last updated 2024年10月24日

导入文档

“导入数据”对话框用于轻松导入要添加标签或修订的新文档。

单击管理栏中的“导入”按钮

该对话框包含以下控件:

  • “批处理名称”文本字段 - 必须输入导出名称,否则将禁用“浏览或拖放文件”部分;有效名称最多可包含 24 个字符,并且不应包含特殊字符。
  • “将此作为评估集”复选框 - 如果选中,则数据集将用于评估目的。
  • “启用大文档”复选框 - 如果选中,则可以上传超过 150 页的文档。
  • 浏览或拖放文件”部分 - 单击“浏览要上传的文件”以浏览目录,或直接将文件拖放到框架内。
  • 状态”部分 - 单击“(加载上一个导入日志)”以查看最新导入的状态;上传数据时,在“状态”部分,您将收到文件的概述,系统会提示您单击“是”以继续导入,或单击“取消”以中止导入。



    重要提示:

    Document Manager 2021.10 版支持标记多页文档。与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。

    此要求与向后兼容的导出无关。

导入类型

Document Manager 中支持 4 种类型的导入:

  • 架构导入
  • 原始文档导入(每次导入最多 2000 页或 1GB 页)
  • Document Manager 数据集导入(每次最多导入 2000 页或 1GB 页)
  • 验证站点数据集导入(每次最多导入 2000 页或 1GB 页)

架构导入

如果要使用与现有会话相同的架构启动新的 Document Manager 会话,可以按照以下步骤操作:

  1. 单击管理栏中的“导出”按钮 docs image
  2. 在“导出文件”对话框中,选中“架构”选项。
  3. 单击对话框中的“导出”按钮。系统将导出 .zip 文件。
  4. 单击管理栏中的“导入”按钮 docs image
  5. .zip 文件直接上传或拖放到新的 Document Manager 会话中(请勿解压缩)。在此步骤中,您还可以上传预定义的架构
  6. 单击“状态”部分中的“是”以继续导入。已导入架构。

原始文档导入

可以导入以添加标签的文档类型包括:.pdf.tiff.png.jpg
  • 原始文档导入不支持 .zip 文件。
  • 导入前需要配置 OCR 设置。

请按照以下步骤操作:

  1. 单击“导入”按钮 docs image。系统将显示“导入数据”对话框。
  2. 在“批次名称”字段中提供批次名称。这使您日后可以使用“搜索”下拉列表轻松筛选和查找这些文档。

    • 如果要使用此文档批次来训练 ML 模型,请取消选中“将此作为评估集”复选框。
    • 如果要使用此文档批次来评估 ML 模型(即衡量其性能),请选中“将此作为评估集”复选框。这可确保训练管道忽略数据。
  3. 如果文档超过 150 页,请选中“启用大文档”复选框。否则,请取消选中该复选框。
  4. 上传一个或一组文件,或者将文件拖放到“浏览或拖放文件”部分。
  5. 单击“是”。导入文件或文件集。



Document Manager 数据集导入

要导入先前在另一个 Document Manager 会话中标记的数据集,您需要获取最初导出的 .zip 文件,并将其直接导入到新的 Document Manager 实例中。

如果新的 Document Manager 实例完全为空(无任何数据且未定义任何字段),则系统将同时导入带标签的文档和架构。

如果新的 Document Manager 实例已定义字段,则新导入的数据集需要具有相同字段或这些字段的子集。否则,导入将被拒绝。

拆分大型数据集

要导入大于 1GB 或包含超过 1500 个文件的 Document Manager 数据集,建议您使用此脚本.zip 文件拆分为多个小于 1GB 且包含少于 1500 个文件的 .zip 文件。

验证站点数据集导入

当 RPA 工作流使用现有 ML 模型处理文档时,某些文档可能需要使用验证站点活动(在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供)进行人工验证。

验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出,并可用于借助下方所述的功能来训练 ML 模型。

注意:对于验证站点数据集导入,则必须定义架构。

请按照以下步骤操作:

  1. 配置机器学习提取程序训练器,以将数据输出到路径为 <Trainer/Output/Folder> 的文件夹中(使用任何空文件夹路径)。
  2. 运行 RPA 工作流,包括验证站点机器学习提取程序训练器
  3. 机器学习提取程序训练器将在输出文件夹中创建三个子文件夹:文档、元数据和预测。
  4. 压缩 <Trainer/Output/Folder> 以获取 .zip 文件,例如 TrainerOutputFolder.zip
  5. .zip 文件导入到 Document Manager 中,该文件管理器会检测导入是否包含机器学习提取程序训练器生成的数据,并相应地导入数据。

如果缺少数据集所需的字段,则导入对话框中将显示错误消息。



  • 导入类型
  • 架构导入
  • 原始文档导入
  • Document Manager 数据集导入
  • 验证站点数据集导入

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
信任与安全
© 2005-2024 UiPath。保留所有权利。