Document Understanding - 导入文档

document-understanding

2020.10

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

导入文档

AI Center 不支持包含特殊字符的文件名，因此，我们强烈建议在将文档导入 Data Manager 之前，确保其名称仅包含拉丁字符、数字、短横线（-）和下划线（_）。

Data Manager 中支持 4 种类型的导入：

架构导入
原始文档导入
Data Manager 数据集导入
机器学习提取程序训练器数据集导入（预览版功能）

架构导入

如果要使用与现有实例相同的架构启动 Data Manager 的新实例，可以按照以下步骤操作：

在现有实例的筛选器中输入一个随机字符串，这样视图中就不会保留任何文档
单击“导出”按钮。系统将导出 zip 文件。
将该 zip 文件直接导入到 Data Manager 的新实例中（请勿解压缩）。系统将导入架构。

您也可以使用本文档“配置 Data Manager”一节中提供的预定义架构之一。

原始文档导入

可以导入以添加标签的文档类型包括：.pdf、.tiff、.png、.jpg。步骤如下：

单击“导入”。系统将显示“导入数据”窗口。
在“批次名称”字段中提供批次名称。这使您日后可以使用“筛选器”下拉列表轻松地筛选并找到这些文档。
如果要使用此文档批次来训练 ML 模型，请取消选中“将此作为测试集”复选框。
如果要使用此文档批次来评估 ML 模型（即衡量其性能），请选中“将此作为测试集”复选框。这可确保训练管道忽略数据。
上传一个或一组文件，或者将文件拖放到“浏览或拖放文件”部分。
接受任何类型的文件。应用程序将检查文件，并指出可以导入的数量。也接受 .zip 文件。应用程序将解压缩存档，并以递归方式遍历文件夹以查找其中的所有文件。

导入从另一个 Data Manager 实例导出的数据集 zip 文件时，系统将导入带有标签的文档。这仅在数据集架构相同，或者数据集架构是 Data Manager 中预先存在的架构的子集时才有效。

Data Manager 数据集导入

要导入先前在 Data Manager 的另一个实例上标记的数据集，您需要获取最初导出的 zip 文件，并将其直接导入到新的 Data Manager 实例中。如果新的 Data Manager 实例完全为空（无任何数据且未定义任何字段），则系统将同时导入数据和架构。如果新的 Data Manager 实例已定义字段，则新导入的数据集需要具有相同字段或这些字段的子集。否则，导入将被拒绝。

验证站点数据集导入（预览版功能）

当 RPA 工作流使用现有 ML 模型处理文档时，某些文档可能需要使用验证站点活动（在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供）进行人工验证。

在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出，并可用于借助此处所述的功能来训练 ML 模型。

涉及的步骤包括：

配置 ML 提取程序训练器，以将数据输出到路径为 <Trainer/Output/Folder> 的文件夹中（使用任何空文件夹路径）。
运行 RPA 工作流，包括验证站点和 ML 提取程序训练器。
ML 提取程序训练器将在输出文件夹中创建 3 个子文件夹，它们分别名为：documents、metadata 和 predictions。
将 <Trainer/Output/Folder> 压缩为 Zip 文件，例如 TrainerOutputFolder.zip。
将 zip 文件导入到 Data Manager 中。Data Manager 将检测导入是否包含 ML 提取程序训练器生成的数据，并相应地导入数据。
像往常一样导出数据，然后上传到 AI Center。
启动训练管道或完整管道，并确保选择要微调的 ML 包和版本。

在此页面上

架构导入
原始文档导入
Data Manager 数据集导入
验证站点数据集导入（预览版功能）

此页面有帮助吗？

前一个创建和配置字段

下一个标注文档