- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
导入文档
AI Center 不支持包含特殊字符的文件名,因此,我们强烈建议在将文档导入 Data Manager 之前,确保其名称仅包含拉丁字符、数字、短横线(-)和下划线(_)。
Data Manager 中支持 4 种类型的导入:
- 架构导入
- 原始文档导入
- Data Manager 数据集导入
- 机器学习提取程序训练器数据集导入(预览版功能)
如果要使用与现有实例相同的架构启动 Data Manager 的新实例,可以按照以下步骤操作:
- 在现有实例的筛选器中输入一个随机字符串,这样视图中就不会保留任何文档
- 单击“导出”按钮。系统将导出 zip 文件。
- 将该 zip 文件直接导入到 Data Manager 的新实例中(请勿解压缩)。系统将导入架构。
您也可以使用本文档“配置 Data Manager”一节中提供的预定义架构之一。
.pdf
、.tiff
、.png
、.jpg
。步骤如下:
- 单击“导入”。系统将显示“导入数据”窗口。
- 在“批次名称”字段中提供批次名称。这使您日后可以使用“筛选器”下拉列表轻松地筛选并找到这些文档。
- 如果要使用此文档批次来训练 ML 模型,请取消选中“将此作为测试集”复选框。
- 如果要使用此文档批次来评估 ML 模型(即衡量其性能),请选中“将此作为测试集”复选框。这可确保训练管道忽略数据。
- 上传一个或一组文件,或者将文件拖放到“浏览或拖放文件”部分。
接受任何类型的文件。应用程序将检查文件,并指出可以导入的数量。也接受
.zip
文件。应用程序将解压缩存档,并以递归方式遍历文件夹以查找其中的所有文件。导入从另一个 Data Manager 实例导出的数据集 zip 文件时,系统将导入带有标签的文档。这仅在数据集架构相同,或者数据集架构是 Data Manager 中预先存在的架构的子集时才有效。
要导入先前在 Data Manager 的另一个实例上标记的数据集,您需要获取最初导出的 zip 文件,并将其直接导入到新的 Data Manager 实例中。如果新的 Data Manager 实例完全为空(无任何数据且未定义任何字段),则系统将同时导入数据和架构。如果新的 Data Manager 实例已定义字段,则新导入的数据集需要具有相同字段或这些字段的子集。否则,导入将被拒绝。
当 RPA 工作流使用现有 ML 模型处理文档时,某些文档可能需要使用验证站点活动(在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供)进行人工验证。
在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出,并可用于借助此处所述的功能来训练 ML 模型。
涉及的步骤包括:
- 配置 ML 提取程序训练器,以将数据输出到路径为 <Trainer/Output/Folder> 的文件夹中(使用任何空文件夹路径)。
- 运行 RPA 工作流,包括验证站点和 ML 提取程序训练器。
- ML 提取程序训练器将在输出文件夹中创建 3 个子文件夹,它们分别名为:documents、metadata 和 predictions。
- 将 <Trainer/Output/Folder> 压缩为 Zip 文件,例如 TrainerOutputFolder.zip。
- 将 zip 文件导入到 Data Manager 中。Data Manager 将检测导入是否包含 ML 提取程序训练器生成的数据,并相应地导入数据。
- 像往常一样导出数据,然后上传到 AI Center。
- 启动训练管道或完整管道,并确保选择要微调的 ML 包和版本。