Document Understanding - 导入文档

document-understanding

2021.10

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

导入文档

“导入数据”对话框用于轻松导入要添加标签或修订的新文档。

单击管理栏中的“导入”按钮。

该对话框包含以下控件：

Data Manager 中支持 4 种类型的导入：

如果要使用与现有会话相同的架构启动新的 Data Manager 会话，可以按照以下步骤操作：

您也可以使用“使用预定义架构”页面中提供的其中一种预定义架构。

可以导入以添加标签的文档类型包括：.pdf、.tiff、.png、.jpg。

请按照以下步骤操作：

单击“导入”按钮。系统将显示“导入数据”对话框。
在“批次名称”字段中提供批次名称。这使您日后可以使用“搜索”下拉列表轻松筛选和查找这些文档。
- 如果要使用此文档批次来训练 ML 模型，请取消选中“将此作为评估集”复选框。
- 如果要使用此文档批次来评估 ML 模型（即衡量其性能），请选中“将此作为评估集”复选框。这可确保训练管道忽略数据。
如果文档超过 150 页，请选中“启用大文档”复选框。否则，请取消选中该复选框。
上传一个或一组文件，或者将文件拖放到“浏览或拖放文件”部分。
单击“是”。导入文件或文件集。

要导入先前在另一个 Data Manager 会话中标记的数据集，您需要获取最初导出的 .zip 文件，并将其直接导入到新的 Data Manager 实例中。

如果新的 Data Manager 实例完全为空（无任何数据且未定义任何字段），则系统将同时导入带标签的文档和架构。

如果新的 Data Manager 实例已定义字段，则新导入的数据集需要具有相同字段或这些字段的子集。否则，导入将被拒绝。

要导入大于 1GB 或包含超过 1500 个文件的 Data Manager 数据集，建议您使用此脚本将 .zip 文件拆分为多个小于 1GB 且包含少于 1500 个文件的 .zip 文件。

当 RPA 工作流使用现有 ML 模型处理文档时，某些文档可能需要使用验证站点活动（在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供）进行人工验证。

在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出，并可用于借助下方所述的功能来训练 ML 模型。

注意：对于验证站点数据集导入，则必须定义架构。

请按照以下步骤操作：

如果缺少数据集所需的字段，则导入对话框中将显示错误消息。

在此页面上

前一个使用预定义架构

下一个标注文档