document-understanding
2021.10
false
- 入门指南
- 框架组件
- ML 包
- 管道
- Data Manager
- OCR 服务
- 部署在 Automation Suite 中的 Document Understanding
- 在 AI Center 独立版中部署的 Document Understanding
- 深度学习
- 许可
- 参考
- UiPath.Abbyy.Activities
- UiPath.AbbyyEmbedded.Activities
- UiPath.DocumentUnderstanding.ML.Activities
- UiPath.DocumentUnderstanding.OCR.LocalServer.Activities
- UiPath.Intelligent OCR.Activities
- UiPath.OCR.Activities
- UiPath.OCR.Contracts
- UiPath.DocumentProcessing.Contracts
- UiPath.OmniPage.Activities
- UiPath.PDF.Activities
Document Understanding 用户指南
Last updated 2024年10月17日
导入文档
“导入数据”对话框用于轻松导入要添加标签或修订的新文档。
单击管理栏中的“导入”按钮 。
该对话框包含以下控件:
- “批处理名称”文本字段 - 必须输入导出名称,否则将禁用“浏览或拖放文件”部分;有效名称最多可包含 24 个字符,并且不应包含特殊字符。
- “将此作为评估集”复选框 - 如果选中,则数据集将用于评估目的。
- “启用大文档”复选框 - 如果选中,则可以上传超过 150 页的文档。
- “浏览或拖放文件”部分 - 单击“浏览要上传的文件”以浏览目录,或直接将文件拖放到框架内。
- “状态”部分 - 单击“(加载上一个导入日志)”以查看最新导入的状态;上传数据时,在“状态”部分,您将收到文件的概述,系统会提示您单击“是”以继续导入,或单击“取消”以中止导入。
重要提示:Data Manager 2021.10 发行版支持标记多页文档。与以前的版本相比(每个页面都需要单独标记),这是一个重大变化。标记和导出多页文档时,假设每个文档代表一个逻辑文档。例如,一个六页的文档可能包含单张六页的发票,但不应包含三张不同的发票(每张发票两页)。这对于评估集尤其重要。
此要求与向后兼容的导出无关。
Data Manager 中支持 4 种类型的导入:
- 架构导入
- 原始文档导入(每次导入最多 2000 页或 2GB 页)
- Data Manager 数据集导入(每次最多导入 2000 页或 2GB 页)
- 验证站点数据集导入(每次最多导入 2000 页或 2GB 页)
可以导入以添加标签的文档类型包括:
.pdf
、.tiff
、.png
、.jpg
。
- 原始文档导入不支持
.zip
文件。 - 导入前需要配置 OCR 设置。
请按照以下步骤操作:
- 单击“导入”按钮 。系统将显示“导入数据”对话框。
- 在“批次名称”字段中提供批次名称。这使您日后可以使用“搜索”下拉列表轻松筛选和查找这些文档。
- 如果要使用此文档批次来训练 ML 模型,请取消选中“将此作为评估集”复选框。
- 如果要使用此文档批次来评估 ML 模型(即衡量其性能),请选中“将此作为评估集”复选框。这可确保训练管道忽略数据。
- 如果文档超过 150 页,请选中“启用大文档”复选框。否则,请取消选中该复选框。
- 上传一个或一组文件,或者将文件拖放到“浏览或拖放文件”部分。
- 单击“是”。导入文件或文件集。
要导入先前在另一个 Data Manager 会话中标记的数据集,您需要获取最初导出的
.zip
文件,并将其直接导入到新的 Data Manager 实例中。
如果新的 Data Manager 实例完全为空(无任何数据且未定义任何字段),则系统将同时导入带标签的文档和架构。
如果新的 Data Manager 实例已定义字段,则新导入的数据集需要具有相同字段或这些字段的子集。否则,导入将被拒绝。
拆分大型数据集
当 RPA 工作流使用现有 ML 模型处理文档时,某些文档可能需要使用验证站点活动(在有人值守机器人上或使用 Orchestrator Action Center 的浏览器中提供)进行人工验证。
在验证站点中生成的已验证数据可以使用“机器学习提取程序训练器”活动导出,并可用于借助下方所述的功能来训练 ML 模型。
注意:对于验证站点数据集导入,则必须定义架构。
请按照以下步骤操作:
- 配置机器学习提取程序训练器,以将数据输出到路径为
<Trainer/Output/Folder>
的文件夹中(使用任何空文件夹路径)。 - 运行 RPA 工作流,包括验证站点和机器学习提取程序训练器。
- 机器学习提取程序训练器将在输出文件夹中创建三个子文件夹:文档、元数据和预测。
- 压缩
<Trainer/Output/Folder>
以获取.zip
文件,例如 TrainerOutputFolder.zip。 - 将
.zip
文件导入到 Data Manager 中,该文件管理器会检测导入是否包含机器学习提取程序训练器生成的数据,并相应地导入数据。
如果缺少数据集所需的字段,则导入对话框中将显示错误消息。