Document Understanding 用户指南

简介

UiPath Document Understanding 框架可简化对传入文件的处理，从文件数字化到验证提取的数据，全部在开放、可扩展且通用的环境中完成。

Document Understanding 旨在帮助您结合使用不同的方法，从多种文档类型中提取信息。其主要目的是尽量简化数据提取过程：创建一个可从各种文档中提取数据的工作流。

在使用 Document Understanding 框架之前，建议您先了解以下 Document Understanding 框架组件：

分类 需要处理哪些文档？需要其中的哪些数据？
用于定义文档类型和针对每种文档类型的数据提取（字段）的信息片段，并将此信息形式化为专用的分类结构。此元数据信息通过分类管理器进行管理。
数字化 此文件包含哪些内容？
用于获取传入文档的文本内容和结构，将文件转换为计算机可读内容，以便在下游做进一步处理。
此文件包含分类中的哪些文档类型？
用于自动确定在数字化的文件中可以找到哪些文档类型。
分类预测是否正确？我就是通过这种方式来执行审核和更正的。
用于协助人工验证和更正自动分类及文档拆分结果。
数据是否经过人工审核？机器人正是通过这种方式来学习的。
用于将人工验证后的信息传递回分类器，用于改进分类器未来的预测功能。
数据提取 在此特定文档中可以找到哪些数据？
用于在给定的输入文档和分类页面范围内捕获已识别的文档类型所需的信息。
数据提取验证 提取的信息是否正确？我就是通过这种方式来执行审核和更正的。
用于协助人工验证和更正自动提取的数据结果。
数据提取训练 数据是否经过人工审核？机器人正是通过这种方式来学习的。
用于将人工验证后的提取数据传递回提取程序，利用它来改进提取预测。
数据消耗
用于导出经验证的数据以便使用。

下图显示 Document Understanding 框架的各个组件以及它们之间的相互关系：

Document Understanding 框架位于“智能 OCR”活动包中。安装 UiPath.IntelligentOCR.Activities 包后，UiPath Studio 的顶部功能区中将显示分类管理器向导。此同一包中包含 Document Understanding 框架的所有核心活动。

这些“作用域”活动（“对文档作用域进行分类”、“数据提取作用域”、“训练分类器作用域”、“训练提取程序作用域”）属于 Document Understanding 框架的一部分，允许您使用适合用例的任何文档分类和数据提取算法，然后训练这些算法。

Document Understanding 框架不仅可以与开箱即用的分类器和提取程序一起使用，还可以与任何自定义构建的分类器和提取程序一起使用。这些活动可以使用 UiPath.DocumentProcessing.Contracts 包中的抽象类创建，并且可以作为分类或数据提取活动来实现。您还可以使用 UiPath.OCR.Contracts 包中的抽象类创建自定义 OCR 引擎。

资源

可以在 UiPath RPA Academy 中找到专门的 Document Understanding 课程。

UiPath Community 论坛是通过我们不断发展的用户社区获得支持的地方。

在此页面上

资源

此页面有帮助吗？

下一个分类