- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
Document Understanding 用户指南
数据提取概述
数据提取是 Document Understanding 框架中的一个组件,有助您从文档类型中识别自己感兴趣的非常具体的信息。
可作为数据提取目标的信息在项目分类中定义,即其中定义的特定文档类型的字段列表。对于项目分类中未显示的字段,无法进行自动数据提取配置。
Document Understanding 框架的数据提取步骤可确保以正确的顺序为正确的字段列表和处理中文件的正确页面范围调用配置的提取程序。这意味着,如果在同一文件中发现两种或两种以上文档类型(针对不同的页面范围),建议您多次执行数据提取步骤,每个分类结果执行一次。对具有特定页面范围的一个分类结果执行数据提取,可确保作为提取目标的数据仅出自这些页面,并且仅用于该文档类型。
您可以通过“数据提取作用域”活动来完成数据提取。要提取文档数据,您可以使用一个或多个提取程序,这是因为作用域活动的作用是配置和执行一个或多个用于数据提取的算法,并提供简单统一的配置选项,满足您的所有需求。
简而言之,“数据提取作用域”的执行内容如下:
- 为所有提取程序(提取算法)提供运行所需的必要配置和输入。
- 接受一个或多个提取程序。
- 允许在提取程序级别执行字段级别激活、分类映射和最低可信度阈值设置。
- 以统一方式报告提取的数据,而不论报告该特定数据的提取程序为何。
“数据提取作用域”允许您使用配置提取程序向导对其进行配置。您可以自定义
- 从每个提取程序请求哪些字段,
- 每个分类器可接受的给定数据点提取程序的最低可信度阈值是多少,
- 项目分类和提取程序的内部分类(如有)之间在字段级别的分类映射是什么。
在混合方法中,您可以混合搭配提取程序,您可以请求由某个提取程序提取一些字段,而由另一个提取程序提取其他字段。
您甚至可以实施“回退”规则进行数据提取:如果某个特定的提取程序未针对给定字段报告可接受的值,则调用备份提取程序。
务必注意,数据提取作用域中提取程序的顺序非常重要:
- 按从左到右的优先顺序执行提取程序;
- 只有当某个字段的提取值的可信度等于或高于为该提取程序设置的最低可信度阈值时,系统才会接受该提取值;
- 仅针对规定的分类页面范围执行提取程序,并且仅针对根据数据提取作用域配置请求的字段以及尚未从前面的提取程序获得可接受结果的字段执行提取程序。
重要提示:
并非所有提取程序都始终会得到执行
如果“数据提取作用域”未从给定提取程序请求任何字段,则不执行该提取程序。例如,提取程序未针对特定的传入文档类型进行配置,或者提取程序用作“回退”,并且先前的提取程序已报告所有预期数据。
根据用例的要求,您可以从多种数据提取算法(称为“提取程序”)中选择。
您可以使用 UiPath.IntelligentOCR.Activities 包、其他 UiPath (UiPath.DocumentUnderstanding.ML.Activities) 或第三方包 (UiPath.Abbyy.Activities) 中可用的任何提取程序。
可用的提取程序包括:
您总是可以使用公共文档处理合同来构建自己的提取程序,因而能够实现任何适合自己用例的算法。