- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
数据提取作用域的配置提取程序向导
通过“数据提取作用域”访问的配置提取程序向导让您可以选择要应用于每个文档类型和字段的提取程序。
单击“配置提取程序”按钮,即可从活动主体中打开该文件。将至少一个提取程序活动拖动到“数据提取作用域”活动的主体中后,此向导按钮将变为可用。此向导会显示分类中定义的所有文档类型及其相应的字段,并且您可以选择要为每个文档使用的提取程序。
您可在该向导中展开每个文档类型,查看其字段并选择要提取的相应字段。
“框架别名”字段可用于将提取程序映射到一个或多个训练器。例如,您可以为机器学习提取程序指定别名 R2D2,然后可以对机器学习提取程序训练器使用相同的别名。这将在提取程序和训练器之间创建链接,并且可以用于训练提取程序。每个提取程序都有唯一的别名,而多个不同的训练器可以共享相同的别名。
“最低可信度”字段可配置为 0 到 100 之间的值,该值表示用于界定合格提取数据的可信度阈值。如果选定字段所得结果的可信度级别低于可信度阈值,系统便不会在最终结果中报告该结果。
对于支持此功能的提取程序,可以使用“获取刷新提取程序功能”按钮,以轻松地将分类字段映射到可用的提取程序字段,或者在提取程序字段发生更改时刷新这些字段。
如果选中任何列中各相应字段旁的复选框,系统即会要求提取程序为指定字段提供值。如果清除复选框,提取数据时将忽略该字段。
使用每个文档字段旁的“文本字段”,您可以将“分类”中定义的字段映射到提取程序内部分类中定义的字段(如有)。
向导中的列数会因作用域活动中显示的提取程序数量而异。每列的名称由每个提取程序活动的显示名称指定。
如果活动中使用了多个提取程序,则这些提取程序在作用域中的排序将定义其优先级。例如,在上图中,如果“提取程序 1”为特定的请求字段返回了可接受的值(高于“最低可信度”级别),则在执行“提取程序 2”和“提取程序 3”时,系统不会请求该字段。如果“提取程序 1”和“提取程序 2”返回的值低于该特定字段的最低置信度级别,或者根本不返回任何值,则在满足置信度可接受性条件的情况下,系统将考虑“提取程序 3”的结果。