- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
文档数据
文档数据是在 Document Understanding 工作流中充当输入变量和输出变量的资源。 文档数据对象保存有关单个文档的所有必要信息。 如果您对文档进行分类,则对象包括文档类型。 如果提取数据,则对象将包含相应的提取字段。 无论何种活动,文档数据都会一致地包含文档的文本和 DOM(文档对象模型)。
使用文档数据,您可以:在一个变量中收集有关文档的所有必要信息,将数据保存到对象的每个属性,并将其重用于工作流中的其他活动。
文档数据保存有关以下属性的信息:
- “文档类型” : 提供有关已识别文档类型的数据,并由“文档分类” 或“创建分类验证任务” 等活动填充。
- 数据:包含提取的字段值。 它由生成数据属性按需生成,该属性会生成
IDocumentData<ExtractorType>
输出类型。 当生成数据属性设置为False
时,您只能通过Get
类型的方法访问提取的字段值。 - 文件详细信息:包含有关
IResource
的详细信息。 - 子文档:包括文档数据集合,由“创建分类验证任务”等活动填充。
- “文档元数据”:包含有关处理文档的信息,例如:
- 检测到的文本语言
- 作为数据表提取的字段
- 文档对象模型 (DOM) :保存所有活动都使用的文档对象模型。
提示:除非某个活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动,否则请使用“文档数据”作为输入。仅当活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动时,才可使用“文件”变量作为输入。
get
和set
方法,对于高级实现,以增加灵活性。
使用“提取文档数据”活动中的“生成数据类型”属性,您可以选择是否按需生成数据。 请参考以下场景:
- 当您将“生成数据类型”设置为
True
(默认设置)时:“文档数据”输出为IDocumentData<ExtractorType>
。 此数据根据需要生成,并会根据在“提取文档数据”活动中进行的修改而更改。 使用此设置,您无法更改“验证站点”中的文档类型,并且默认选择 JIT(实时)。 - 当您将“生成数据类型”设置为
False
时:文档数据输出为IDocumentData<DictionaryData>
。 使用此设置,将不再生成“文档数据”属性,并且您将无法浏览它。您可以根据字段 ID,使用特定方法访问其数据。 在配置文档类型或使用 API 检索信息时,这些 ID 可用。 有关更多信息,请访问编辑或添加新字段和获取提取请求 API 。
- 当您将“生成数据类型”设置为
False
进行生成提取时,检索到的字段与提示中提供的名称相对应。 例如,如果提示中的字段名称定义为a b c
(包括空格),则在使用特定方法时,应使用与字段 ID 相同的名称。
- 当您将“生成数据类型”设置为
使用文档数据时,系统将根据输入文件创建第一个输出对象。 创建此对象后,建议您将其传递到下一个活动中。 通过将其传递给下一个活动,您可以重用原始文件中的文本和 DOM。 此方法可避免每次都将文件重新数字化。
如果您将文档类型字段配置为多值,则系统需要多个值。 例如,表单上的多项选择题。 结果显示在字段的多值属性中,并作为列表返回。 如果将文档类型字段配置为单个值,则系统默认在该字段的值属性中返回结果。
下表显示了文档数据如何返回单值字段和多值字段:
没有价值 | 拥有一个值 | 具有两个或多个值 | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues | |
---|---|---|---|---|---|
单一值 | 是 | 否 | 不适用 | "" | null |
单一值 | 否 | 是 | 不适用 | <value that was identified> | null |
多值 | 是 | 否 | 否 | "" | [](空数组) |
多值 | 否 | 是 | 否 | <value that was identified> | [<其中一个值与.Value 相同的数组>]
|
多值 | 否 | 否 | 是 | <first value that was identified> | [< 包含n 值的数组,第一个值与.Value 的值相同>]
|
您可以使用文档数据对象将从文档中提取的字段作为数据表返回。 然后,您可以在Excel 活动中使用数据表变量。
“文档数据”变量的属性可由一个或多个活动填充和使用。根据填充变量的活动,属性可能有所不同。检查以下列表:
- “文档类型” - “分类文档”活动填充以下值:
- 显示名称(用于自定义模型):文档类型的名称。
- ID (用于开箱即用模型):文档类型的名称。
- 可信度:分类可信度。
- URL :可访问文档类型的 URL;这可以是自定义,也可以是预定义的,可通过 Document Understanding 中心中的相应项目引用。
- 字段-提取文档数据、创建验证任务、创建验证任务并等待、等待验证任务和继续活动填充以下值:
- “字段值”:字段的提取值。
- 提取可信度分数:由模型提供的提取的可信度分数。
- OCR 置信度分数: OCR 引擎提供的置信度分数。
- 文件详细信息- 创建文档数据对象、接收文件作为输入的活动,填充以下值:
- “全名”:文件的全名。
- Extension : 文件的扩展名。
- 页面范围:文件的页面范围。
- 子文档: 文档数据的集合,由“分类文档”活动填充。
注意:当前未填充此属性,预计将在未来与分类验证和拆分功能一起添加。
- DocumentMetaData: