活动
最新
False
- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
上次更新日期 2024年4月29日
文档数据
文档数据是在 Document Understanding 工作流中充当输入变量和输出变量的资源。 文档数据对象保存有关单个文档的所有必要信息。 如果您对文档进行分类,则对象包括文档类型。 如果提取数据,则对象将包含相应的提取字段。 无论何种活动,文档数据都会一致地包含文档的文本和 DOM(文档对象模型)。
使用文档数据,您可以:在一个变量中收集有关文档的所有必要信息,将数据保存到对象的每个属性,并将其重用于工作流中的其他活动。
文档数据保存有关以下属性的信息:
- 文档类型 : 提供有关已识别文档类型的数据,并由“文档分类”或“创建分类验证任务”等活动填充
- 数据: 包含提取的字段值,由提取文档数据或创建文档验证任务等活动填充
- 文件详细信息:包含有关
IResource
的详细信息。 - 子文档:包括文档数据集合,由“创建分类验证任务”等活动填充。
- “文档元数据”:包含有关处理文档的信息,例如:
- 检测到的文本语言
- 作为数据表提取的字段
- 文档对象模型 (DOM) :保存所有活动都使用的文档对象模型。
提示:除非某个活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动,否则请使用“文档数据”作为输入。仅当活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动时,才可使用“文件”变量作为输入。
“文档数据”变量的属性可由一个或多个活动填充和使用。根据填充变量的活动,属性可能有所不同。
属性名称 | 属性 | 描述 | 填充值的活动 |
---|---|---|---|
文档类型 | 显示名称(用于自定义模型) | 文档类型的名称 | 分类文档 |
ID(用于开箱即用模型) | 文档类型的名称 | ||
可信度 | 分类置信度 | ||
URL | 可访问“文档类型”的 URL;这可以是自定义 URL 或预定义 URL,可通过 Document Understanding 中心中的相应项目引用。 | ||
字段 | 字段值 | 字段的提取值 | |
提取可信度分数 | 模型提供的提取置信度分数 | ||
OCR 可信度分数 | OCR 引擎提供的置信度分数 | ||
文件详细信息 | 全名 | 文件的完整名称 | 创建文档数据对象并接收文件作为输入的活动 |
扩展程序 | 文件的扩展名 | ||
页面范围 | 文件的页面范围 | ||
子文档 | 不适用 | 文档数据集合
注意:当前未填充此属性,预计将在未来与分类验证和拆分功能一起添加。
| 分类文档 |
元数据 | 不适用 | 有关处理文档的信息 | 创建文档数据对象并接收文件作为输入的活动。 |
DOM | 不适用 | 由所有活动使用的文档对象模型 | |
文本 | 不适用 | 所有提取的文本 | |
检测到的语言 | 不适用 | 在文档中检测到的语言 | |
拆分置信度 | 不适用 | 如果文档已拆分,则由拆分模型返回文档
注意:当前未填充此属性,预计将在未来与分类验证和拆分功能一起添加。
| 分类文档 |
数据表格式的结果 | 不适用 | 导出为数据表的字段 | 提取文档数据 |
使用文档数据时,系统将根据输入文件创建第一个输出对象。 创建此对象后,建议您将其传递到下一个活动中。 通过将其传递给下一个活动,您可以重用原始文件中的文本和 DOM。 此方法可避免每次都将文件重新数字化。
如果您将文档类型字段配置为多值,则系统需要多个值。 例如,表单上的多项选择题。 结果显示在字段的多值属性中,并作为列表返回。 如果将文档类型字段配置为单个值,则系统默认在该字段的值属性中返回结果。
下表显示了文档数据如何返回单值字段和多值字段:
字段类型 | 没有价值 | 拥有一个值 | 具有两个或多个值 | DocumentData.Data.FieldName.Value | DocumentData.Data.FieldName.MultiValues |
---|---|---|---|---|---|
单一值 | 是 | 否 | 不适用 | "" | null |
单一值 | 否 | 是 | 不适用 | <value that was identified> | null |
多值 | 是 | 否 | 否 | "" | [](空数组) |
多值 | 否 | 是 | 否 | <value that was identified> | [<其中一个值与.Value 相同的数组>]
|
多值 | 否 | 否 | 是 | <first value that was identified> | [< 包含n 值的数组,第一个值与.Value 的值相同>]
|
您可以使用文档数据对象将从文档中提取的字段作为数据表返回。 然后,您可以在Excel 活动中使用数据表变量。