活动 - 文档数据

activities

latest

false

Document Understanding 活动

重要 :

请注意，此内容已使用机器翻译进行了部分本地化。新发布内容的本地化可能需要 1-2 周的时间才能完成。

文档数据

文档数据对象引用，用作 Document Understanding 工作流的主要输入和输出变量。

文档数据是在 Document Understanding 工作流中充当输入变量和输出变量的资源。文档数据对象保存有关单个文档的所有必要信息。如果您对文档进行分类，则对象包括文档类型。如果提取数据，则对象将包含相应的提取字段。无论何种活动，文档数据都会一致地包含文档的文本和 DOM（文档对象模型）。

使用文档数据，您可以：在一个变量中收集有关文档的所有必要信息，将数据保存到对象的每个属性，并将其重用于工作流中的其他活动。

文档数据保存有关以下属性的信息：

“文档类型” ：提供有关已识别的文档类型的数据，并由“分类文档”或“创建分类验证任务”等活动填充。
数据：包含提取的字段值。它由“生成数据”属性按需生成，该属性会生成IDocumentData<ExtractorType>的输出类型。当生成数据属性设置为False时，您只能通过Get类型的方法访问提取的字段值。
“文件详细信息” ：包含有关IResource详细信息。
备注：
IResource是一个通用指针，可用于查找和访问跨平台工作流中使用的数据。IResource充当容器，存储对本地数据（例如本地文件）或外部数据（例如云文件）的引用，这些数据不仅保存在当前工作流中。此数据可来自各种来源。有关IResource及其公开的属性的更多信息，请访问使用文件和文件夹资源。
“子文档” ：包括文档数据的集合，由“创建分类验证任务”等活动填充。
“文档元数据” ：包含有关处理文档的信息，例如：
- 检测到的文本语言
- 作为数据表提取的字段
- 文档对象模型 (DOM) ：保存所有活动使用的文档对象模型。文档元数据由首先处理文档的活动更新。填充后，元数据将与接收文档数据对象的所有后续活动共享和使用。
  提示：
  除非某个活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动，否则请使用“文档数据”作为输入。仅当活动是属于 Studio 工作流一部分的第一个 Document Understanding 活动时，才可使用“文件”变量作为输入。

了解和访问数据

文档数据包含有关提取结果的详细信息。数据可以是两种类型，具体取决于您是选择按需生成数据（以便您可以在工作流中进一步使用该数据），也可以选择不生成数据（因此您可以对其执行get和set方法），用于高级实现，以提高灵活性。

“提取文档数据”活动中的“生成数据类型”属性允许您选择是否按需生成数据。请参阅以下场景：

当您将“生成数据类型”设置为True （默认设置）时：文档数据输出为IDocumentData<ExtractorType> 。此数据根据需要生成，并会根据在“提取文档数据”活动中所做的修改而发生更改。使用此设置，您无法更改验证站点中的文档类型，默认情况下选择 JIT（实时）。
When you set Generate Data Type to False: Document Data outputs as IDocumentData<DictionaryData>. With this setting, the Document Data property will not be generated anymore, and you won't be able to browse through it. You can access its data using specific methods, relying on the field ID. These IDs become available when configuring the document type or when retrieving the information using APIs. Visit Editing or adding new fields and Get the extraction request API for more information. As an alternative to these methods, you can navigate and edit the results in a fluent, strongly-typed way through the Handler property, which exposes an ExtractionResultHandler navigator.
- 当您将“生成数据类型”设置为False以进行生成式提取时，检索到的字段与提示中提供的名称相对应。例如，如果提示中的字段名称定义为a b c （包括空格），则在使用特定方法时，应使用与字段 ID 相同的名称。

将文档数据传递给活动

使用文档数据时，系统将根据输入文件创建第一个输出对象。创建此对象后，建议您将其传递到下一个活动中。通过将其传递给下一个活动，您可以重用原始文件中的文本和 DOM。此方法可避免每次都将文件重新数字化。

使用单值和多值字段的提取结果

如果您将文档类型字段配置为多值，则系统需要多个值。例如，表单上的多项选择题。结果显示在字段的多值属性中，并作为列表返回。如果将文档类型字段配置为单个值，则系统默认在该字段的值属性中返回结果。

下表显示了文档数据如何返回单值字段和多值字段：

表格 1. 文档数据为单值字段和多值字段返回的值

	没有价值	拥有一个值	具有两个或多个值	DocumentData.Data.FieldName.Value	DocumentData.Data.FieldName.MultiValues
单一值	是	否	不适用	""	null
单一值	否	是	不适用		null
多值	是	否	否	""	[]（空数组）
多值	否	是	否		[<其中一个值与`.Value`相同的数组>]
多值	否	否	是		[< 包含`n`值的数组，第一个值与`.Value`的值相同>]

以数据表形式返回提取的字段

您可以使用文档数据对象，将从文档中提取的字段作为数据表返回。然后，您可以在Excel 活动中使用数据表变量。

要将提取的字段作为数据表返回，请为“提取文档数据” 活动选择“结果作为数据表”输出。

属性

“文档数据”变量的属性可由一个或多个活动填充和使用。根据填充变量的活动，属性可能有所不同。检查以下列表：

文档类型-分类文档活动填充以下值：
- 显示名称（用于自定义模型）：文档类型的名称。
- ID （用于开箱即用模型）：文档类型的名称。
- 可信度：分类的可信度。
- URL ：可访问文档类型的 URL；这可以是自定义的，也可以是预定义的，可通过 Document Understanding 中心中的相应项目引用。
字段- “提取文档数据” 、 “创建验证任务” 、 “创建验证任务并等待” 、 “等待验证任务”和“继续”活动填充以下值：
- 字段值（可选） ：字段的提取值。
- 提取可信度分数：模型提供的提取可信度分数。
- OCR 置信度分数（预览） ：OCR 引擎提供的置信度分数。
文件详细信息- 创建“文档数据”对象、接收文件作为输入的活动，填充以下值：
- Local Path: Local path of the file.
- “全名” ：文件的全名。
- Extension ：文件的扩展名。
- 页面范围（可选） ：文件的页面范围。
子文档：文档数据的集合，由“分类文档”活动填充。
备注：
当前未填充此属性，预计将在未来与分类验证和拆分功能一起添加。
文档元数据（） :
- DOM ：文档对象模型，由所有活动使用。（由创建文档数据对象的活动填充，并接收文件作为输入。）
- 文本（文本） ：所有提取的文本。（由创建文档数据对象的活动填充，并接收文件作为输入。）
- 语言（可选）：在文档中检测到的语言。（由创建文档数据对象的活动填充，并接收文件作为输入。）
- 拆分置信度：如果文档已拆分，则拆分模型将返回文档。（由“分类文档”活动填充）
  备注：
  当前未填充此属性，预计将在未来与分类验证和拆分功能一起添加。
- 结果为数据表：导出为数据表的字段。（由“提取文档数据”活动填充）。
Properties (advanced) - Holds the underlying processing context that the other members and methods read from. This property is hidden in the Studio designer, but it is publicly accessible in code. The convenience views on the output, such as the Handler property and the Get/Set methods, operate over the ExtractionResult exposed here. The property exposes the following values:
- ExtractionResult: The raw extraction result, used by the navigator and the Get/Set methods.
- Taxonomy: The document taxonomy, holding the field and table definitions.
- ClassificationResults: The classification results for the document.
- ProjectId, ExtractorId, ClassifierId: Identifiers of the project and the models used.
- ExtractorModelType, ClassifierModelType: The model types used for extraction and classification.

在此页面上

了解和访问数据
将文档数据传递给活动
使用单值和多值字段的提取结果
以数据表形式返回提取的字段
属性

此页面有帮助吗？

前一个项目兼容性

下一个方法

了解和访问数据​

将文档数据传递给活动​

使用单值和多值字段的提取结果​

以数据表形式返回提取的字段​

属性​

此页面有帮助吗？

了解和访问数据

将文档数据传递给活动

使用单值和多值字段的提取结果

以数据表形式返回提取的字段

属性