活动
最新
False
- 概述
- 文档处理合同
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding 活动
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
Document Understanding 活动
上次更新日期 2024 年 4 月 10 日
提取文档数据
UiPath.IntelligentOCR.StudioWeb.Activities.ExtractDocumentDataWithDocumentData<UiPath.IntelligentOCR.StudioWeb.Activities.DataExtraction.ExtendedExtractionResultForDocumentData>
从输入文件或文档数据对象中提取数据,并将结果存储到文档数据对象(作为输入接收的对象或为输入文件新创建的对象)。
备注:
“提取文档数据”活动之前需要一个可提供文档数据对象的活动(由其他 Document Understanding 活动生成,例如“分类文档”)。
“提取文档数据”活动接收以下选项之一作为输入:
- 文档数据 - 来自“分类文档”活动
- 文件 - 来自“获取文件/文件夹”或“获取最新的电子邮件”活动
生成式模型支持的语言与所使用的 OCR 引擎相同。 有关更多信息,请查看OCR 支持的语言页面。
项目兼容性: 跨平台
属性
- 项目 - 要求您从下拉菜单中选择 Document Understanding 项目。可用选项包括:
- 预定义 - 默认项目
- 您可以转到 Document Understanding 来创建自定义项目。
- 提取程序 - 要求您从所选项目中选择提取程序。对于“预定义项目”,可用选项包括:
- 可在此处找到的任一 ML 包注意: “提取文档数据”活动会使用选定的提取程序覆盖文档类型。 这不适用于生成式模型。
- 生成式
- 可在此处找到的任一 ML 包
- “提示” - 如果您选择选项“生成”,则会显示此字段。 提示您识别要提取的字段,以键值对形式提供,其中键表示字段的名称,而值表示字段的说明,以帮助提取程序识别相应的值。 单击该字段,系统会提示您以下选项(以对形式提供):
- “字段名称”- 要求您输入要提取的字段名称,例如到期日期(最多 30 个字符)
- 生成性提示 - 要求您提供提示作为生成式提取程序的输入。(不得超过 500 个字符)
提示:有关如何使用生成式提示的良好做法,请查看生成提取程序 - 良好做法页面。 - “输入”- 如果您以前在工作流中使用过其他 Document Understanding 活动,则需要指定文件本身或文档数据(例如,“分类文档”)。
输入
- “超时(秒) ”(预览版)- 生成模型调用的最长执行时间(以秒为单位)。 如果操作超过此超时时间,系统会自动终止操作,以防止延迟或挂起。 仅当选择生成提取程序作为提取程序时,才会显示此属性。
输出
- 文档数据 - 从文件中提取的所有字段数据。 也可以从“ 分类文档”接收信息。
对于多值字段,系统会在“文档数据” 下返回所有值。 这些值可在
DocumentData.Data.FieldName.MultiValues[]
中找到。 如果多值值为null
,则表示相应的字段不是多值字段。 如果多值属性是一个数组(即使为空[]
),则表示相应的字段是多值字段。
注意:系统会将发送到生成式提取程序的数据发送到未公开可用的 LLM 模型实例,不会离开该实例,并且一旦处理完毕,系统不会存储该数据或将该数据用于训练。
注意:“提取文档数据”活动使用公共端点。