- 概述
- 文档处理合同
- 发行说明
- 关于文档处理合同
- Box 类
- IPersistedActivity 接口
- PrettyBoxConverter 类
- IClassifierActivity 接口
- IClassifierCapabilitiesProvider 接口
- 分类器文档类型类
- 分类器结果类
- 分类器代码活动类
- 分类器原生活动类
- 分类器异步代码活动类
- 分类器文档类型功能类
- 提取程序异步代码活动类
- 提取程序代码活动类
- 提取程序文档类型类
- 提取程序文档类型功能类
- 提取程序字段功能类
- 提取程序原生活动类
- 提取程序结果类
- ICapabilitiesProvider 接口
- IExtractorActivity 接口
- 提取程序有效负载类
- 文档操作优先级枚举
- 文档操作数据类
- 文档操作状态枚举
- 文档操作类型枚举
- 文档分类操作数据类
- 文档验证操作数据类
- 用户数据类
- 文档类
- 文档拆分结果类
- DomExtensions 类
- 页类
- 页面分区类
- 多边形类
- 多边形转换器类
- 元数据类
- 词组类
- 词类
- 处理源枚举
- 结果表格单元类
- 结果表值类
- 结果表列信息类
- 结果表类
- 旋转枚举
- 分区类型枚举
- 词组类型枚举
- IDocumentTextProjection 接口
- 分类结果类
- 提取结果类
- 结果文档类
- 结果文档范围类
- 结果数据点类
- 结果值类
- 结果内容引用类
- 结果值令牌类
- 结果派生字段类
- 结果数据源枚举
- 结果常量类
- 简单字段值类
- 表字段值类
- 文档组类
- 文档分类类
- 文档类型类
- 字段类
- 字段类型枚举
- 语言信息类
- 元数据输入类
- 文本类型枚举
- 类型字段类
- ITrackingActivity 接口
- ITrainableActivity 接口
- ITrainableClassifierActivity 接口
- ITrainableExtractorActivity 接口
- 可训练的分类器异步代码活动类
- 可训练的分类器代码活动类
- 可训练的分类器原生活动类
- 可训练的提取程序异步代码活动类
- 可训练的提取程序代码活动类
- 可训练的提取程序原生活动类
- Document Understanding 数字化器
- Document Understanding ML
- Document Understanding OCR 本地服务器
- Document Understanding 流程:Studio 模板
- Document Understanding
- 智能 OCR
- ML 服务
- OCR
- OCR 合同
- OmniPage
- PDF
- [未公开] Abbyy
- [未列出] Abbyy 嵌入式
将文档数字化
UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument
将文档数字化,提取其“文档对象模型”(DOM) 和文本,并将提取内容存储在相应类型的变量中。
常见
- “显示名称”- 活动的显示名称。
输入
- 将OCR 应用于 PDF - 确定是否应将 OCR 流程应用于 PDF 文档。 如果设置为 “是”,则 OCR 将应用于文档的所有 PDF 页面。 如果设置为 “否”,则仅提取以数字方式键入的文本。 默认值为“ 自动”,根据输入文档确定文档是否需要应用 OCR 算法。
- “并行度” - 指定要并行分析的页面数量(如果有)。
-1
值使用“计算机上的核心数 - 1”(意味着它尝试并行处理与核心数 - 1 值一样多的页面),而指定正值则使用该特定数量的逻辑处理器. 默认情况下,此属性设置为-1
。 - 检测复选框 - 将文档数字化时检测文档中的可用复选框。 默认值为 True。
-
文档路径- 要数字化的文档的文件路径。此字段仅支持字符串和字符串变量。
备注:- 如果无法对具有足够数据的文档进行分类,请在“ 数字化文档”活动中将“ 将 OCR 应用于 PDF”属性设置为“是”。
- 从 PDF 文件中提取文本已升级,从而优化了提取流程,在该流程中,可同时检索原生文本和扫描文本,并且 OCR 仅应用于 PDF 文件中识别的图像。 仅当“应用 OCROnPDF” 选项设置为“自动”时,此改进才可用。
注意:此属性字段支持的文件类型包括.png
、.jpe
、.jpg
、.jpeg
、.tiff
、.tif
和.pdf
。
其他
- “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。
输出
- DocumentObjectModel - 文件的文档对象模型 (DOM),存储在
Document
变量中。 此字段仅支持Document
变量。 -
文档文本- 从指定文档中提取的文本。该变量随后可用于呈现验证站点活动。此字段仅支持字符串变量。
注意:从 UiPath™.IntelligentOCR.Activities 包 v6.3.0 预览版开始,“数字化文档”活动附带默认预选的 OCR 引擎,即UiPath™文档 OCR 引擎。
这两个输出变量(按依赖项配对)可在整个文档处理框架(分类、数据提取、人工验证等)的文档处理中进一步使用
如果 UiPath.IntelligentOCR.Activities 包已更新到 v5.1.0, 则 ForceApplyOCR 参数已替换为 ApplyOcrOnPDF。 以下是新旧参数之间的兼容性:
-
“强制应用 OCR = True”正在替换为“将 OCR 应用于 PDF = Yes”
-
ForceApplyOCR = False 正在替换为 ApplyOcrOnPDF = Auto • ForceApplyOCR = Empty 正在替换为 ApplyOcrOnPDF = Auto
-
ForceApplyOCR = <用户定义的变量> 正在替换为 ApplyOcrOnPDF = Auto
文档对象模型 在 此处记录的专有对象中捕获。
要成功对图像进行数字化/处理,图像的宽度和高度尺寸应在 50 到 10000 像素之间。系统会拒绝不在此范围内的任何图像,并显示异常消息。如果图像经验证具有前述尺寸且总大小大于 1400 万像素,则该图像将缩小到 1400 万像素,同时保持纵横比(宽度与高度之比)。
已改进扫描文档的 OCR 结果,现在,将倾斜角度保持在 +/- 20 度之间可获得最佳结果。