UiPath Documentation
activities
latest
false

Document Understanding 活动

上次更新日期 2026年5月5日

将文档数字化

UiPath.IntelligentOCR.Activities.Digitization.DigitizeDocument

描述

将文档数字化,提取其“文档对象模型”(DOM) 和文本,并将提取内容存储在相应类型的变量中。

备注:

您必须为此活动分配 OCR 引擎,方法是将其拖动到活动主体中。仅当传入文档需要 OCR 处理时,才会使用所选 OCR 引擎。请访问OCR 引擎,查看可用的 OCR 引擎。所选 OCR 引擎的输入和输出参数由“数字化文档”活动自动设置。

项目兼容性

Windows - Legacy | Windows

配置

属性面板

常见

  • “显示名称”- 活动的显示名称。

输入

  • 将 OCR 应用于 PDF - 确定是否应将 OCR 流程应用于 PDF 文档。如果设置为“是” ,则 OCR 将应用于文档的所有 PDF 页面。如果设置为“否” ,则仅提取以数字方式输入的文本。默认值为“自动” ,根据输入文档确定文档是否需要应用 OCR 算法。

  • “并行度” - 指定要并行分析的页面数量(如有)。-1值使用“计算机上的核心数量 - 1”。这意味着该活动会尝试并行处理与“核心数 - 1”值相同数量的页面,而指定正值时将使用特定数量的逻辑处理器。默认情况下,此属性设置为-1

    此属性接受不大于LogicalProcessorCount - 1的任何值。

  • 检测复选框 - 在将文档数字化时检测文档中的可用复选框。默认值为 True

  • 文档路径- 要数字化的文档的文件路径。此字段仅支持字符串和 String 变量。

    备注:
    • 对于原生 PDF 文档,将“将 OCR 应用于 PDF”属性设置为“是” ,这些文档包含徽标、隐藏图像或其他会损坏数字化输出并可能导致提取和/或分类效果不佳的元素。
    • PDF 文件中的文本提取已升级。如此一来,便可同时检索原生文本和扫描文本,从而优化提取流程。该流程仅将 OCR 应用于 PDF 文件中标识的图像。仅当“将 OCR 应用于 PDF”选项设置为“自动”时,此改进才可用。
    备注:

    该属性字段支持的文件类型为.png.jpe.jpg.jpeg.tiff.tif.pdf

其他

  • “私有”- 选中后将不再以“Verbose”级别记录变量和参数的值。

输出

  • DocumentObjectModel - The Document Object Model (DOM) of the file, stored in a Document variable. This field supports only Document variables.
  • 文档文本- 从指定文档中提取的文本。该变量随后可用于呈现验证站点活动。此字段仅支持 String 变量。
    备注:

    从 UiPath.IntelligentOCR.Activities 包 v6.3.0 预览版开始, “数字化文档”活动附带默认预选的 OCR 引擎,即UiPath™ 文档 OCR引擎。

两个输出变量(由于从属而配对)都可以在整个文档处理框架(分类、数据提取、人工验证等)的文档处理中进一步使用。

重要

如果 UiPath.IntelligentOCR.Activities 程序包已更新到 v5.1.0,则强制应用 OCR 参数已替换为将 OCR 应用于 PDF 参数。以下是新旧参数之间的兼容性:

  • 强制应用 OCR = True”替换为“将 OCR 应用于 PDF = ”;
  • 强制应用 OCR = False”替换为“将 OCR 应用于 PDF = 自动”;
  • “强制应用 OCR =空白”替换为“将 OCR 应用于 PDF =自动”
  • 强制应用 OCR = 您定义的变量由“将 OCR 应用于 PDF”替换 =自动
备注:

“数字化文档”活动从 PDF 文件中提取文本,对于复杂的文档,“数字化文档”活动应用预处理和后处理算法。此活动可与其他 Document Understanding 活动一起使用。

文档对象模型

文档对象模型在专有对象中捕获。有关更多信息,请访问文档类

提示:

要成功将文档数字化并进行处理,请考虑以下建议:

  • 要成功对图像进行数字化/处理,图像的宽度和高度尺寸应在 50 到 10000 像素之间。系统会拒绝不在此范围内的任何图像,并显示异常消息。如果图像经验证具有前述尺寸且总大小大于 1400 万像素,则系统会将该图像缩小到 1400 万像素,同时保持原先的纵横比(宽度与高度之比)。
  • 通过将倾斜角保持在 +/- 20 度之间,可以获得最佳结果。

使用“数字化文档”活动的示例

请访问手动验证文档数字化,查看在包含多个活动的示例中如何使用“数字化文档”活动。

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新