Document Understanding
2022.4
False
横幅背景图像
Document Understanding 用户指南
上次更新日期 2024年3月13日

数字化概述

什么是数字化

数字化是指从给定的传入文件中获取机器可读文本的过程,以便机器人能够理解其中的内容并采取相应行动。对于需要通过 Document Understanding 框架处理的文件,这是要应用的第一个步骤。

数字化步骤有两个输出:

  • 已处理文件中的文本存储在字符串变量中;以及
  • 文件的文档对象模型 - JSON 对象,其中包含名称、内容类型、文本长度、页数等基本信息,还有各种详细信息,例如页面旋转、检测到的语言、文件中每个字词的内容和坐标。

在文档处理框架中,使用“数字化文档”活动执行数字化。

什么不是数字化

尽管相关,但数字化步骤并非 OCR

通常情况下,需要处理的文件是原生 PDF 文件(未扫描),无需使用 OCR 即可由机器人以编程方式读取文件。

何时在数字化中使用 OCR

作为配置的一部分,“数字化文档”活动需要选择 OCR 引擎,以便可以在需要时使用,但仅对以下文件执行 OCR:

  • 图像文件

    • 支持的图像格式为 .png、.gif、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
    • 对于多页 TIFF 文件,则对每一页应用 OCR
  • 以下 PDF 页面:

    • 不会公开任何计算机可读内容
    • 其中包含覆盖页面很大一部分的图像。

如果“数字化文档”活动配置为将“强制应用 OCR”标志设为“True”,则仍应用 OCR。通常建议在以下情况下使用此选项:大部分文件似乎都包含原生内容,但原生读取的内容与用户在这些文件中看到的内容并不相符。

如何选择 OCR 引擎

由于每个用例都有其自身的特殊性,因此强烈建议使用不同的设置测试所有可用的 OCR 引擎,以确定哪个引擎最适合您的项目。另一个建议是要特别注意 OCR 引擎的参数,例如 ProfileScaleLanguage 等(可能因引擎而异),以便为每个用例确定最佳设置。

  • 什么是数字化
  • 什么不是数字化
  • 何时在数字化中使用 OCR
  • 如何选择 OCR 引擎

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.