document-understanding

2024.10

true

Document Understanding 用户指南

适用平台：

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2024年12月18日

数字化概述

什么是数字化

Digitization is the process of obtaining machine readable text from a given incoming file, so that a robot can then understand its contents and act upon them. It is the first step applied on files that need to be processed through the Document Understanding^TM framework.

数字化步骤有两个输出：

已处理文件中的文本，存储在字符串变量中；以及
文件的文档对象模型 - JSON 对象，其中包含名称、内容类型、文本长度、页数等基本信息，还有各种详细信息，例如页面旋转、检测到的语言、文件中每个字词的内容和坐标。

在文档处理框架中，使用“数字化文档”活动执行数字化。

什么不是数字化

尽管相关，但数字化步骤并非 OCR。

在许多情况下，需要处理的文件是原生 PDF 文件（未扫描），无需使用 OCR 即可由机器人以编程方式读取文件。

何时在数字化中使用 OCR

作为配置的一部分，“数字化文档”活动需要选择 OCR 引擎，以便可以在需要时使用，但仅对以下文件执行 OCR：

图像文件
- 支持的图像格式为 .png、.jpe、.jpg、.jpeg、.tiff、.tif、.bmp
- 对于多页 TIFF 文件，则对每一页应用 OCR
以下 PDF 页面：
- 不会公开任何计算机可读内容
- 其中包含覆盖页面很大一部分的图像。

注意：以下数字化限制适用：

文件大小限制为 160 MB。
每个文档最多包含 500 页。

如果“数字化文档”活动配置为将“强制应用 OCR”标志设为“True”，则仍应用 OCR。通常建议在以下情况下使用此选项：大部分文件似乎都包含原生内容，但原生读取的内容与用户在这些文件中看到的内容并不相符。

如何选择 OCR 引擎

由于每个用例都有其自身的特殊性，因此强烈建议使用不同的设置测试所有可用的 OCR 引擎，以确定哪个引擎最适合您的项目。另一个建议是要特别注意 OCR 引擎的参数，例如Profile、Scale、Language 等（可能因引擎而异），以便为每个用例确定最佳设置。

在此页面上

什么是数字化
什么不是数字化
何时在数字化中使用 OCR
如何选择 OCR 引擎

此页面有帮助吗？

前一个数字化

下一个数字化相关活动

支持与服务

获取您需要的帮助

了解 RPA - 自动化课程

UiPath Community 论坛

信任与安全

© 2005-2024 UiPath。保留所有权利。