Document Understanding - 数字化概述

document-understanding

latest

false

Document Understanding 传统用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

数字化概述

Document Understanding 框架中的数字化组件，描述了如何将文档转换为计算机可读文本，这是文档处理的第一步。

数字化是指从给定的传入文件中获取机器可读文本的过程，以便机器人能够理解其中的内容并采取相应行动。对于需要通过 Document Understanding ^TM框架处理的文件，这是要应用的第一个步骤。

数字化步骤有两个输出：

已处理文件中的文本，存储在字符串变量中；以及
文件的文档对象模型 - JSON 对象，其中包含名称、内容类型、文本长度、页数等基本信息，还有各种详细信息，例如页面旋转、检测到的语言、文件中每个字词的内容和坐标。

在文档处理框架中，使用“数字化文档”活动执行数字化。

尽管相关，但数字化步骤并非 OCR。

在许多情况下，需要处理的文件是原生 PDF 文件（未扫描），无需使用 OCR 即可由机器人以编程方式读取文件。

作为配置的一部分，“数字化文档”活动需要选择 OCR 引擎，以便可以在需要时使用，但仅对以下文件执行 OCR：

备注：

以下数字化限制适用：

如果“数字化文档”活动配置为将“强制应用 OCR”标志设为“True”，则仍应用 OCR。通常建议在以下情况下使用此选项：大部分文件似乎都包含原生内容，但原生读取的内容与用户在这些文件中看到的内容并不相符。

由于每个用例都有其自身的特殊性，因此强烈建议使用不同的设置测试所有可用的OCR 引擎，以确定哪个引擎最适合您的项目。另一个建议是要特别注意 OCR 引擎的参数，例如Profile 、 Scale 、 Language等（可能因引擎而异），以便为每个用例确定最佳设置。

在此页面上

前一个数字化

下一个数字化相关活动