Document Understanding 新式项目用户指南

适用平台：

Automation Cloud Automation Cloud Public Sector Automation Suite Standalone

上次更新日期 2025年2月20日

基本功能

要自动化文档处理，需要四项基本功能：数字化、分类、提取和验证。

图 1. 基本功能

数字化

数字化将物理文档转换为机器可读文本，然后可以对文本进行数字化处理。尽管光学字符识别 (OCR) 是数字化的重要组成部分，但数字化流程更加复杂，涉及各个步骤，包括 OCR。

例如，在处理 PDF 文档时，数字化算法可以区分扫描 PDF 和原生 PDF，或者包含扫描图像和原生文本的混合 PDF。大多数文本可以直接从原生 PDF 文档中提取，但在某些情况下，可能需要使用 OCR 读取一些徽标。数字化流程可以处理所有这些情况，以确保文本检测具有最高的准确性，同时快速高效地运行。

您可以在“项目设置”中更改项目中使用的 OCR。有关更多信息，请查看“配置项目设置”页面。您可以在用户指南的“支持的语言”部分查看可用的 OCR 引擎和支持的语言。

您可以查看“已知限制”页面，详细了解支持的文件、图像大小限制和更多规范。

分类和拆分

在大多数用例中，需要将文档按逻辑类别分类，以便对其应用不同的处理方法。文档排序流程涉及两项任务：

拆分
分类

根据问题的复杂性，您可能需要拆分文档和/或分类文档。

注意：文档拆分仅在与“智能 OCR”一起使用时可用。

拆分的目的是扫描文档的连续页面，并将其拆分为逻辑子文档。文档拆分器算法可以与文档类型无关，这意味着它可以拆分任何文档，无论它是发票、合同还是申请表单。

图 2. 文档拆分

该图像描述如何将一个四页的文档拆分为三个不同的文档，每个文档具有不同的文档类型。

分类的目的是扫描文档并确定其所属的文档类型。了解文档的类型非常重要，因为不同的文档类型需要不同的处理技术。例如，发票需要由发票提取模型处理，以确保提取所有相关字段。

图 3. 文档分类器该图像描述未知文档类型的文档如何通过文档分类器。之后，该文档将被分类为发票。

提取

数据提取是指从文档中仅选择和检索相关信息的过程。使用字符串操作从长文档中提取特定数据可能具有挑战性。但是，Document Understanding^TM 为不同的文档类型和格式提供了各种提取方法。例如，我们只想从发票中提取“供应商名称”、“账单名称”、“到期日期”和“总计”字段。

图 4. 数据提取

验证

在分类和提取中，软件机器人使用置信度概念，该概念用于衡量良好执行特定任务的确定性级别。此任务可能是识别文档类型、识别字段或读取其中的数据。在这些情况下，Document Understanding 框架允许您让人类用户来审核和验证机器人的输出。在最佳情况下，系统会使用人工输入，通过机器学习来训练机器人的准确性。

在此页面上