UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 用户指南

上次更新日期 2026年4月23日

基本功能

要自动化文档处理,需要四项基本功能:数字化、分类、提取和验证。

Figure 1. Fundamental capabilities 描述 Document Understanding 基本功能的示意图。系统首先要将文档数字化,然后将其分类,最后执行提取。分类和提取都有一个额外的验证步骤。

数字化

数字化将物理文档转换为机器可读文本,然后可以对文本进行数字化处理。尽管光学字符识别 (OCR) 是数字化的重要组成部分,但数字化流程更加复杂,涉及各个步骤,包括 OCR。

例如,在处理 PDF 文档时,数字化算法可以区分扫描 PDF 和原生 PDF,或者包含扫描图像和原生文本的混合 PDF。大多数文本可以直接从原生 PDF 文档中提取,但在某些情况下,可能需要使用 OCR 读取一些徽标。数字化流程可以处理所有这些情况,以确保文本检测具有最高的准确性,同时快速高效地运行。

You can change the OCR used in your project from Project settings. For more information, check the Configure project settings page. You can check the available OCR engines and the supported languages from the Supported languages section of the user guide.

You can check the Known limitations page for more information on the supported files, image size limits, and more specifications.

分类和拆分

备注:

Feature availability depends on the cloud platform that you use. For details, refer to the Choosing the deployment type page.

在大多数用例中,需要将文档按逻辑类别分类,以便对其应用不同的处理方法。文档排序流程涉及两项任务:

  • 拆分
  • 分类

根据问题的复杂性,您可能需要拆分文档和/或分类文档。

备注:

Document splitting is only available when used with IntelligentOCR.

拆分的目的是扫描文档的连续页面,并将其拆分为逻辑子文档。文档拆分器算法可以与文档类型无关,这意味着它可以拆分任何文档,无论它是发票、合同还是申请表单。

Figure 2. Document splitting 该图像描述如何将一个四页的文档拆分为三个不同的文档,每个文档具有不同的文档类型。

分类的目的是扫描文档并确定其所属的文档类型。了解文档的类型非常重要,因为不同的文档类型需要不同的处理技术。例如,发票需要由发票提取模型处理,以确保提取所有相关字段。

Figure 3. Document classifier 该图像描述未知文档类型的文档如何通过文档分类器。之后,该文档将被分类为发票。

提取

Data extraction is the process of selecting and retrieving only the relevant information from a document. Extracting specific data from a lengthy document using string manipulation can be challenging. However, Document UnderstandingTM provides various extraction methodologies for different document types and formats. For example, we only want to extract the Vendor Name, Billing Name, Due Date, and Total fields from an invoice.

Figure 4. Data extraction 描述如何从发票中提取数据的映像。提取的字段包括“供应商名称”、“账单名称”、“到期日期”和“总计”。

验证

在分类和提取中,软件机器人使用置信度概念,该概念用于衡量良好执行特定任务的确定性级别。此任务可能是识别文档类型、识别字段或读取其中的数据。在这些情况下,Document Understanding 框架允许您让人类用户来审核和验证机器人的输出。在最佳情况下,系统会使用人工输入,通过机器学习来训练机器人的准确性。

  • 数字化
  • 分类和拆分
  • 提取
  • 验证

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新