Document Understanding 用户指南

适用平台：

上次更新日期 2025年11月19日

关键概念

熟悉 UiPath™ Document Understanding^TM 的核心概念。

主动学习是我们为 Document Understanding^TM 创建模型的新式方法。

主动学习提供了一种交互式体验，其中学习算法可以查询用户，以使用所需的输出标记数据。此流程有助于将训练机器学习模型所需的时间和数据减少多达 80％。AI 用于指导流程，其中包括自动标注，这通常是最耗时的任务。该模型还使用内容丰富的数据集提供专家建议，以提高准确性。

图 1. 主动学习的工作原理

使用主动学习，您还可以通过分析功能监控自动化。

文档类型是指根据文档的内容、格式、目的或其他区别因素对文档进行的分类。相关示例包括发票、收据、合同、报告、医疗记录、法律文档等。

某些文档类型具有高度结构化的内容，而其他文档类型则主要包含自由文本。基于此，文档分为三种主要格式：

To learn more about document types, check the Document types section.

生成式 AI 是 AI 技术的一种形式，它利用机器学习 (ML) 模型创建和生成新的内容、数据或信息。

大多数生成式 AI 任务的关键是大型语言模型 (LLM)。这些是基于大量文本数据进行训练的 ML 模型，旨在生成拟人化文本。LLM 还可以通过拟人化的方式完成句子或段落来理解和回应提示。

在 Document Understanding^TM 的上下文中，生成式 AI 有助于：

信息提取：生成式 AI 模型可用于从非结构化或半结构化文档中提取特定信息。例如，它可以浏览发票以检索日期、账单金额和公司名称等详细信息。
文档分类：ML 模型用于根据文档内容对文档进行自动分类。这些算法会“读取”文档，了解其上下文，并可将其归入预定义的类别。
数据验证：每当置信度分数过低时，生成式 AI 都可以检查 ML 模型的输出。如果两个 ML 模型（生成式模型和专用化模型）具有相同的输出，则人工可以跳过验证该文档的步骤。这可以通过在第二个生成模型的帮助下检查输出来减少用于验证文档的时间，并提高模型的性能。