Document Understanding 用户指南

上次更新日期 2025年11月6日

适用平台：

关于 ML 包

使用 Document Understanding ML 包涉及以下步骤：

收集文档示例和需要提取的数据点的要求。
使用 Document Manager 为文档添加标签。Document Manager 本身将连接到 OCR 服务。
下载或导出带标签的文档作为训练数据集，并将导出的文件夹上传到 AI Center 存储。
下载或导出带标签的文档作为评估数据集，并将导出的文件夹上传到 AI Center 存储。
在 AI Center 上运行训练管道。
在 AI Center 上使用评估管道评估模型性能。
在 AI Center 中将经过训练的模型部署为 ML 技能。
使用 UiPath.DocumentUnderstanding.ML 活动包从 RPA 工作流查询 ML 技能。
重要事项：请记住，使用 Document Understanding ML 包要求安装 AI Center 的计算机可以访问 https://du-metering.uipath.com。

重要提示：在 AI Center 中创建 UiPath.DocumentUnderstanding.ML.Activities 包时，包名称不应为任何 python 保留关键字，例如 class、break、from、finally、global、None 等。请注意，此列表并不详尽，因为 class <pkg-name> 和 import <pkg-name> 使用了包名称。

这些开箱即用的机器学习模型可用于从半结构化或非结构化文档中分类和提取任何经常出现的数据点，包括采用无模板方法的常规字段、表格列和分类字段。

备注：

UiPath 提供的开箱即用机器学习包的版本为 0，并且已在您的租户上提供，这意味着无需下载。

下载仅适用于您已训练的版本 1 或更高版本。

Document Understanding 包含多个 ML 包，分为 5 个主要类别：

UiPath 文档 OCR
Document Understanding
文档分类器
Out-of-the-box Pre-trained ML Packages
AI Center 中开箱即用的预训练 DU ML 包
其他开箱即用的 ML 包

UiPath 文档 OCR

这是一个不可重新训练的模型，可与“UiPath 文档 OCR 引擎”活动一起使用，作为“数字化文档”活动的一部分。要使用此模型，首先必须将 ML 技能设为公开，以便将 URL 复制粘贴到 UiPath 文档 OCR 引擎活动中。

您可以在 GPU 或 CPU 上运行 UiPath 文档 OCR，两种情况下的准确性相同，GPU 上的训练速度比 CPU 快。有关更多详细信息，请查看硬件要求。

UiPath Document OCR 需要访问 https://du.uipath.com/metering 上的 Document Understanding 计量服务器，如果 ML 技能在内部部署 AI Center 常规部署上运行。内部部署 AI Center 离线部署不需要互联网访问。

UiPathDocumentOCR_CPU

此 ML 包的部署方式与 UiPathDocumentOCR ML 包相同，但有以下区别：

它针对在 CPU 上运行进行了优化，因此在工作流中运行时速度提高了 3-4 倍，并且将其导入 Document Manager 时速度提高了 5-10 倍
准确性略低于 UiPathDocumentOCR ML 包，但类似于 UiPath.DocumentUnderstanding.OCR.LocalServer Studio 包
由于速度更快，因此在没有 GPU 的情况下，当文档很大（每个文档超过 20 页）时，也建议使用 CPU，这是理想的选择。

Document Understanding

这是一个通用、可重新训练的模型，用于从任何类型的结构化或半结构化文档中提取任何经常出现的数据点，从而从头开始构建模型。此 ML 包必须经过训练。如果在未事先进行训练的情况下部署此包，部署将失败，并显示错误，指明模型未经过训练。

文档分类器

这是一个通用、可重新训练的模型，用于对任何类型的结构化或半结构化文档进行分类，从而从头开始构建模型。此 ML 包必须经过训练。如果在未事先进行训练的情况下部署此包，部署将失败，并显示错误，指明模型未经过训练。

Out-of-the-box Pre-trained ML Packages

这些是可重新训练的 ML 包，其中包含不同机器学习模型的知识。

可以使用管道运行对这些包进行自定义，以提取其他字段或支持其他语言。使用最先进的迁移学习功能，您可以在其他已标记的文档上对此模型进行重新训练，并针对特定用例进行量身定制，或者将其扩展以支持拉丁语、西里尔语或希腊语等其他语言。

所使用的数据集可能具有相同的字段、字段的子集，或具有其他字段。要利用预训练模型中已包含的智能，您需要使用与开箱即用模型本身名称相同的字段。

这些 ML 包包括：

发票：可在此处找到开箱即用提取的字段。
澳大利亚发票：可在此处找到开箱即用提取的字段。
印度发票：可在此处找到开箱即用提取的字段。
日本发票 Preview：可在此处找到开箱即用提取的字段。

当前不支持使用来自验证站点的数据进行重新训练。
中国发票 Preview：可在此处找到开箱即用提取的字段。

当前不支持使用来自验证站点的数据进行重新训练。
收据：可在此处找到开箱即用提取的字段。
订单：可在此处找到开箱即用提取的字段。
水电费账单：可在此处找到开箱即用提取的字段。
身份证：可在此处找到开箱即用提取的字段。
护照：可在此处找到开箱即用提取的字段。
汇款通知书：可在此处找到开箱即用提取的字段。
提单：可以在此处找到开箱即用提取的字段。
W2：可以在此处找到开箱即用提取的字段。
W9：可以在此处找到开箱即用提取的字段。
ACORD125：可以在此处找到开箱即用提取的字段
I9：可以在此处找到开箱即用提取的字段
990 Preview：可以在此处找到开箱即用提取的字段
4506T：可以在此处找到开箱即用提取的字段
FM1003 Preview：可以在此处找到开箱即用提取的字段
ACORD25 - 可在此处找到开箱即用提取的字段
1040 - 可在此处找到开箱即用提取的字段
支票 - 可在此处找到开箱即用提取的字段
银行对账单 - 可在此处找到开箱即用提取的字段
财务报表 (Financial statements) - 可在此处找到开箱即用提取的字段
收据：可在此处找到开箱即用提取的字段
ACORD131 - 可在此处找到开箱即用提取的字段
ACORD126 - 可在此处找到开箱即用提取的字段
ACORD140 - 可在此处找到开箱即用提取的字段
车辆所有权文件 - 可在此处找到开箱即用提取的字段

这些模型是 UiPath 构建的深度学习架构。可以在服务时和训练时使用 GPU，但这不是必需的。具体来说，GPU 可使训练速度提高 10 倍以上。

可以根据每个模型的预期用途将开箱即用的预训练 ML 包拆分为以下文档类别：

文档类别	ML 模型
KYC	护照身份证水电费 4506T 1040 检查车辆所有权证明
保险	ACORD125 ACORD131 ACORD126 ACORD140
贷款	FM1003 第 2 周 4506T
HR	护照身份证第 9 周 I9
运输	发票提单（包括海运单和空运单）装箱单
应付账款	发票水电费
应收账款	汇款通知书订单银行对账单财务报表
费用	收据

其他开箱即用的 ML 包

这些是 Document Understanding 套件的非 ML 组件所需的包，这些包不可重新训练。

这些 ML 包包括：

表单提取程序：部署为公开技能并将 URL 粘贴到“表单提取程序”活动中。
智能表单提取程序：部署为公开技能并将 URL 粘贴到“智能表单提取程序”活动中。请务必先部署手写识别 ML 技能，并将其配置为此包的 OCR。
智能关键字分类器：部署为公开技能并将 URL 粘贴到“智能关键词分类器”活动中。
手写识别 OCR：部署为公开技能，并在创建智能表单提取程序包时用作 OCR。

在此页面上

UiPath 文档 OCR
UiPathDocumentOCR_CPU
Document Understanding
文档分类器
Out-of-the-box Pre-trained ML Packages
其他开箱即用的 ML 包

此页面有帮助吗？

前一个数据消耗

下一个支持的语言