Document Understanding 用户指南

适用平台：

上次更新日期 2025年2月4日

关于 ML 包

使用 Document Understanding ML 包涉及以下步骤：

收集文档示例和需要提取的数据点的要求。
使用 Data Manager 为文档添加标签。
Data Manager 本身将连接到 OCR 服务。
下载或导出带标签的文档作为训练数据集，并将导出的文件夹上传到 AI Center 存储。
下载或导出带标签的文档作为评估数据集，并将导出的文件夹上传到 AI Center 存储。
在 AI Center 上运行训练管道。
在 AI Center 上使用评估管道评估模型性能。
在 AI Center 中将经过训练的模型部署为 ML 技能。
使用 UiPath.DocumentUnderstanding.ML 活动包从 RPA 工作流查询 ML 技能。
重要事项：请记住，使用 Document Understanding ML 包要求安装 AI Center 的计算机可以访问 https://du-metering.uipath.com。

重要提示：在 AI Center 中创建 UiPath.DocumentUnderstanding.ML.Activities 包时，包名称不应为任何 python 保留关键字，例如 class、break、from、finally、global、None 等。请注意，此列表并不详尽，因为 class <pkg-name> 和 import <pkg-name> 使用了包名称。

这些开箱即用的机器学习模型可用于从半结构化或非结构化文档中分类和提取任何经常出现的数据点，包括采用无模板方法的常规字段、表格列和分类字段。

备注：

UiPath 提供的开箱即用机器学习包的版本为 0，并且已在您的租户上提供，这意味着无需下载。

下载仅适用于您已训练的版本 1 或更高版本。

Document Understanding 包含多个 ML 包，分为 6 个主要类别：

UiPath 文档 OCR

这是一个不可重新训练的模型，可与“UiPath 文档 OCR 引擎”活动一起使用，作为“数字化文档”活动的一部分。要使用此模型，首先必须将 ML 技能设为公开，以便将 URL 复制粘贴到 UiPath 文档 OCR 引擎活动中。

UiPath Document OCR 需要访问 https://du.uipath.com/metering 上的 Document Understanding 计量服务器，如果 ML 技能在内部部署 AI Center 常规部署上运行。内部部署 AI Center 离线部署不需要互联网访问。

AI Center 中的 UiPathDocumentOCR ML 包针对在 GPU 上运行进行了优化，因此我们强烈建议在 GPU 上使用它。如果没有可用的 GPU，我们建议为 2021.10. 之前的版本使用独立的 Docker 容器。从 2021.10 开始，ML 包也可以在内部部署 AI Center 中运行，但我们建议至少使用 4 核 CPU，最好是 8 核 CPU。

UiPathDocumentOCR_CPU 预览

此 ML 包的部署方式与 UiPathDocumentOCR ML 包完全相同，但有以下区别：

它针对在 CPU 上运行进行了优化，因此在工作流中运行时速度提高了 3-4 倍，并且将其导入 Document Manager 时速度提高了 5-10 倍
准确性略低于 UiPathDocumentOCR ML 包，但类似于 UiPath.DocumentUnderstanding.OCR.LocalServer Studio 包
由于速度更快，因此在没有 GPU 的情况下，当文档很大（每个文档超过 20 页）时，也建议使用 CPU，这是理想的选择。