document-understanding

latest

false

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 用户指南

上次更新日期 2026年5月13日

适用平台：

UiPath™ Helix 提取程序 1.0

Helix Extractor 1.0 大型语言模型 (LLM) 是我们最新的数据提取模型技术，旨在替换 UiPath™ Document Understanding ^TM中使用的当前生成模型。虽然 Helix Extractor 1.0 的运行方式与以前的模型类似，但它使用了广泛的文档进行训练。这使其能够处理常见的文档类型，甚至几乎不需要训练。Helix Extractor 1.0 LLM 的独特之处在于其生成式架构，该架构可显着提高准确性并简化提取。您还可以使用您自己独特的数据集微调模型。

要进一步了解 Helix Extractor 1.0 架构和用于训练的技术，请查看我们的 AI 博客中的“Helix Extractor 1.0”页面。

可用性

目前，UiPath™ Helix 提取程序仅适用于 Document Understanding 新式项目中的美国租户（GxP 和 Government Cloud 除外）。

在以下区域使用公共端点时，UiPath Helix Extractor 可用于传统和新式项目：

欧洲提取模型的公共端点基于 Helix Extractor，但财务报表除外。
提取模型的以下公共端点基于日本地区的 Helix 提取程序：
- 中国发票
- 日本发票
- 日本收据

与上一代相比的改进

Helix 提取程序 LLM 提供与以前模型相比的许多增强功能。它提高了准确性，尤其在表格处理方面，可适应各种文档布局，以减少批注工作，并提高自动化效率。

主要改进包括：

提高的准确性：Helix Extractor LLM 为发票、收据和采购订单等半结构化文档提供了更高的准确率和卓越的 F1 分数。这可确保提取精确一致的数据。
轻松注释：该模型每个文档只需要一个注释，无需在每个页面上注释每个字段实例，从而减少了手动工作。
增强的自动化: 由于置信度级别和准确性之间的相关性更大，因此 Helix Extractor LLM 在提高自动化率的同时，还减少了在准确性级别相同的情况下发送到 Action Center 的文档数量。

根据我们的内部测试，Helix 提取程序在性能方面优于其上一代。它将误报率减少了约 15%，漏报率下降了近 17%。

如何使用 Helix 提取程序

Helix 提取程序 LLM 仅适用于 Document Understanding 新式项目。尽管引入了 Helix 提取程序，所有现有的项目版本仍将使用当前模型版本。这可确保无缝过渡，而不会中断正在进行的生产工作流。

要开始在 Helix 提取程序上训练现有文档类型，请取消确认几个文档中的所有字段，然后再确认。

选择要在 Helix 提取程序上训练的文档类型。
选择一个文档。
选择文档中的所有字段，然后选择“删除” 。
标注文档中的所有字段，然后选择“确认” 。

备注：
Repeat steps 3 and 4 until training is initiated on the chosen document type.

如何检查 Helix 提取程序是否启用

在 Helix 提取程序上训练模型后，请检查模型版本，以确保 Helix 提取程序已启用。

转到“发布”页面并创建一个新的项目版本。
选择项目版本旁边的三点图标⋮ ，然后选择“编辑版本”以查看模型版本。

备注：
所有 24.7 及更高版本的模型都是 UiPath Helix Extractor 模型。

优化结果

您选择的字段名称可能会大大影响模型的性能。为确保最佳结果，请在字段名称中使用自然语言和正确的语法。您应该只使用广泛认可的首字母缩略词，例如数字 (No)、帐户 (Acct)、地址 (Addr) 和公寓 (Apt)。目前，仅支持西欧语言，因此请确保所选字段名称与这些语言保持一致。避免使用非描述性名称，例如“Column 3”，除非文档明确使用该术语。

在“Helix 提取程序”和传统模型类型之间进行选择

UiPath Helix 提取程序目前仅支持拉丁脚本语言。如果您需要使用非拉丁脚本语言训练模型，请选择旧版模型类型。如果选择了旧版模型，请为您的文档类型选择适当的基本模型。

要在 Helix Extractor 或旧版模型类型之间进行选择，请导航至Document Type Manager中的“设置”选项卡，然后从“模型类型”下拉列表中选择所需的模型类型。

重要提示：

在部署更改后，有必要发布新的项目版本。

UiPath™ Helix 提取程序已知限制

以下限制目前适用于 UiPath Helix 提取程序：

提取的字段必须与文档中的文本完全匹配。此流程不包括摘要或其他类型的文本分析。
以下文档类型目前不基于 Helix 提取程序，但仍然适用于上一个版本：
- 财务报表
- 中国发票
- 希伯来语发票
- 日本发票

提示：

“Helix Extractor”模型当前不支持的文档类型会在“添加文档类型”下拉列表中显示以下消息：将使用旧版模型训练文档类型。

UiPath Helix 提取程序目前不支持非拉丁语脚本语言。

在此页面上

可用性
与上一代相比的改进
如何使用 Helix 提取程序
如何检查 Helix 提取程序是否启用
优化结果
在“Helix 提取程序”和传统模型类型之间进行选择
UiPath™ Helix 提取程序已知限制

此页面有帮助吗？

前一个监控

下一个使用新的 UiPath Helix 提取程序 2.0（预览版）

Document Understanding 用户指南

可用性​

与上一代相比的改进​

如何使用 Helix 提取程序​

如何检查 Helix 提取程序是否启用​

优化结果​

在“Helix 提取程序”和传统模型类型之间进行选择​

UiPath™ Helix 提取程序已知限制​