- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款平交披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 日志记录
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
Helix Extractor 1.0 大型语言模型 (LLM) 是我们最新的数据提取模型技术,旨在替换 UiPath™ Document UnderstandingTM 中使用的当前生成模型。 虽然 Helix Extractor 1.0 的运行方式与之前的模型类似,但它是使用各种文档进行训练的。 这使其能够处理常见的文档类型,甚至几乎不需要训练。Helix Extractor 1.0 LLM 的独特之处在于其生成式架构,该架构可显著提高准确性并简化提取。 您还可以使用您自己独特的数据集微调模型。
要进一步了解 Helix 提取程序 1.0 架构和用于训练的技术,请查看我们 AI 博客中的“Helix 提取程序 1.0”页面。
目前,UiPath™ Helix 提取程序仅适用于 Document Understanding 新式项目中的美国租户(GxP 和 Government Cloud 除外)。
- 欧洲提取模型的公共端点基于 Helix 提取程序,财务报表除外。
- 提取模型的以下公共端点基于日本地区的 Helix 提取程序:
- 中国发票
- 日本发票
- 日本收据
Helix 提取程序 LLM 提供与以前模型相比的许多增强功能。它提高了准确性,尤其在表格处理方面,可适应各种文档布局,以减少批注工作,并提高自动化效率。
- 提高准确性:Helix 提取程序 LLM 为半结构化文档(例如发票、收据和采购订单)提供更高的准确率和更高的 F1 分数。这确保了数据提取的精确性和一致性。
- 轻松注释:该模型每个文档只需要一个注释,无需在每个页面上注释每个字段实例,从而减少了手动工作。
- 增强的自动化:借助置信度与准确性之间的更大相关性,Helix 提取程序 LLM 可提高自动化率,同时减少相同准确性级别下发送到 Action Center 的文档数量。
根据我们的内部测试,Helix 提取程序在性能方面优于其上一代。 它将误报率减少了约 15%,漏报率下降了近 17%。
Helix 提取程序 LLM 仅适用于 Document Understanding 新式项目。 尽管引入了 Helix 提取程序,所有现有的项目版本仍将使用当前模型版本。 这可确保无缝过渡,而不会中断正在进行的生产工作流。
要开始在 Helix 提取程序上训练现有文档类型,请取消确认几个文档中的所有字段,然后再确认。
您选择的字段名称可能会大大影响模型的性能。为确保最佳结果,请在字段名称中使用自然语言和正确的语法。您应该只使用广泛认可的首字母缩略词,例如数字 (No)、帐户 (Acct)、地址 (Addr) 和公寓 (Apt)。目前,仅支持西欧语言,因此请确保所选字段名称与这些语言保持一致。避免使用非描述性名称,例如“Column 3”,除非文档明确使用该术语。
UiPath Helix 提取程序目前仅支持拉丁脚本语言。如果您需要使用非拉丁脚本语言训练模型,请选择旧版模型类型。如果选择了旧版模型,请为您的文档类型选择适当的基本模型。
要在 Helix 提取程序或传统模型类型之间进行选择,请导航到“文档类型管理器”中的“设置”选项卡,然后从“模型类型”下拉列表中选择所需的模型类型。