document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。
UiPath logo, featuring letters U and I in white

Document Understanding 新式项目用户指南

上次更新日期 2025年2月20日

UiPath™ DocPath

DocPath 大型语言模型 (LLM) 是我们最新的数据提取模型技术,旨在替换 UiPath™ Document UnderstandingTM 中使用的当前生成模型。虽然 DocPath 的运行方式与以前的模型类似,但它是使用各种文档进行训练的。这使其能够处理常见的文档类型,甚至几乎不需要训练。DocPath LLM 的独特之处在于其生成式架构,该架构可显著提高准确性并简化提取。您还可以使用您自己独特的数据集微调模型。

要进一步了解 DocPath 架构和用于训练的技术,请查看我们的 AI 博客中的“DocPath”页面。

可用性

目前,UiPath DocPath 仅可用于美国的租户。我们计划于 2025 年年初推出对其他区域的支持。

与上一代相比的改进

与以前的模型相比,DocPath LLM 提供了许多增强功能。它提高了准确性,尤其是表格的准确性,可适应各种文档布局以减少注释工作,并提高自动化率。

主要改进包括:
  • 提高的准确性:DocPath LLM 为发票、收据和采购订单等半结构化文档提供了更高的准确率和卓越的 F1 分数。这可确保提取精确一致的数据。
  • 轻松注释:该模型每个文档只需要一个注释,无需在每个页面上注释每个字段实例,从而减少了手动工作。
  • 增强的自动化:由于置信度级别和准确性之间的相关性更大,DocPath LLM 在提高自动化率的同时,还减少了在准确性级别相同的情况下发送到 Action Center 的文档数量。

从我们的内部测试来看,DocPath 的性能优于之前的模型。它将误报率减少了约 15%,漏报率下降了近 17%。

如何使用 DocPath

DocPath LLM 仅适用于 Document Understanding 新式项目。尽管引入了 DocPath,所有现有的项目版本仍将使用当前的模型版本。这可确保无缝过渡,而不会中断正在进行的生产工作流。

要开始在 DocPath 上训练现有文档类型,请取消确认再确认几个文档中的所有字段。

  1. 选择要在 DocPath 上训练的文档类型。
  2. 选择一个文档。
  3. 选择文档中的所有字段,然后选择“删除”。


  4. 标注文档中的所有字段,然后选择“确认”。
    注意:重复步骤 34,直到针对所选文档类型启动训练。


如何检查 DocPath 是否已启用

在 DocPath 上训练模型后,请检查模型版本以确保已启用 DocPath。
  1. 转到“发布”页面并创建一个新的项目版本。
  2. 选择项目版本旁边的三点图标 ,然后选择“编辑版本”以查看模型版本。
    注意:所有模型的 24.7 及更高版本都是 UiPath DocPath 模型。


优化结果

您选择的字段名称可能会大大影响模型的性能。为确保最佳结果,请在字段名称中使用自然语言和正确的语法。您应该只使用广泛认可的首字母缩略词,例如数字 (No)、帐户 (Acct)、地址 (Addr) 和公寓 (Apt)。目前,仅支持西欧语言,因此请确保所选字段名称与这些语言保持一致。避免使用非描述性名称,例如“Column 3”,除非文档明确使用该术语。

UiPath™ DocPath 已知限制

当前,以下限制适用于 UiPath DocPath:
  • 提取的字段必须与文档中的文本完全匹配。此流程不包括摘要或其他类型的文本分析。
  • 以下文档类型目前不基于 DocPath,但仍适用于上一个版本:
    • 财务报表
    • 中国发票
    • 希伯来语发票
    • 日本发票

UiPath DocPath does not currently support non-Latin script languages.

此页面有帮助吗?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath Logo White
© 2005-2025 UiPath。保留所有权利。