UiPath Documentation
document-understanding
latest
false
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 用户指南

上次更新日期 2026年5月13日

构建

本部分会介绍以下体验:

  • 上传文档并自动对其进行分类。
  • 直接将文档上传到文档类型中。
  • 管理项目中的文件(添加、删除文件以及添加、更改标签)。
  • 标注文档。
  • 添加或删除字段。
  • Have a guided experience on training classification and extraction models using the recommendations. Training is started manually per model: classifiers expose the Start Training button in the Model Training status pill (Helix Classifier on the Split & Classify page; Legacy Classifier in the Recommendations area). Extractors expose the Start Training button on each document type's annotation page, or via the action in its Model Training status pill. For details, see Start a training run.

标注文档

成功创建项目并将文档上传到特定文档类型后,系统会自动为文档预添加批注。这是根据文档类型的架构,将生成式和专用模型结合使用来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构,请转到“注释”页面并查看“字段”部分。

有关如何标注文档的详细信息,请查看“标注文档操作方法”页面。

待审核的异常

您可以使用在验证站点中验证的文档,进一步提高模型的性能。

如果在验证步骤后作出任何更改,受影响文档类型会显示“待审核异常”按钮。

图 1. “待审核的异常”按钮

有关如何重新训练模型的更多深入信息,请查看“重新训练提取程序”指南页面。

为文档添加标签

上传文档后,您可以为其添加标签。

您可以为每个文档添加一个最多包含 100 个字符的标签。

要向文档添加标签,请选择要添加标签的文档,然后在文档类型列表上方的菜单中选择“标签”按钮。

如果使用标签进行筛选,您可以更轻松地搜索文档。训练模型时,您还可以在高级配置文件中根据标签查看结果。

文档类型管理

您可以在“文档类型管理器”中编辑多个字段的设置。

为此,请选择要编辑的文档类型旁边的三点图标 ,然后从菜单中选择“文档类型管理器”

图 2. 选择文档类型管理器

备注:

仅当用户具备执行该建议操作的足够权限时,Document Understanding 中的建议才会显示。如果您没有权限执行建议的操作,您将看到一条消息,指出访问权限不足。 拥有 Document Understanding 开发者、Document Understanding 管理员和 Document Understanding 项目管理员角色的用户可以查看所有可用的建议。项目管理员角色仅在项目级别应用这些权限。

提取字段

编辑或添加新字段

要添加新字段,请选择“添加字段”并填写所需信息。您可以为每个字段添加或编辑以下选项:

  • 字段名称:字段的唯一名称。

  • “内容类型” :字段的内容类型:

    • 字符串:用于公司名称或地址,以及付款条款,或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时,用于这些字段。
    • 数字:用于金额或数量,具有小数/千位分隔符的智能解析功能。
    • 日期:使用 YYYY-MM-DD 格式解析、格式化和统一输出。
    • 电话:用于电话号码。设置格式会删除字母和括号,并将空格替换为短划线。
    • ID 号(可选) :用于字母数字代码和 ID 号。它类似于字符串内容类型,但会删除:字符之前的所有字符。如果要提取的 ID 号可能包含:字符,请改用string内容类型,以避免数据丢失。
  • 快捷键:字段的快捷键。允许使用一个键或两个键的组合。

  • 高级设置:可用选项因所选字段的内容类型而异。选择所需字段的“高级设置”按钮进行编辑:图 3. 文档类型高级设置

    • 字段 ID:字段的唯一 ID。
    • 后处理
      • first_span:如果模型预测了文档内某一字段的多个实例,则让模型返回第一个实例。
      • longest_value:如果模型预测了文档内某一字段的多个实例,则让模型返回字符数最多的值。
      • Highest_confidence :如果模型预测了文档内某一字段的多个实例,则让模型返回具有最高置信度的值。评分(分数) :运行模型预测评估时用于确定准确度的度量,仅适用于内容类型为“字符串” 的字段:
      • exact_match :只有当预测与真实值完全匹配时,预测才会被视为正确(分数为 1)。即使只是一个字符的不同,也会被视为不正确(0 分)。这是所有字段(“字符串”字段除外)的默认设置。
      • levenshtein:根据预测与真实值之间的 Levenshtein 距离,预测被视为部分正确。示例:如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值,则此预测的分数为 0.8。
    • 日期格式:此字段仅适用于内容类型为“日期”的字段,并且指示如何解析和返回不明确的日期:
      • 自动
      • 美式:YYYY-DD-MM
      • 非美式:YYYY-MM-DD
    • Multi-line:跨越多个文本行的字段(地址或说明)需要检查此项目,否则系统将只返回第一行。
    • Multi-value:字段将返回一个列表,其中包含在文档中检测到的所有值。

您也可以从此视图中对字段重新排序。

Changes in document type settings do not trigger training automatically. A warning is shown when a schema change has not yet been included in a trained model. To include the change, select Start Training on the document type's annotation page before you create a new project version.

搜索字段名称

您可以搜索可用的字段名称。为此,请使用“文档类型管理器”界面左上角的搜索栏。为了更高效地搜索,请使用“筛选”功能按“内容类型”进行筛选。

图 4. 搜索字段名称

删除字段

选择你要删除的字段旁的“删除”按钮。

图 5. 删除字段

您也可以选择多个(或所有)字段,然后一次将其删除。为此,请选中要删除的字段旁边的复选标记,然后选择“删除”。

图 6.一次删除多个字段

分类字段

分类字段是引用整个文档的数据点。例如,收据的费用类型(食品、酒店、航空或交通)或发票的币种(美元、欧元、日元)是分类字段。

备注:

以下限制目前适用于“分类”字段功能:

  • 使用“提取文档数据”活动时,分类字段支持新式项目提取程序和开箱即用的模型,但不支持传统项目提取程序。
  • 只有训练成功后,才会为自定义文档类型提取分类字段。
编辑或添加分类字段

要添加新的分类字段,请选择“添加字段”,然后键入新字段的名称。

您也可以从此视图中对字段重新排序。

图 7. 添加新的分类字段

要查看分类字段 ID,请选择所需分类字段旁边的高级设置

图 8. 分类字段高级设置

编辑或添加类

要为分类字段添加新类,请选择“添加类”,然后键入类名称和可选描述。

备注:

每个分类字段必须包含至少两个类别。

图 9. 添加新类

您可以编辑每个类的名称和描述。

您还可以从此视图重新排序类。

要移除类,请选择您要移除的类旁边的“删除”。

图 10. 删除类

设置

您可以在设置选项卡中更改文档类型设置。

图 11. 模型设置

您可以更改以下设置:

  • 基本模型:“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
  • 语言数量:“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下,语言越多,需要添加注释的数据就越多。

搜索文档

您可以按文档名称搜索上传的文档。为此,请使用“构建”部分左侧的搜索栏。为了更有效地搜索,请使用“筛选”功能,按以下条件筛选:

  • 文档类型:从下拉列表中选择所需的文档类型。
  • 上传日期:选择上传文档的日期间隔。
  • 状态:选择文档的状态。
  • 标签:选择要筛选的标签。

图 12. 筛选文档

项目和模型分数

您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。选择“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。

您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。

备注:

要获取项目分数,您需要上传至少 10 个文档。对于文档类型分数,您至少在同一文档类型下有 10 个文档。

如果选择分数标签,则可以查看模型的模型评分。模型评分是一项功能,旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数,如下所示:

  • 差 (0-49)
  • 一般 (50-69)
  • 良好 (70-89)
  • 非常好 (90-100)

选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。

  • 标注文档
  • 待审核的异常
  • 为文档添加标签
  • 文档类型管理
  • 提取字段
  • 分类字段
  • 设置
  • 搜索文档
  • 项目和模型分数

此页面有帮助吗?

连接

需要帮助? 支持

想要了解详细内容? UiPath Academy

有问题? UiPath 论坛

保持更新