Document Understanding 用户指南

适用平台：

上次更新日期 2025年11月19日

构建

本部分会介绍以下体验：

上传文档并自动对其进行分类。
直接将文档上传到文档类型中。
管理项目中的文件（添加、删除文件，以及添加、更改标签）。
标注文档。
添加或删除字段。
获得有关使用建议训练分类和提取模型的指导性体验。

标注文档

在成功创建项目并将您的文档上传到特定文档类型后，会自动预批注。这是根据文档类型的架构，使用生成式模型和专用模型相结合完成的。架构明确了您要从特定文档类型中提取的字段。要找到文档类型的架构，请转到“批注”页面，然后查看“字段”部分。

有关如何注释文档的详细信息，请查看注释文档操作方法页面。

待审核的异常

您可以使用在验证站点中验证的文档，进一步提高模型的性能。

如果在验证步骤后作出任何更改，受影响文档类型会显示“待审核异常”按钮。

图 1. “待审核的异常”按钮

有关如何重新训练模型的更多深入信息，请查看“重新训练提取程序”指南页面。

为文档添加标签

上传文档后，您可以为其添加标签。

您可以为每个文档添加一个最多包含 100 个字符的标签。

要向文档添加标签，请选择要添加标签的文档，然后在文档类型列表上方的菜单中选择“标签”按钮。

如果使用标签进行筛选，您可以更轻松地搜索文档。训练模型时，您还可以在高级配置文件中根据标签查看结果。

文档类型管理

您可以在“文档类型管理器”中编辑多个字段的设置。

为此，请选择要编辑的文档类型旁边的三点图标 ⋮，然后从菜单中选择“文档类型管理器”。

图 2. 选择文档类型管理器

提取字段

编辑或添加新字段

要添加新字段，请选择“添加字段”并填写所需信息。您可以为每个字段添加或编辑以下选项：

字段名称：字段的唯一名称。
内容类型：字段的内容类型：
- 字符串：用于公司名称或地址，以及付款条款，或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时，用于这些字段。
- 数字：用于金额或数量，具有小数/千位分隔符的智能解析功能。
- 日期：使用 YYYY-MM-DD 格式解析、格式化和统一输出。
- 电话：用于电话号码。设置格式会删除字母和括号，并将空格替换为短划线。
- ID 号：用于字母数字代码和 ID 号。它类似于字符串内容类型，但会删除 : 字符之前的所有字符。如果要提取的 ID 号可能包含 : 字符，请改用 string 内容类型，以避免数据丢失。
快捷键：字段的快捷键。允许使用一个键或两个键的组合。
高级设置：可用选项因所选字段的内容类型而异。选择所需字段的“高级设置”按钮以进行编辑：
图 3. 文档类型高级设置
- 字段 ID：字段的唯一 ID。
- 后处理：
  - first_span：如果模型预测了文档内某一字段的多个实例，则让模型返回第一个实例。
  - longest_value：如果模型预测了文档内某一字段的多个实例，则让模型返回字符数最多的值。
  - highest_confidence：如果模型预测了文档内某一字段的多个实例，则让模型返回具有最高置信度的值。
  评分：运行模型预测评估时用于确定准确度的度量，仅适用于内容类型为“字符串”的字段：
  - exact_match：只有当预测与真实值完全匹配时，预测才会被视为正确（分数为 1）。如果预测与真实值有差别，即使只是一个字符的不同，预测也会被视为不正确（分数为 0）。这是所有字段（“字符串”字段除外）的默认设置。
  - levenshtein：根据预测与真实值之间的 Levenshtein 距离，预测被视为部分正确。示例：如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值，则此预测的分数为 0.8。
- 日期格式：此字段仅适用于内容类型为“日期”的字段，并且指示如何解析和返回不明确的日期：
  - 自动
  - 美式：YYYY-DD-MM
  - 非美式：YYYY-MM-DD
- Multi-line：跨越多个文本行的字段（地址或说明）需要检查此项目，否则系统将只返回第一行。
- Multi-value：字段将返回一个列表，其中包含在文档中检测到的所有值。