Document Understanding

document-understanding

latest

false

Document Understanding 用户指南

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

构建

本部分会介绍以下体验：

上传文档并自动对其进行分类。
直接将文档上传到文档类型中。
管理项目中的文件（添加、删除文件以及添加、更改标签）。
标注文档。
添加或删除字段。
获得有关使用建议训练分类和提取模型的指导性体验。根据模型手动启动训练：分类器会在“模型训练”状态药丸中显示“开始训练”按钮（“拆分和分类”页面上的Helix Classifier；“建议”区域上的“旧版分类器”）。提取程序会在每种文档类型的注释页面上公开“开始训练”按钮，或通过其模型训练状态药丸中的操作公开该按钮。有关详细信息，请参阅开始运行训练。

标注文档

成功创建项目并将文档上传到特定文档类型后，系统会自动为文档预添加批注。这是根据文档类型的架构，将生成式和专用模型结合使用来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构，请转到“注释”页面并查看“字段”部分。

有关如何标注文档的详细信息，请查看“标注文档操作方法”页面。

待审核的异常

您可以使用在验证站点中验证的文档，进一步提高模型的性能。

如果在验证步骤后作出任何更改，受影响文档类型会显示“待审核异常”按钮。

图 1. “待审核的异常”按钮

有关如何重新训练模型的更多深入信息，请查看“重新训练提取程序”指南页面。

为文档添加标签

上传文档后，您可以为其添加标签。

您可以为每个文档添加一个最多包含 100 个字符的标签。

要向文档添加标签，请选择要添加标签的文档，然后在文档类型列表上方的菜单中选择“标签”按钮。

如果使用标签进行筛选，您可以更轻松地搜索文档。训练模型时，您还可以在高级配置文件中根据标签查看结果。

文档类型管理

您可以在“文档类型管理器”中编辑多个字段的设置。

为此，请选择要编辑的文档类型旁边的三点图标⋮ ，然后从菜单中选择“文档类型管理器” 。

图 2. 选择文档类型管理器

备注：

仅当用户具备执行该建议操作的足够权限时，Document Understanding 中的建议才会显示。如果您没有权限执行建议的操作，您将看到一条消息，指出访问权限不足。拥有 Document Understanding 开发者、Document Understanding 管理员和 Document Understanding 项目管理员角色的用户可以查看所有可用的建议。项目管理员角色仅在项目级别应用这些权限。

提取字段

编辑或添加新字段

要添加新字段，请选择“添加字段”并填写所需信息。您可以为每个字段添加或编辑以下选项：

字段名称：字段的唯一名称。
“内容类型” ：字段的内容类型：
- 字符串：用于公司名称或地址，以及付款条款，或者当您想要在 RPA 工作流中的其他字段中手动构建解析逻辑或格式设置逻辑时，用于这些字段。
- 数字：用于金额或数量，具有小数/千位分隔符的智能解析功能。
- 日期：使用 YYYY-MM-DD 格式解析、格式化和统一输出。
- 电话：用于电话号码。设置格式会删除字母和括号，并将空格替换为短划线。
- ID 号（可选） ：用于字母数字代码和 ID 号。它类似于字符串内容类型，但会删除:字符之前的所有字符。如果要提取的 ID 号可能包含:字符，请改用string内容类型，以避免数据丢失。
快捷键：字段的快捷键。允许使用一个键或两个键的组合。
高级设置：根据所选字段的内容类型，可用选项会有所不同。选择待编辑字段的“高级设置”按钮：图 3. 文档类型高级设置
- 字段 ID：字段的唯一 ID。
- 后处理：
  - first_span：如果模型预测了文档内某一字段的多个实例，则让模型返回第一个实例。
  - longest_value：如果模型预测了文档内某一字段的多个实例，则让模型返回字符数最多的值。
  - 最高置信度：如果模型对文档内某一字段的预测结果包含多个实例，则让模型返回具有最高置信度的值。评分：用于评估模型预测结果准确性的衡量标准，仅适用于内容类型为“String”的字段：
  - exact_match ：只有当预测与真实值完全匹配时，预测才会被视为正确（分数为 1）。即使只是一个字符的不同，也会被视为不正确（0 分）。这是所有字段（“字符串”字段除外）的默认设置。
  - levenshtein：根据预测与真实值之间的 Levenshtein 距离，预测被视为部分正确。示例：如果系统除最后 2 个字母之外正确预测了 10 个字母组成的值，则此预测的分数为 0.8。
- 日期格式：此字段仅适用于内容类型为“日期”的字段，并且指示如何解析和返回不明确的日期：
  - 自动
  - 美式：YYYY-DD-MM
  - 非美式：YYYY-MM-DD
- Multi-line：跨越多个文本行的字段（地址或说明）需要检查此项目，否则系统将只返回第一行。
- Multi-value：字段将返回一个列表，其中包含在文档中检测到的所有值。

您也可以从此视图中对字段重新排序。

更改文档类型设置不会自动触发训练。当已训练的模型尚未包含架构更改时，系统将显示警告。要包含更改，请在创建新的项目版本之前在文档类型的注释页面上选择“开始训练” 。

搜索字段名称

您可以搜索可用的字段名称。为此，请使用“文档类型管理器”界面左上角的搜索栏。为了更高效地搜索，请使用“筛选”功能按“内容类型”进行筛选。

图 4. 搜索字段名称

删除字段

选择你要删除的字段旁的“删除”按钮。

图 5. 删除字段

您也可以选择多个（或所有）字段，然后一次将其删除。为此，请选中要删除的字段旁边的复选标记，然后选择“删除”。

图 6.一次删除多个字段

分类字段

分类字段是引用整个文档的数据点。例如，收据的费用类型（食品、酒店、航空或交通）或发票的币种（美元、欧元、日元）是分类字段。

备注：

以下限制目前适用于“分类”字段功能：

使用“提取文档数据”活动时，分类字段支持新式项目提取程序和开箱即用的模型，但不支持传统项目提取程序。
只有训练成功后，才会为自定义文档类型提取分类字段。

编辑或添加分类字段

要添加新的分类字段，请选择“添加字段”，然后键入新字段的名称。

您也可以从此视图中对字段重新排序。

图 7. 添加新的分类字段

要查看分类字段 ID，请选择所需分类字段旁边的高级设置。

图 8. 分类字段高级设置

编辑或添加类

要为分类字段添加新类，请选择“添加类”，然后键入类名称和可选描述。

备注：

每个分类字段必须包含至少两个类别。

图 9. 添加新类

您可以编辑每个类的名称和描述。

您还可以从此视图重新排序类。

要移除类，请选择您要移除的类旁边的“删除”。

图 10. 删除类

设置

您可以在设置选项卡中更改文档类型设置。

图 11. 模型设置

您可以更改以下设置：

基本模型：“建议操作”中使用的数据集大小估计值取决于用于训练的基本模型。使用与您的文档类型最相似的基本模型将减少所需的注释工作量。
语言数量：“建议操作”中使用的数据集大小估计值取决于数据集中语言的数量。通常情况下，语言越多，需要添加注释的数据就越多。

搜索文档

您可以按文档名称搜索上传的文档。为此，请使用“构建”部分左侧的搜索栏。为了更有效地搜索，请使用“筛选”功能，按以下条件筛选：

文档类型：从下拉列表中选择所需的文档类型。
上传日期：选择上传文档的日期间隔。
状态：选择文档的状态。
标签：选择要筛选的标签。

图 12. 筛选文档

项目和模型分数

您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。选择“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。

您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。

备注：

要获取项目分数，您需要上传至少 10 个文档。对于文档类型分数，您至少在同一文档类型下有 10 个文档。

如果选择分数标签，则可以查看模型的模型评分。模型评分是一项功能，旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数，如下所示：

差 (0-49)
一般 (50-69)
良好 (70-89)
非常好 (90-100)

选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。

在此页面上

标注文档
待审核的异常
为文档添加标签
文档类型管理
提取字段
分类字段
设置
搜索文档
项目和模型分数

此页面有帮助吗？

前一个导入文档

下一个衡量

标注文档​

待审核的异常​

为文档添加标签​

文档类型管理​

提取字段​

编辑或添加新字段​

搜索字段名称​

删除字段​

分类字段​

编辑或添加分类字段​

编辑或添加类​

设置​

搜索文档​

项目和模型分数​