Document Understanding 用户指南

适用平台：

上次更新日期 2025年2月4日

标注文档

数据准备

有关所需的文档数量，请参阅此处的训练管道和评估管道一节。

在选择用于训练的文档时，您还需要了解一些详细信息。首先，您将需要删除不包含感兴趣字段或仅包含一个或两个字段的垃圾页面。您可以在 Data Manager 中使用“删除”按钮执行此操作。页面不会丢失，随时可以从“已删除”视图中恢复。

然后，如果您的用例涉及高度多样化的文档类型（例如发票或收据），则您需要高度多样化的训练集。同时，数据集需要保持平衡：您应该避免来自一家供应商的文档数量是来自另一家供应商的文档数量的 10 倍以上。一般来说，对于给定版式，有 2 到 3 个文档就足够了（即，如果平均每个文档有 2 页，则大约 4 到 6 页）。如果其中一些文档在您的工作流中很常见，并且您想确保正确提取它们，则可以添加 5 到 7 个样本（10 到 15 页）。

但是，如果用例涉及版式非常一致的文档类型（例如表单），则需要至少 30 个样本，因为如果训练集太小，则 ML 模型训练可能会失败。

多个用户并行标记

只有在满足以下条件时，您才能让多人同时使用同一个实例来添加标签：

两个用户不能同时标记同一个文档
每当添加和删除字段或编辑字段配置时，都只能由一个用户执行此操作，所有其他用户应立即刷新其浏览器以查看更改。在其他人添加标签时更改字段会导致意外行为。

标记用于训练

如果在导入数据集时未选中“导入数据”对话框中的“将此作为测试集”复选框，则该数据集将用于训练。在这种情况下，您只需要专注于标记文档中的词语（灰色框）即可。如果侧边栏字段中填充的文本有时不正确，这不是问题，因为 ML 模型仍会学习。在某些情况下，您可能需要调整字段的配置：例如，通过选中“多行”复选框。但是，总的来说，我们主要还是要为页面上的词语添加标签。

同一个文档中多次出现的字段

在许多情况下，某个字段会出现在同一文档甚至同一页面的多个位置中。只要它们具有相同的含义，这些都应加上标签。例如，水电费账单的总金额。它通常显示在顶部、中间的行项目列表中，或在底部的工资单中，您可以将其分离，然后在邮件中随支票一起发送。在这种情况下，所有三个出现的事件都将被标记。这非常有用，因为在某些情况下，如果存在 OCR 错误或版式不同，并且无法识别其中一个字段，则模型仍可以识别其他出现的字段。

请知悉，重要的是值的含义，而不是值本身。例如，对于一些不含税的发票，净额和总金额具有相同的值。但它们显然是不同的概念。因此，不应将两者都标记为总金额。应仅将含义表示总金额的内容标记为总金额。

标记用于测试

导入数据集时，如果选中“导入数据”对话框中的“将此作为测试集”复选框，则 AI Fabric 中的训练管道将不会使用该数据集，而只有评估管道会使用该数据集。在这种情况下，请务必在侧边栏（或列字段的顶栏中）填写正确的文本。这需要花费更长的时间来验证每个字段，但这是您获得正在构建的 ML 模型准确性可靠指标的唯一方法。

标记操作

请参见下文，了解在标记文档时需要执行的主要操作。可以在同一个页面上的多个位置标记给定字段。

标记字段
- 通过拖动鼠标（橡皮筋）或单击相应词语（按住 Shift 键可选择多个词语）来选择词语。
- 使用快捷键来标记字段
删除标签
- 选择词语，然后点击键盘上的 Delete 键或 Backspace 键。
将表格行分组
- 标记某些列字段后，并且仅当某些行跨越多行文本时，才可以使用“/”键将它们分组，以指示它们属于同一表格行。组周围将出现一个绿色框。
取消表格行分组
- 选择组，然后再次点击“/”
对 OCR 进行更正
- 右键单击该词语，然后在出现的工具提示中编辑文本。很少建议这样做，因为 OCR 在生产时仍会发生这些错误。因此，通常最好跳过并继续操作。
更正已标记的值
- 单击侧边栏或顶栏中的文本，然后编辑内容。系统将显示一个小锁，指示您已手动编辑字段。标记测试集时，这是必需的。
将已标记的值重置为自动提取的值
- 单击该锁，字段将还原为自动提取的值。