- 入门指南
- 框架组件
- AI Center 中的 Document Understanding
- 管道
- ML 包
- Data Manager
- OCR 服务
- 许可
- 参考
标注文档
有关所需的文档数量,请参阅此处的训练管道和评估管道一节。
在选择用于训练的文档时,您还需要了解一些详细信息。首先,您将需要删除不包含感兴趣字段或仅包含一个或两个字段的垃圾页面。您可以在 Data Manager 中使用“删除”按钮执行此操作。页面不会丢失,随时可以从“已删除”视图中恢复。
然后,如果您的用例涉及高度多样化的文档类型(例如发票或收据),则您需要高度多样化的训练集。同时,数据集需要保持平衡:您应该避免来自一家供应商的文档数量是来自另一家供应商的文档数量的 10 倍以上。一般来说,对于给定版式,有 2 到 3 个文档就足够了(即,如果平均每个文档有 2 页,则大约 4 到 6 页)。如果其中一些文档在您的工作流中很常见,并且您想确保正确提取它们,则可以添加 5 到 7 个样本(10 到 15 页)。
但是,如果用例涉及版式非常一致的文档类型(例如表单),则需要至少 30 个样本,因为如果训练集太小,则 ML 模型训练可能会失败。
只有在满足以下条件时,您才能让多人同时使用同一个实例来添加标签:
- 两个用户不能同时标记同一个文档
- 每当添加和删除字段或编辑字段配置时,都只能由一个用户执行此操作,所有其他用户应立即刷新其浏览器以查看更改。在其他人添加标签时更改字段会导致意外行为。
如果在导入数据集时未选中“导入数据”对话框中的“将此作为测试集”复选框,则该数据集将用于训练。在这种情况下,您只需要专注于标记文档中的词语(灰色框)即可。如果侧边栏字段中填充的文本有时不正确,这不是问题,因为 ML 模型仍会学习。在某些情况下,您可能需要调整字段的配置:例如,通过选中“多行”复选框。但是,总的来说,我们主要还是要为页面上的词语添加标签。
在许多情况下,某个字段会出现在同一文档甚至同一页面的多个位置中。只要它们具有相同的含义,这些都应加上标签。例如,水电费账单的总金额。它通常显示在顶部、中间的行项目列表中,或在底部的工资单中,您可以将其分离,然后在邮件中随支票一起发送。在这种情况下,所有三个出现的事件都将被标记。这非常有用,因为在某些情况下,如果存在 OCR 错误或版式不同,并且无法识别其中一个字段,则模型仍可以识别其他出现的字段。
请知悉,重要的是值的含义,而不是值本身。例如,对于一些不含税的发票,净额和总金额具有相同的值。但它们显然是不同的概念。因此,不应将两者都标记为总金额。应仅将含义表示总金额的内容标记为总金额。
导入数据集时,如果选中“导入数据”对话框中的“将此作为测试集”复选框,则 AI Fabric 中的训练管道将不会使用该数据集,而只有评估管道会使用该数据集。在这种情况下,请务必在侧边栏(或列字段的顶栏中)填写正确的文本。这需要花费更长的时间来验证每个字段,但这是您获得正在构建的 ML 模型准确性可靠指标的唯一方法。