document-understanding
latest
false
- 概述
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- 数据与安全性
- 许可和计费逻辑
- 如何
Document Understanding 用户指南
复选框和签名
复选框和签名这两个元素在各种类型的文档(从合同协议到注册表单)中发挥着至关重要的作用。了解如何正确标注复选框和签名对于充分利用模型非常重要。
标注文档时,您可能会遇到几种使用复选框的多选字段类型:
- 互斥复选框。
- 非互斥复选框,您可以在其中选择多个选项。
要考虑的一个重要方面是给定多选字段中提供的选项数量。在某些情况下,可能有单个选项,即复选框要么处于选中状态,要么不处于选中状态。但是,在许多情况下,可能有 10 个、20 个,甚至更多选项,这些选项通常组织成网格或表格格式,这在体检表单中很常见。
在注释这些不同的多选字段时,您可以使用两种主要方法。
我们使用一个示例来了解如何标注选项。
注意:在开始标注选项之前,请确保您已为每个相关选项创建了一个常规字段。
考虑文档包含年份选项的情况。在这些场景中,您只有一个字段,并且只需标注所选用词。例如,如果已选中 2018 旁边的复选框,则标注 2018;如果选中 2019 选项,则标注 2019。如果两个选项均未选择,则不应标注这两个选项中的任何一个。无法同时选中两个选项;包含此类实例的文档应从集合中删除。
此方法的优点是您只有一个字段,需要的数据较少。它也不依赖于复选框检测成功与否。例如,如果一个复选框被错误地检测为字母 X,模型仍可以通过学习来识别出 X 表示选择了 X 旁边的选项。
但是,一个潜在的缺点是必须确保两个选项得到代表的比例大致相同,但情况可能并非总是如此。例如,如果数据集中 90% 的文档都选中了 2018,则模型的性能可能会受到影响,从而导致此方法失败。当您有更多选项时,问题会变得更糟,因为其中一些选项几乎总是很少见。在这些情况下,您可能需要创建虚假文档,并选中稀有选项以平衡问题。