document-understanding
latest
false
- 概述
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- 数据与安全性
- 许可和计费逻辑
- 如何
Document Understanding 用户指南
标注文档
成功创建项目并将文档上传到特定文档类型后,系统会自动为文档预添加批注。这是根据文档类型的架构,使用专门的模型来完成的。架构明确定义了要从特定文档类型中提取的字段。要查找文档类型的架构,请转到“批注”页面并查看“字段”部分。
预批注在文档中的文本上用下划线表示,并且无法删除。如果它们不正确并且无法与特定字段匹配,您可以忽略它们。在训练过程中,仅使用已确认的字段进行训练,而不考虑下划线。
当您继续添加更多批注时,预批注的下划线应逐渐与您的输入保持一致。一开始,下划线和用户批注字段之间可能存在一些不一致。但是,随着您批注的增加和模型的改进,下划线应与用户提供的数据更精确地对齐。
在下图中,“收货地址”已错误地预批注为包含人员姓名。
要解决此问题,您只需确认收货地址。无需删除与名称相关的带下划线的文本。当您继续批注并更正此类错误时,带下划线的文本与已确认的字段不一致的情况应该会减少。
备注:
- 系统不会为自定义文档类型自动标注。您需要手动预标注自定义文档类型中的文档。
- 要触发模型训练,至少需要 40 次操作。例如,如果您有 20 个文档,则每个文档至少需要批注 2 个字段,总共需要 40 次操作。
提示:要优化模型性能,请遵循“建议”部分中的建议。这些建议旨在提高模型的整体性能。
上传并预批注所有文档后,您的目标是验证或修改预批注的字段。对于所有字段都已准确预批注的文档,请选择“确认”以一次批准所有字段。文档确认后,将在文档列表中显示绿色盾牌符号。
如果文档仅部分确认,则系统会在文档列表中以空的盾牌符号对其进行标记。这表示此特定文档的批注流程为“正在进行”。您的最终目标是确保所有文档都是“确认”状态。
在验证期间,您可能会遇到以下情况:
- 预批注正确,应进行验证。
- 预批注不正确,该字段存在于文档中。
- 预标注不正确,文档中缺少该字段。
- 没有预批注。
如果预批注不正确且文档中缺少该字段,请选择字段名称旁边的三点图标 ⁝,然后选择“标记为缺失”。
重要提示:您也可以将错误的字段标记为缺失。例如,如果您的文档中没有“供应商地址”,但在处理过程中将另一个字段预标记为“供应商地址”,则您可以在验证期间将其标记为“缺失”。