Document Understanding
最新
False
- 概述
- 入门指南
- 活动
- Insights 仪表板
- Document Understanding 流程
- ML 包
- 概述
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 4506T - ML 包
- 990 - ML 包 - 预览
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS 1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- Invoices Australia - ML package
- Invoices China - ML package
- Invoices India - ML package
- Invoices Japan - ML package
- 发货发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 许可
预览
适用于新式体验的 Document Understanding 用户指南
上次更新日期 2024年4月26日
构建
本部分会介绍以下体验:
- 上传文档并自动对其进行分类。
- 直接将文档上传到文档类型中。
- 管理项目中的文件(添加、删除文件以及添加、更改标签)。
- 标注文档。
- 添加或删除字段。
- 添加或删除业务规则。
- 获得有关使用建议训练分类和提取模型的指导性体验。
成功创建项目并上传文档后,您可以从“构建”部分为文档添加注释。
您可以单击“标注”,从文档类型部分开始标注文档。
您还可以单击文档名称旁边的三点图标 ⁝,然后选择“注释”来注释特定文档。
提示:系统会自动处理上传的文档(已上传、已数字化、已分类,包括已添加注释)。对于高性能模型,请遵循“建议”部分中的建议。这些建议可帮助您提高模型的整体性能。
注意:系统不会为自定义文档类型自动标注。您需要手动为自定义文档类型中的文档预加标签。
系统会自动为上传的属于已知文档类型的文档添加预标签。您可以在“注释”视图中验证这一点。
在验证期间,您可能会遇到以下情况:
- 预加标签正确无误,应进行验证。
- 缺少预加标签,应标上此类标签。
- 预加标签不正确,应进行编辑。
如果已正确标注文档中的所有字段,请单击“确认”以一次验证所有字段。
文档经过验证后,系统将在文档列表中为其应用绿色盾牌标记。
正确的预加标签
如果字段正确,请选中该字段旁边的复选框。在我们的示例中,第一个字段是“供应商名称”,并且已附带正确标记。要进行验证,请单击字段旁边的复选框。
缺少预加标签
如果没有与该字段相关的预加标签,请单击字段名称旁边的三点图标 ⁝,然后选择“标记为缺失”
重要提示:您也可以将错误的字段标记为缺失。例如,如果您的文档中没有“供应商地址”,但在处理过程中将另一个字段预标记为“供应商地址”,则您可以在验证期间将其标记为“缺失”。
预加标签不正确
如果预加标签不正确,您可以手动更正该字段。您可以通过创建新字段来手动为字段添加标签。为此,您可以通过直接将选择框拖放到文档上,然后从下拉列表中选择所需的字段名称来选择所需的信息。
注意:系统会自动对手动注释的所有字段进行验证。
You can search uploaded documents by document name. To do so, use the search bar from the left corner of the Build section. For a more efficient search, use the Filter feature to filter by:
- 文档类型:从下拉列表中选择所需的文档类型。
- 上传日期:选择上传文档的日期间隔。
- 状态:选择文档的状态
您可以从右上角查看项目的总体分数。此分数是所有文档类型的分类器分数和提取程序分数的影响因素。单击“项目分数”以显示“衡量指标”部分。您可以在该部分中查看更深入的性能衡量指标。
您可以在“文档类型”部分单独查看每种文档类型的分数。此分数会影响模型的整体性能以及数据集的大小和质量。
注意:要获取项目分数,您需要上传至少 10 个文档。对于文档类型分数,您至少在同一文档类型下有 10 个文档。
如果选择分数标签,则可以查看模型的模型评分。模型评分是一项功能,旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数,如下所示:
- 差 (0-49)
- 一般 (50-69)
- 良好 (70-89)
- 非常好 (90-100)
选择“详细模型分数”以转到“衡量指标”部分以获取详细信息。