document-understanding
2024.10
true
- 概述
- 入门指南
- 构建模型
- 使用模型
- 模型详细信息
- 公共端点
- 1040 - 文档类型
- 1040 计划 C - 文档类型
- 1040 计划 D - 文档类型
- 1040 计划 E - 文档类型
- 1040x - 文档类型
- 3949a - 文档类型
- 4506T - 文档类型
- 709 - 文档类型
- 941x - 文档类型
- 9465 - 文档类型
- ACORD125 - 文档类型
- ACORD126 - 文档类型
- ACORD131 - 文档类型
- ACORD140 - 文档类型
- ACORD25 - 文档类型
- 银行对账单 - 文档类型
- 提单 - 文档类型
- 公司注册证书 - 文档类型
- 原产地证书 - 文档类型
- 支票 - 文档类型
- 儿童产品证书 - 文档类型
- CMS 1500 - 文档类型
- 欧盟符合性声明 - 文档类型
- 财务报表 - 文档类型
- FM1003 - 文档类型
- I9 - 文档类型
- 身份证 - 文档类型
- 发票 - 文档类型
- 发票 2 - 文档类型
- 澳大利亚发票 - 文档类型
- 发票中国 - 文档类型
- 希伯来语发票 - 文档类型
- 发票印度 - 文档类型
- 日本发票 - 文档类别
- 发票运输 - 文档类型
- 装箱单列表 - 文档类型
- 工资单 - 文档类型
- 护照 - 文档类型
- 采购订单 - 文档类型
- 收据 - 文档类型
- 收据 2 - 文档类型
- 日本收据 - 文档类型
- 汇款通知书 - 文档类型
- UB04 - 文档类型
- 美国抵押贷款结算披露 - 文档类型
- 公用事业账单 - 文档类型
- 车辆标题 - 文档类型
- W2 - 文档类型
- W9 - 文档类型
- 支持的语言
- Insights 仪表板
- 许可和计费逻辑
- 如何
- 故障排除
重要 :
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Document Understanding 新式项目用户指南
上次更新日期 2025年9月15日
衡量
link您可以从“衡量”部分查看项目的整体状态,并查看具有改进潜力的领域。
项目衡量指标
link页面上的主要衡量指标是项目的总体分数。
此衡量标准会影响所有文档类型的分类器和提取程序分数。每个因素的分数都对应于模型评分,可以分别在“分类衡量标准”和“提取衡量标准”中查看。
模型评分是一项功能,旨在帮助您为分类模型的性能实现可视化。具体表现形式为 0 到 100 之间的模型分数,如下所示:
- 差 (0-49)
- 一般 (50-69)
- 良好 (70-89)
- 非常好 (90-100)
无论模型分数如何,您都可以根据项目需求决定何时停止训练。即使模型被评为“优秀”,也不意味着它将满足所有业务要求。
分类衡量标准
link“分类”分数影响模型的性能以及数据集的大小和质量。
注意:仅当您创建了多个文档类型时,才可使用“分类分数”。
如果选择“分类”,右侧将显示两个选项卡:
- 因素:提供有关如何提高模型性能的建议。您可以获得有关每种文档类型的数据集大小或经过训练的模型性能的建议。
- 指标:提供有用的指标,例如训练文档和测试文档的数量、精度、准确度、召回率和每种文档类型的 F1 分数。
提取衡量指标
link如果在“提取”视图中选择任何可用文档类型,右侧将显示三个选项卡:
- 因素:提供有关如何提高模型性能的建议。您可以获得有关所选文档类型的数据集大小(上传的文档数量、带注释的文档数量)或训练的模型性能(字段准确性)的建议。
- 数据集:提供有关用于训练模型的文档、已导入页面总数和已标记页面总数的信息。
- 指标:提供有用的信息和指标,例如字段名称、训练状态数量以及所选文档类型的准确性。您还可以使用“下载高级指标”按钮访问提取模型的高级指标。此功能允许您下载包含每批详细指标和模型结果的 Excel 文件。
数据集诊断
“数据集”选项卡通过提供反馈和有关步骤的建议,帮助您构建有效的数据集,以使经过训练的模型获得良好的准确性。
“管理”栏中显示了三个数据集状态级别:
- 红色 - 需要更多已加标签的训练数据。
- 橙色 - 建议使用更多已加标签的训练数据。
- 绿色 - 已达到所需的已加标签训练数据级别。
如果会话中未创建任何字段,则数据集状态级别为灰色。