- 概述
- 入门指南
- 构建模型
- 使用模型
- ML 包
- 1040 - ML 包
- 1040 附表 C - ML 包
- 1040 附表 D - ML 包
- 1040 附表 E - ML 包
- 1040x - ML 包
- 3949a - ML 包
- 4506T - ML 包
- 709 - ML 包
- 941x - ML 包
- 9465 - ML 包
- ACORD125 - ML 包
- ACORD126 - ML 包
- ACORD131 - ML 包
- ACORD140 - ML 包
- ACORD25 - ML 包
- 银行对账单 - ML 包
- 提单 - ML 包
- 公司注册证书 - ML 包
- 原产地证书 - ML 包
- 检查 - ML 包
- 儿童产品证书 - ML 包
- CMS1500 - ML 包
- 欧盟符合性声明 - ML 包
- 财务报表 (Financial statements) - ML 包
- FM1003 - ML 包
- I9 - ML 包
- ID Cards - ML 包
- Invoices - ML 包
- InvoicesAustralia - ML 包
- 中国发票 - ML 包
- 希伯来语发票 - ML 包
- 印度发票 - ML 包
- 日本发票 - ML 包
- 装运发票 - ML 包
- 装箱单 - ML 包
- 工资单 - ML 包
- 护照 - ML 包
- 采购订单 - ML 包
- 收据 - ML 包
- 汇款通知书 - ML 包
- UB04 - ML 包
- 水电费账单 - ML 包
- 车辆所有权证明 - ML 包
- W2 - ML 包
- W9 - ML 包
- 公共端点
- 支持的语言
- Insights 仪表板
- 数据与安全性
- 许可
- 如何
- 故障排除

Document Understanding 新式项目用户指南
衡量
您可以从“衡量”部分查看项目的整体状态,并查看具有改进潜力的领域。
页面上的主要衡量指标是项目的总体分数。
此衡量标准会影响所有文档类型的分类器和提取程序分数。每个因素的分数都对应于模型评分,可以分别在“分类衡量标准”和“提取衡量标准”中查看。
- 差 (0-49)
- 一般 (50-69)
- 良好 (70-89)
- 非常好 (90-100)
无论模型分数如何,您都可以根据项目需求决定何时停止训练。即使模型被评为“优秀”,也不意味着它将满足所有业务要求。
“分类”分数影响模型的性能以及数据集的大小和质量。
- 因素:提供有关如何提高模型性能的建议。您可以获得有关每种文档类型的数据集大小或经过训练的模型性能的建议。
- 指标:提供有用的指标,例如训练文档和测试文档的数量、精度、准确度、召回率和每种文档类型的 F1 分数。
提取分数影响模型的整体性能以及数据集的大小和质量。此视图分为多种文档类型。您也可以通过单击“注释”,直接转到每种文档类型的“注释”视图。
- 因素:提供有关如何提高模型性能的建议。您可以获得有关所选文档类型的数据集大小(上传的文档数量、带注释的文档数量)或训练的模型性能(字段准确性)的建议。
- 数据集:提供有关用于训练模型的文档、已导入页面总数和已标记页面总数的信息。
- 指标:提供有用的信息和指标,例如字段名称、训练状态数量以及所选文档类型的准确性。您还可以使用“下载高级指标”按钮访问提取模型的高级指标。此功能允许您下载包含每批详细指标和模型结果的 Excel 文件。
您可以在“衡量指标”部分比较两个版本的分类或提取模型的性能。
要比较两个版本的分类模型的性能,请先导航至“衡量”部分。然后,对于您感兴趣的分类模型,选择“比较模型” 。
您可以从每列顶部的下拉列表中选择要比较的版本。默认情况下,系统会在左侧选择当前版本(即最新可用版本),并在右侧选择最新发布的版本。
- 精度:正确预测的正实例与预测为正的实例总数的比率。精度高的模型表示误报较少。
- 准确率:正确预测(包括 True 正例和 True 负例)在实例总数中的比率。
- 召回率:正确识别的实际正面案例的比例。
- F1 分数:精度和召回率的几何平均值,旨在在这两个指标之间取得平衡。这是误报和漏报之间的平衡。
文档类型的显示顺序是比较中最新版本所使用的顺序。如果某个比较版本中没有某种文档类型,则将每个度量的值替换为“不适用” 。
要比较提取模型两个版本的性能,请首先导航至“衡量”部分。然后,对于您感兴趣的提取模型,选择“比较模型” 。
您可以从每列顶部的下拉列表中选择要比较的版本。默认情况下,系统会在左侧选择当前版本(即最新可用版本),并在右侧选择最新发布的版本。
- 字段名称:注释字段的名称。
- 内容类型:字段的内容类型:
- 字符串
- 数字
- 日期
- 电话
- ID 编号
- 评分:模型分数,旨在帮助您为所提取字段的性能实现可视化。
- 准确度:模型做出的正确预测占预测总数的比例。
字段名称的显示顺序是比较中最新版本中使用的顺序。如果某个字段名称在某个比较版本中不可用,则每个度量的值将替换为“不适用” 。
您还可以比较“表格”部分中表格的字段分数。
您可以使用“下载高级指标”按钮的比较页面下载每个版本的高级指标文件。