智能提取处理 (IXP) - 评估模型性能

ixp

latest

false

非结构化复杂文档用户指南

概述
模型构建
模型验证
- 概述
- 评估模型性能
- 收集验证统计信息
- 对分类进行迭代
模型部署
使用模型
- 通过工作流使用模型
- 通过 Document Understanding API 使用模型
API
- API 审核事件
常见问题
- 常见问题

重要 :

新发布内容的本地化可能需要 1-2 周的时间才能完成。

评估模型性能

您可以在以下位置评估模型的性能：

“构建”选项卡，显示项目的总体分数以及每个文档的错误率。
“度量”选项卡，显示字段组级和字段级性能。

在“构建”中评估模型性能

您可以在“构建”选项卡中的“项目分数”下查看总体评分。

备注：

健康模型的项目分数为 “良好” 或 “优秀” ，没有现场性能警告。
项目分数根据所有字段的 F1 分数 计算。

此外，您可以在“构建”中的“文档”部分的“错误率”列中查看每个文档的错误率。

备注：

错误率仅适用于带批注的文档，并表示模型在每个文档上所犯的错误数量，即模型预测与用户批注之间的差异。

在“度量”中评估模型性能

备注：

Measure 页面更新现已推出公开预览版。

The Measure page helps you evaluate how well a model performs on annotated documents before you deploy them. The page includes:

字段性能表格，显示每个字段和字段组的关键性能指标。
支持比较模型版本之间的性能差异，突出显示改进或退化的方面。
每个分类字段错误类型分布的可见性。
用于自定义离线分析的数据导出功能。

以下部分介绍“度量”中的主要组件，并说明如何在分析模型性能时有效使用这些组件。

项目摘要

摘要部分概述了当前模型版本在整个项目中的性能情况。您可以将其用于以下用途：

选择您要评估的模型版本。
使用项目分数和平均文档错误率，一目了然地查看整体性能。
快速发现整体项目性能相比上一个版本呈上升还是下降趋势。

项目分数

项目分数总结了模型整体性能。

为何有用

对分类、指令和批注进行迭代时，提供统一的方式来跟踪整体进度。
帮助您在深入研究特定字段之前快速确定模型版本总体上有所改进还是退化。

如何计算

项目分数按分类中所有字段的 F1 分数的简单平均值计算。
F1 分数是标准模型性能指标，可在精度与召回率之间取得平衡（即两者的调和平均数）。
具体而言：
- 精度答案：模型预测值正确的频率有多高？
- 召回率答案：模型成功找到多少带批注的数据？

备注：

项目分数为平均值。可以通过“字段性能”表格查看特定字段的退化或限制情况。

平均文档错误率

平均文档错误率是项目中每个已批注文档的错误率平均值。

为何有用

The Avg. doc error rate provides a quick indicator of how error-prone documents are when the selected model version processes them, which helps evaluate readiness to deploy.

如何计算

该值按项目中每个已全部批注文档的错误率的简单平均值计算。

“字段性能”表格

“字段性能”表格是在“度量”页面中分析模型性能的主要方式。每个字段或字段组显示一行，此外还显示为项目中已批注文档计算的性能和错误指标。计算指标时，该表格不会考虑未批注和部分批注的文档。

该表格有助于回答以下问题：

哪些字段限制了模型整体性能？
错误集中在少数字段或广泛分布？
模型最近一次更改后，特定字段有所改进还是有所退化？

“字段性能”表格包含多个类别的指标，可帮助您从不同角度分析模型性能。每个类别都回答一个特定的诊断问题，说明您的模型在各个字段和文档中表现如何。

备注：

验证状态和部分结果要减少等待时间：

当验证达到最低完成阈值后，字段性能指标可见。
验证仍在进行中时，系统会发出警告，提示显示的结果可能会发生变化。

绩效指标

性能指标的作用是评估每个字段或字段组的整体提取质量。

性能指标如下所示：

F1 分数——精度与召回率的调和平均数：F1 = 2 ×（精度 × 召回率）/（精度 + 召回率）。只有在精度和召回率都很高时，F1 分数才会处于较高水平。在实践中，对于注重避免不正确值和遗漏值的提取任务而言，F1 是一个强有力的整体质量指标。因此，F1 是第一个需要查看的有用指标，可用于分析模型版本之间的字段性能变化。
精度——度量预测值正确的频率：精度 = 真正例/（真正例 + 假正例）。真正例是与批注值相匹配的预测，不包括被批注为缺失的值。
召回率——度量模型找到值（如存在）的频率：召回率 = 真正例/（真正例 + 假负例）。假负例是模型未预测的批注值，不包括被批注为缺失的值。
错误率——错误总数/批注总数。标记为缺失的值包含在错误和批注计数中。
错误率（不包括缺失值）——（错误总数 – 多余的预测）/批注值。不包括标记为缺失的批注值。

预测和错误

预测和错误指标的作用是了解导致性能较差的错误数量和组成。

这些指标如下所示：

错误总数——一个字段在所有错误类别下的错误总数：错误总数 = 不正确的预测 + 缺失的预测 + 多余的预测。
预测总数——一个字段的预测值总数：预测总数 = 正确值 + 正确的缺失值 + 不正确的预测。
不正确的预测——提取值与批注不匹配的预测数量。不包括标记为缺失的预测和批注值。
多余的预测——模型不应提取、没有相应批注或批注标记为缺失的预测值数量。
缺失的预测——模型无法提取的批注值数量。
正确值——与批注完全匹配的预测值数量。
正确的缺失值——模型正确预测值缺失的实例数量。

批注

批注指标的作用是提供上下文，说明为每个指标提供支持的标记数据量以及性能分数的可靠程度。

这些指标如下所示：

批注总数——批注总数，包括标记为缺失的值：批注总数 = 批注值 + 标记为缺失的批注值。
批注值——批注字段值的总数，不包括标记为缺失的值。
批注为缺失——一个字段被明确标记为缺失的总次数。

文档级指标

文档级指标的作用是了解错误在文档之间的分布情况，而非仅仅是预测之间的分布情况。

这些指标如下所示：

包含错误的文档——字段至少包含一个错误的文档总数。
已批注文档——字段至少有一个批注字段值的文档总数。
包含错误的文档百分比——字段至少包含一个错误的已批注文档的百分比：包含错误的文档/已批注文档。

示例场景

场景 1：低 F1 + 低精度，中高召回率

您发现的现象

F1 和精度较低，召回率处于中高水平。

通常意味着什么

模型正在提取一个字段的值，但预测值多于预期数量。
常见根本原因：
- 字段指令过于宽泛或模糊。例如，字段指令是“捕获数量”，但未指定什么数量。
- 文档中有相似值，可能会相互混淆，例如小计与总计、收货地址与账单地址。

下一步操作

比较不正确和多余的预测，以确定问题与提取了错误值（非零不正确预测计数）有关，还是根本不应提取该值（非零多余预测计数）。

通过消歧工具（如标签、关键字和格式约束），明确字段指令。

场景 2：高缺失预测（召回率低），中高精度

您发现的现象

召回率较低，精度处于中高水平（F1 通常处于中低水平）。
缺失预测较高，通常多于不正确的预测或多余的预测。

通常意味着什么

模型无法提取存在的值。
常见根本原因：
- 字段指令范围过窄，这意味着示例约束过大或标签要求太具体。
- 值以多种格式显示，如日期和 ID，且指令不涵盖变体。

下一步操作

使用“缺失预测 + 批注值”来确认此问题与召回率相关，即值存在但未找到。检查“批注值”，以确认该字段具有合理数量的批注数据点，并检查“缺失预测”，以确认模型正在尝试找到值，而不是错误地预测值。
扩展指令，在其中包含可接受的变体：替代标签或同义词、多种格式化模式、位置提示（例如，申请人详细信息附近或借用人部分下方）。

场景 3：错误率高，但包含错误的文档数量低（错误集中在少数文档中）

您发现的现象

错误率高或错误总数高。
相对于已批注文档，包含错误的文档数量较低。
通常情况下，一个字段看起来性能不佳，但实际上只有一小部分文档存在问题。

通常意味着什么

错误是由异常文档引起的，而非字段的整体表现。
常见根本原因：
- 特定文档或格式的表现与其他文档或格式不同。
- 少数文档中的 OCR 或质量问题，如模糊扫描、偏差和手写体叠加。
- 字段存在于大多数文档中，但只有在少数文档中出现格式异常，例如多行与单行。

下一步操作

比较包含错误的文档和已批注文档，还可以选择性地比较包含错误的文档百分比，以确认问题集中在哪里。
在“构建”页面中按错误率对文档进行排序，检查错误率最高的文档，以确定字段在特定文档中的性能是否较差。

场景 4：版本之间性能波动较大，批注数量较少

您发现的现象

各模型版本（向上或向下）之间的 F1 或错误率差异较大，但批注值数量较低，已批注文档数量较低，或两者都较低。

通常意味着什么

由于样本量小，字段指标尚不稳定。
常见根本原因：
- 示例过少——增减 1–2 个文档，比率可能就会发生显著变化。
- 包含该字段的文档很少，即缺失用例很多，真实值很少。
- 少数难度较高的文档影响了指标。

下一步操作

检查批注值、已批注文档和批注为缺失的次数，以验证覆盖范围是否较小。
在覆盖范围扩大之前，将指标视为定向性指标，而非确定性指标。
专门为该字段添加更多标记数据：对包含该字段的文档进行优先级排序，并包含一组多样化的样本或变体。
仅在覆盖范围足够大时才使用版本比较，以减少变异性带来的干扰。

筛选和排序

要筛选表格中的行，请选择一个或多个可用的快速筛选器：

批注值 <10
字段 F1 分数 < 50
字段 F1 分数在 50–70 之间

以下图像描述了应用快速筛选器之前和之后，字段性能表格结果的示例：

您还可以按“字段性能”表格中的任何指标对该表格进行排序。应用排序时，会在各个值所属的字段组中对其进行排序。例如，按 F1 分数对表格进行排序会对每个字段组内的字段进行相对排序：

可见性设置

默认情况下，“度量”会显示性能指标的差异，例如 F1 分数和错误率。

要查看所有指标的差异，请按以下步骤操作：

打开“显示版本之间的分数差异”开关。
选择“显示版本之间的分数差异”下拉菜单。
选择“可见性设置”。
在“版本更改 - 可见性设置”弹出窗口中，选择“所有指标”。可用选项包括：
- 仅性能指标——性能指标是通过将模型预测结果与批注进行比较而确定的指标，例如 F1 分数和错误率。
- 所有指标
- 显示模型变异范围内的更改——默认情况下，当前版本变异范围内的更改被视为不重要更改并被隐藏。启用此选项即可显示这些更改。选中后，以下选项可用：
  - 显示所有更改的颜色——默认情况下，变异范围内的更改以灰色显示。启用此选项可将所有更改标记为绿色或红色。
选择“保存”。

模型版本

Model versions capture the current state of the project at the time the version was created. You can deploy model versions to save them and use them in an automation. In addition, you can star versions in the Measure page to save their performance statistics. You can compare the current performance against previous versions to ensure continued performance improvement during iteration on instructions.

选择模型版本

使用“版本”下拉菜单，选择要在“度量”页面中显示特定模型版本的哪些验证结果，如字段性能、文档性能和相关指标。切换模型版本时，页面上的所有指标都会更新，以反映选定版本的验证结果。

使用分数差异比较不同模型版本

有多个模型版本时，“度量”页面可用于将当前模型与上一个版本进行比较。这样您就可以更好地了解字段指令更改、批注更改或模型配置更新所产生的影响。

工作原理

“度量”用于查看与其他模型版本之间的分数差异。
正面或负面变化突出显示改进或退化的方面。默认情况下，“度量”会对上一个模型版本与最新创建的模型版本进行比较。

要比较不同的模型版本，请使用“显示版本分数差异”下拉菜单，选择可用版本。

了解模型变异性及其对分数差异的影响

IXP 中的某些模型为非确定性模型，这意味着即使字段的指令不变，模型版本之间的字段预测集也可能略有不同。

“度量”页面用于在性能分析期间将模型变异性考虑在内。这有助于您：

了解性能变化是否有意义。
避免过度解读小的指标波动。

默认情况下：

比较两个模型版本时，处于指标变异范围内的分数差异会被隐藏。
您可以选择显示所有分数差异，或仅显示超过或等于指标变异范围的差异。

这些默认值确保您将注意力集中在模型性能的重大变化上，而非干扰因素上。

要在不考虑模型变异性的情况下显示模型版本之间的差异，请按以下步骤操作：

打开“显示版本之间的分数差异”开关。
选择“显示版本之间的分数差异”下拉菜单。
选择“可见性设置”。
在弹出窗口中，选择“显示模型变异范围内的更改”。可用选项包括：
- 仅性能指标——性能指标是通过将模型预测结果与批注进行比较而确定的指标，例如 F1 分数和错误率。
- 所有指标
- 显示模型变异范围内的更改——默认情况下，当前版本变异范围内的更改被视为不重要更改并被隐藏。启用此选项即可显示这些更改。选中后，以下选项可用：
  - 显示所有更改的颜色——默认情况下，变异范围内的更改以灰色显示。启用此选项可将所有更改标记为绿色或红色。
（可选）如果您希望所有分数差异均以绿色或红色显示，请选择“显示所有差异的颜色”。默认情况下，变异范围内的差异以灰色显示。
选择“保存”。

对模型版本加星标

每当您更改分类（包括指令）或模型设置时，系统都会创建一个新的模型版本。模型的最新版本始终可用，但您也可以为特定模型版本加星标（即锁定），以始终在仪表板中显示性能统计信息。

要为模型版本加星标，请按照以下步骤继续操作：

展开“ 模型版本 ”下拉菜单，查看所有可用版本的列表。
选择模型版本旁边的星形图标，即可根据您的需要将其始终固定在列表顶部及仪表板上。

备注：

Starring a model version does not save the model version itself, only the performance statistics. To save a model version, you must deploy it in the Deploy tab.

导出度量数据

您可以在“度量”页面中导出数据，将其用于以下用途：

离线分析。
自定义筛选。
与利益相关者共享结果。

导出数据包括“度量”页面中显示的字段级预测、批注和性能指标。

要导出数据，请按以下步骤操作：

导航到“度量”页面。
选择垂直省略号。
选择“导出为 Excel 文件”。

在此页面上

在“构建”中评估模型性能
在“度量”中评估模型性能
项目摘要
“字段性能”表格
模型版本
选择模型版本
使用分数差异比较不同模型版本
对模型版本加星标
导出度量数据

此页面有帮助吗？

前一个概述

下一个收集验证统计信息

在“构建”中评估模型性能​

在“度量”中评估模型性能​

项目摘要​

项目分数​

为何有用​

如何计算​

平均文档错误率​

为何有用​

如何计算​

“字段性能”表格​

绩效指标​

预测和错误​

批注​

文档级指标​

示例场景​

场景 1：低 F1 + 低精度，中高召回率​

您发现的现象​

通常意味着什么​

下一步操作​

场景 2：高缺失预测（召回率低），中高精度​

您发现的现象​

通常意味着什么​

下一步操作​

场景 3：错误率高，但包含错误的文档数量低（错误集中在少数文档中）​

您发现的现象​

通常意味着什么​

下一步操作​

场景 4：版本之间性能波动较大，批注数量较少​

您发现的现象​

通常意味着什么​

下一步操作​

筛选和排序​

可见性设置​

模型版本​

选择模型版本​

使用分数差异比较不同模型版本​

工作原理​

了解模型变异性及其对分数差异的影响​

对模型版本加星标​

导出度量数据​

此页面有帮助吗？

在“构建”中评估模型性能

在“度量”中评估模型性能

项目摘要

项目分数

为何有用

如何计算

平均文档错误率

为何有用

如何计算

“字段性能”表格

绩效指标

预测和错误

批注

文档级指标

示例场景

场景 1：低 F1 + 低精度，中高召回率

您发现的现象

通常意味着什么

下一步操作

场景 2：高缺失预测（召回率低），中高精度

您发现的现象

通常意味着什么

下一步操作

场景 3：错误率高，但包含错误的文档数量低（错误集中在少数文档中）

您发现的现象

通常意味着什么

下一步操作

场景 4：版本之间性能波动较大，批注数量较少

您发现的现象

通常意味着什么

下一步操作

筛选和排序

可见性设置

模型版本

选择模型版本

使用分数差异比较不同模型版本

工作原理

了解模型变异性及其对分数差异的影响

对模型版本加星标

导出度量数据