
非结构化复杂文档用户指南
验证提取预测
模型目前无法直接从用户标注中学习。要提高模型的性能,请修改您的提示指令或模型配置。
在您对提示指令感到满意后,您可以开始验证模型的预测,为其性能评估建立基础。在此之前,您必须了解预测和参考之间的差异。
预测和参考
预测是预测值,会与真值进行比较。
注意:预测不正确或缺失会影响“度量”选项卡中的模型分数和性能指标。
引用是对在文档中找到的预测值的匹配引用。参考旨在帮助用户找到文档中正确的部分。
不正确或缺失的引用不会影响模型分数或性能指标。但是,添加或更正引用可能有助于改善人工验证的体验。
引用和突出显示的跨度存在已知的限制,是我们需要优先改进的关键问题之一。
您可能会遇到以下情况之一:
-
正确的预测和正确的引用,但突出显示的跨度有误。通常,这是找到的第一个匹配项。
-
预测正确,但缺少引用或/且未突出显示跨度。在这些场景中,我们提供页码作为备用方法。

预测和参考是独立的。这意味着缺失或不正确的引用不会影响预测值。

验证提取
预测时,提取数据会通过以下方式突出显示:
-
有下划线 - 预测值。

-
有填充色 - 确认值。

-
虚线边框 - 未确认值。

要验证提取,请按照以下步骤操作:
- 转到“ 构建 ”选项卡,然后选择“ 验证预测 或任何上传的文档”,以开始验证流程。该模型突出显示文档中的文本的相关跨度,并在侧面板中显示生成的预测。 适用于多项提取数据的值(例如账户号码)具有箭头按钮,以帮助跳转到相关部分。鼠标悬停时显示按钮。
下图显示了提取数据在预测状态下的外观。预测值始终带有下划线。
2. 审核预测,并逐一确认提取内容或通过确认整个字段组进行批量确认。在没有仔细检查每个提取内容的情况下,建议不要选择“确认全部,然后继续下一步”按钮。下图显示了:
- 表格第一行显示了提取数据在未确认状态下的外观,即曾经被确认,但现在处于未确认状态的值。未确认的值具有虚线边框。
- 表格第二行和第三行显示了提取数据在确认状态下的外观,即您已确认或更正的值。确认的值始终有填充色。
您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。
3. 您可以通过“管理分类”或“构建”选项卡随时在提取架构中配置其他字段。
在 Action Center 中验证提取的示例

停止提取验证
建议您为每个字段至少验证 10 个示例,以便模型可以提供有意义的验证统计信息。
已确认和未确认的引用和提取数据
验证流程包括以下步骤:
- 提取是否正确,请对其进行确认。
- 如果提取不正确,则对其进行更正。
- 如果文档中不存在这些字段,则将其标记为“缺失”。
- 配置提取架构中的其他字段。
本节显示了提取和引用在确认状态(已验证)和未确认状态(未验证)时的外观。
您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。
预测值

未确认值
文档中的引用会突出显示虚线边框:
图 1. 未确认引用

没有提取标记为“已确认”:
图 2. 未确认的提取

已确认
引用会以实线边框的形式突出显示:
图 3. 已确认的参考

提取被标记为“已确认”:
图 4. 确认的提取

经过验证的提取
本节包含模型预测与用户标注匹配或不匹配的示例场景。
当批注与预测匹配时,提取过程如下所示:
图 5. 正确预测

当批注与预测不匹配时,提取过程如下所示:
图 6. 预测不正确

在有批注但没有预测时,提取数据如下所示:
图 7. 缺少预测

将预测结果与注释进行比较,而不是与参考进行比较。引用可能缺失或不正确,但这不会被标记为不匹配。
更正提取
要更正提取数据,请按照以下步骤操作:
-
将鼠标悬停在提取数据上,然后点击铅笔图标以编辑预测值。
-
输入正确值。
-
选择加号
+图标,以更新预测值或引用。 -
在文档中突出显示正确值。
备注:您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。

编辑提取
在“ 验证预测 ”页面的“ 构建 ”选项卡下,按以下方式编辑提取:
-
选择加号图标,添加缺失的提取。
-
选择表格图标,以打开表格视图。
-
从侧面板或表格视图确认提取。
-
将鼠标悬停在提取上,使用铅笔和加号图标逐个更正提取:
- 点击铅笔图标,您可以编辑预测值并输入正确的值。
- 使用加号图标,您可以更新预测值或引用,并在文档中突出显示正确的值。
-
选择 “添加字段组”, 以添加缺失的字段组。
备注:您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。


草稿批注
在您将文档中的值和引用作为批注提交给模型之前,您对文档中的值和引用进行的任何编辑都将存储为草稿批注。因此,文档状态显示为“正在进行”。
在您进行更改时,之前提到的所有操作(例如,验证、更正和编辑提取,然后提交批注)都将保留为草稿。
如果您在文档处于草稿状态时请求新预测,系统在重新填充新预测时会保留草稿批注,并将新的一组预测从模型与草稿批注进行匹配。