非结构化复杂文档用户指南
模型目前无法直接从用户标注中学习。要提高模型的性能,请修改您的提示指令或模型配置。
在您对提示指令感到满意后,您可以开始验证模型的预测,为其性能评估建立基础。在此之前,您必须了解预测和参考之间的差异。
预测和参考
预测是预测值,会与真值进行比较。
注意:预测不正确或缺失会影响“度量”选项卡中的模型分数和性能指标。
引用是对在文档中找到的预测值的匹配引用。参考旨在帮助用户找到文档中正确的部分。
不正确或缺失的引用不会影响模型分数或性能指标。但是,添加或更正引用可能有助于改善人工验证的体验。
引用和突出显示的跨度存在已知的限制,是我们需要优先改进的关键问题之一。
您可能会遇到以下情况之一:
-
正确的预测和正确的引用,但突出显示的跨度有误。通常,这是找到的第一个匹配项。
-
预测正确,但缺少引用或/且未突出显示跨度。在这些场景中,我们提供页码作为备用方法。
预测和参考是独立的。这意味着缺失或不正确的引用不会影响预测值。
验证提取
预测时,提取数据会通过以下方式突出显示:
-
有下划线 - 预测值。

-
有填充色 - 确认值。

-
虚线边框 - 未确认值。

要验证提取,请按照以下步骤操作:
- 转到“ 构建 ”选项卡,然后选择“ 验证预测 或任何上传的文档”,以开始验证流程。该模型突出显示文档中的文本的相关跨度,并在侧面板中显示生成的预测。 适用于多项提取数据的值(例如账户号码)具有箭头按钮,以帮助跳转到相关部分。鼠标悬停时显示按钮。
下图显示了提取数据在预测状态下的外观。预测值始终带有下划线。
2. Review the predictions and either confirm the extractions one by one or in bulk by confirming the entire field group. It is not recommended to select the Confirm all and next button without carefully reviewing each extraction. The following image depicts:
- 表格第一行显示了提取数据在未确认状态下的外观,即曾经被确认,但现在处于未确认状态的值。未确认的值具有虚线边框。
- 表格第二行和第三行显示了提取数据在确认状态下的外观,即您已确认或更正的值。确认的值始终有填充色。
您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。
3. You can configure additional fields in your extraction schema at any point from Manage taxonomy or the Build tab.
在 Action Center 中验证提取的示例
停止提取验证
建议您为每个字段至少验证 10 个示例,以便模型可以提供有意义的验证统计信息。
已确认和未确认的引用和提取数据
验证流程包括以下步骤:
- 提取是否正确,请对其进行确认。
- 如果提取不正确,则对其进行更正。
- 如果文档中不存在这些字段,则将其标记为“缺失”。
- 配置提取架构中的其他字段。
本节显示了提取和引用在确认状态(已验证)和未确认状态(未验证)时的外观。
您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。
预测值
未确认值
文档中的引用会突出显示虚线边框:
图 1. 未确认引用
没有提取标记为“已确认”:
图 2. 未确认的提取
已确认
引用会以实线边框的形式突出显示:
图 3. 已确认的参考
提取被标记为“已确认”:
图 4. 确认的提取
经过验证的提取
本节包含模型预测与用户标注匹配或不匹配的示例场景。
当批注与预测匹配时,提取过程如下所示:
图 5. 正确预测
当批注与预测不匹配时,提取过程如下所示:
图 6. 预测不正确
在有批注但没有预测时,提取数据如下所示:
图 7. 缺少预测
将预测结果与注释进行比较,而不是与参考进行比较。引用可能缺失或不正确,但这不会被标记为不匹配。
更正提取
要更正提取数据,请按照以下步骤操作:
-
将鼠标悬停在提取数据上,然后点击铅笔图标以编辑预测值。
-
输入正确值。
-
选择加号
+图标,以更新预测值或引用。 -
在文档中突出显示正确值。
备注:您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。
编辑提取
在“ 验证预测 ”页面的“ 构建 ”选项卡下,按以下方式编辑提取:
-
选择加号图标,添加缺失的提取。
-
选择表格图标,以打开表格视图。
-
从侧面板或表格视图确认提取。
-
将鼠标悬停在提取上,使用铅笔和加号图标逐个更正提取:
- 点击铅笔图标,您可以编辑预测值并输入正确的值。
- 使用加号图标,您可以更新预测值或引用,并在文档中突出显示正确的值。
-
选择 “添加字段组”, 以添加缺失的字段组。
备注:您所做的任何更改未提交,都将保存为草稿,您稍后可以返回并更新。有关更多详细信息,请查看“草稿注释” 。
草稿批注
在您将文档中的值和引用作为批注提交给模型之前,您对文档中的值和引用进行的任何编辑都将存储为草稿批注。因此,文档状态显示为“正在进行”。
在您进行更改时,之前提到的所有操作(例如,验证、更正和编辑提取,然后提交批注)都将保留为草稿。
如果您在文档处于草稿状态时请求新预测,系统在重新填充新预测时会保留草稿批注,并将新的一组预测从模型与草稿批注进行匹配。