- 入门指南
- 管理
- 管理来源和数据集
- 模型训练和维护
- 使用分析与监控
- 自动化和 Communications Mining
- 常见问题解答及更多内容
实体验证
平台在“验证” 页面中显示已启用实体的验证统计信息、警告和建议操作,这与分类中的每个标签的显示非常类似。
要查看这些实体,请导航至“验证” 页面,然后选择顶部的“实体” 选项卡,如下图所示。
平台验证其正确预测实体能力的流程与验证标签的流程非常相似。
首次将消息添加到数据集时,系统会将消息 (80:20) 拆分为训练集和测试集(由每条消息的消息 ID 随机确定)。 已分配的任何实体(已接受或更正的预测)都将属于训练集或测试集,具体取决于最初将其所在消息分配到的集。
由于一条消息中有时可能包含大量实体,并且无法保证消息是在训练集还是测试集中,因此您可能会看到每个消息集中的实体数量之间存在很大差异。
在某些情况下,所有分配的实体都属于训练集。 由于测试集中至少需要一个示例才能计算验证分数,因此此实体将需要更多分配的示例,直到测试集中出现一些示例为止。
在具有足够训练数据的情况下,每个实体的单独精度和召回率统计信息的计算方式与标签的方式非常相似:
精度= 匹配实体的数量 / 预测实体的数量
召回率 = 匹配实体的数量 / 实际实体的数量
“匹配实体”是平台准确预测了实体的位置(即 无部分匹配项)
F1 分数只是精度和召回率的调和平均值。
值得注意的是,此页面中显示的精度和召回率统计信息对于可在平台中实时训练的实体(如上面第二列所示)非常有用,因为针对这些实体类型审核的所有实体将直接影响平台的预测这些实体的能力。
因此,应尽可能接受正确的实体并更正或拒绝错误的实体。
对于预训练的实体,为了使验证统计信息准确反映性能,用户需要确保接受大量的正确预测,并更正错误的预测。
如果它们只是为了纠正错误的预测,则训练集和测试集将人为地仅包含平台难以预测实体的实例,而不包含平台能够更好地预测的实例。 由于更正对这些实体的错误预测不会导致这些实体的实时更新(它们会定期离线更新),因此验证统计信息可能在一段时间内不会发生变化,并且可能会人为地降低。
接受大量正确的预测可能并不总是方便,因为这些实体通常会被正确预测。 但是,如果大多数预测对于这些实体都是正确的,则您可能无需担心“验证” 页面中的精度和召回率统计信息。
摘要统计信息(平均精度、平均召回率和平均 F1 分数)是每个单独实体分数的简单平均值。
与标签一样,平均分数中仅包含具有足够训练数据的实体。 对于没有足够的训练数据而无法包含在内的实体,其名称旁边会显示警告图标。
“实体验证”页面显示平均实体性能统计信息,以及显示每个实体的平均 F1 分数与其训练集大小的图表。 该图表还会标记具有黄色或红色性能警告的实体。
显示的实体性能统计信息包括:
- F1 平均分数:拥有足够数据以准确评估性能的所有实体的 F1 分数平均值。 此分数同等衡量召回率和精度。 F1 分数较高的模型产生的误报和漏报较少。
- 平均精度:所有实体的精度分数平均值,有足够的数据来准确评估性能。 精度高的模型产生的误报较少。
- 平均召回率:所有实体的召回率分数平均值,有足够的数据来准确评估性能。 召回率高的模型产生的漏报较少。
“验证”页面(见上文)的“指标”选项卡中显示的实体性能图表,可立即直观地指示每个实体的性能。
要使实体显示在此图表上,平台在验证期间使用的训练集中必须至少存在 20 个固定示例。 为确保做到这一点,用户应确保为每个实体提供来自 25 条不同消息的至少 25 个(通常更多)已固定示例。
根据模型对实体性能的理解,每个实体将绘制为三种颜色中的一种。 下面,我们将解释这些含义:
实体绩效指标:
- 图表上绘制为蓝色的实体具有令人满意的性能水平。 这基于众多影响因素,包括示例的数量和种类以及该实体的平均精度
- 绘制为 黄色 的实体的 性能 稍差 一些 。它们的平均精度可能相对较低,或者训练示例数量较少。 这些实体需要一些训练/校正以提高其性能
- 绘制为红色的实体是性能不佳的实体。它们的平均精度可能非常低,或者训练示例不足。 这些实体可能需要进行更多的训练/更正,才能将其性能提升到令人满意的水平