Communications Mining
最新
False
横幅背景图像
Communications Mining 用户指南
上次更新日期 2024年4月18日

模型训练常见问题解答

此页面上的信息分为两个部分:
  • 常规模型训练
  • 标签训练

常规模型训练

训练模型的目标是什么?

训练模型的目的是创建一组尽可能具有整体数据集代表性的训练数据,以便平台可以准确且有把握地预测每条消息的相关标签和实体。 数据集中的标签和实体应与用例的整体目标有内在联系,并提供重要的业务价值。

如果我刚刚将数据上传到平台,为什么在“发现” 中看不到任何内容?

数据上传到平台后,平台会立即开始一个称为无监督学习的过程,从而将消息分组到具有相似语义意图的集群中。 此过程最多可能需要几个小时,具体取决于数据集的大小。完成后系统将显示集群。

训练模型需要多少历史数据?

为了能够训练模型,您需要最少量的现有历史数据。 这可用作训练数据,以便为平台提供必要的信息,以便有把握地预测用于分析和/或自动化的每个相关概念。

对于任何用例,建议至少使用 12 个月的历史数据,以便正确捕获数据中的任何季节性或不规则性(例如 月末流程和旺季)。

每次进行更改时都需要保存模型吗?

不,您不需要在进行任何更改后保存模型。 每次根据数据训练平台时(即 标记任何消息),则将为您的数据集创建一个新的模型版本。 可以在“验证”中查看旧模型版本的性能统计信息。

如何知道模型的性能如何?

请查看平台中的“验证”页面,该页面会报告各种性能指标,并提供整体模型运行状况评分。 此页面会在每次训练后更新,可用于识别模型可能需要更多训练示例或更正一些标签的领域,以确保一致性。

有关模型性能及其改进方法的完整说明,请参阅 “验证”页面

为什么只有 30 个可用集群?我们可以单独设置它们吗?

集群是帮助您快速构建分类的有效方法,但用户将大部分时间都花在“探索”训练上,而不是“发现”训练上。

如果用户花费过多时间通过集群进行标记,则在进行预测时,模型可能会过度拟合以仅查找适合这些集群的消息。 每个标签的示例越多样化,模型就越能更好地找到表达同一意图或概念的不同方式。 这就是我们一次只显示 30 个集群的主要原因之一。

但是,一旦完成了足够的训练或将大量数据添加到平台中(请参阅此处),“发现” 就会重新训练。 重新训练时,它会考虑迄今为止的现有训练,并将尝试呈现当前分类法未涵盖的新集群。

有关“发现”的更多信息,请参见此处

每个集群中有多少条消息?

总共 30 个集群,每个集群包含 12 条消息。 在平台中,您可以以每页 6 到 12 之间的增量筛选页面上显示的消息数量。 我们的建议是一次标记 6 封邮件,以确保降低部分标记任何邮件的风险。

精度和召回率是什么意思?

精度和召回率是用于衡量机器学习模型性能的指标。 有关每个选项的详细说明,请参阅我们的操作指南的 “使用验证”部分。

是否可以返回到模型的较早版本?

您可以将鼠标悬停在“验证”页面左上角的“模型版本”上,以访问早期模型的验证概述。 这有助于在训练模型时跟踪和比较进度。

如果您需要将模型回滚到以前的固定版本,请参阅此处了解更多详细信息。

标签训练

以后可以更改标签名称吗?

是的,这很容易做到。 您可以进入每个标签的设置,并随时重命名。 您可以在此处查看如何执行操作。

如何查看已标记的邮件消息数量?

“数据集设置”页面中将显示有关数据集的信息,包括已标记的消息数量。 要查看如何访问,请单击此处

我的一个标签效果不佳,该如何改进?

如果您在“验证”页面中看到标签效果不佳,则有多种方法可以提高其性能。 请参阅此处了解详情。

标签或实体旁边的红色拨号盘表示什么? 如何摆脱它?

每个标签/实体旁边的红色小转盘表示平台是否需要更多示例来准确估计标签/实体的性能。 随着您提供的训练示例数量增加,转盘开始消失。示例数量达到 25 后,转盘将完全消失。

之后,平台将能够有效评估给定标签/实体的性能,如果标签/实体运行状况不佳,则可能会返回性能警告。

我是否应该避免标记空消息/无意义消息?

只要消息标记正确,平台就能从空消息和无意义消息中学习。 但是,值得注意的是,非信息性标签可能需要大量训练示例,并且需要按概念进行松散分组,以确保获得最佳性能。

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.