communications-mining
latest
false
- API 文档
- CLI
- 集成指南
- 博客
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 开发者指南
Last updated 2024年11月19日
概述
本节概述了平台的核心概念。
要从最终用户的角度了解该平台的更多信息,请查看我们的Communications Mining 用户指南。
概念 | 说明 | 示例 |
---|---|---|
来源 | 在 Communications Mining 中,数据按数据源或来源组织。 通常,一个来源对应一个频道。 电子邮件邮箱、调查结果或一组客户评论都是可以作为数据源上传到 Communications Mining 的数据示例。 可以组合多个源来构建模型,因此最好选择多个源,而不是单个整体源。 | 该图表显示了电子邮件数据(包含单个电子邮件的来源 A)和客户评论数据(包含单个客户评论的来源 B 和 C)。 根据数据来源,客户评论数据分为两个来源,但会合并为一个数据集,以构建通用模型。 |
注释 | 在来源中,每段单独的文本通信都表示为注释。 注释将始终具有 ID、时间戳和文本正文,以及基于其所表示数据类型的其他字段。 例如,电子邮件将具有预期的电子邮件字段,例如“发件人”、“收件人”、“抄送”等。 | 该图显示了各种注释类型如何使用可用注释字段。 例如,在电子邮件注释中,“发件人”字段包含发件人地址,而在客户评论注释中,则包含评论作者。 元数据字段(显示在每个注释的底部)由用户定义。 请注意我们如何对两个客户评论来源使用相同的字段集:由于我们希望将它们合并到单个数据集中,因此数据应该保持一致,以确保良好的模型性能。 |
数据集 | 数据集可用于标注一个或多个来源,以便构建模型。 一个源可以包含在多个数据集中。 数据集中所有标签的集合称为分类。 | 该图表显示了基于支持邮箱数据构建的两个数据集,以及一个合并了客户评论数据的数据集。 请注意,即使数据集 1 和数据集 2 基于相同的数据,其标签分类也不同,因为它们的用例(分析和自动化)需要不同的标签集。 |
模型 | 随着用户注释更多数据,模型会不断更新。 为了获得一致的预测,需要在查询模型时指定模型版本号。 | |
标签 | 标签在训练模型时应用,并在查询模型进行预测时返回。 当标签作为预测返回时,它们具有关联的置信度分数,该分数表示模型认为预测适用的可能性。 要将预测转换为“是/否”答案,需要根据阈值检查置信度分数,选择阈值以表示合适的精度/召回率权衡。 | 标签由 Communications Mining 用户在训练模型时分配。 Communications Mining 用户界面可帮助用户注释最相关的注释,确保一致地应用标签,并注释足够的注释,以生成性能良好的模型。 |