communications-mining
latest
false
正在准备要上传的 .CSV 数据
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
Last updated 2024年10月3日
正在准备要上传的 .CSV 数据
所需的用户权限:“来源管理员”和“编辑消息”。
您可以在此处找到有关从 .csv 文件上传数据的说明, 以及您在平台中可能遇到的常见错误消息。
在将数据上传到 Communications Mining 之前,在准备由平台提取的数据时,需要考虑一些因素。
重要提示:
请确保上传的是 .csv 文件,而不是Excel 文件。
如果您一直在 Excel 中打开 .csv 并进行更改,则可能会导致格式问题,可能会导致上传时出现问题。 为避免这种情况,请确保在 .csv 文件中完成所有更新 直接。
此外,在上传您的 .csv 文件之前,请检查以下内容 平台,以避免在上传时遇到任何错误,或出现对模型性能产生负面影响的数据质量问题:
项目 | 描述 |
重复行 | 在数据提取中多次重复相同的数据 |
标头不匹配 | 将错误的标头与错误的数据字段对齐 |
悬空行或列 | 并非所有数据都包含在连续的行中
示例:第 1 行到第 10,000 行中包含所有消息,但其中一个单元格包含第 19,999 行中的数据。 |
日期格式不一致 | 日期格式不一致的不同行
示例:在同一个数据集中包含多个美国日期格式的消息和多个欧盟日期格式的消息,因为这会在规范化下游时产生问题。 |
句子语无伦次 | 这些句子包含各种单词,没有明确的句法或语义结构
示例:“用户正在请求创建新的可移植 28442 298 工单” |
间距不一致 | 单词之间的空格数量不规则时。
示例:而不是“该策略设置为续订” |
单词中断 | 当单词中间不应该有中断时。
示例:“策略已设置。 续订”,而不是“该策略已设置为续订” |
字符编码错误 | 文本数据未正确编码,导致出现乱码或无法读取的字符。
示例:“Th??? pp is gré?t”,而不是“该应用程序很棒。” |
空白消息 | 主题/正文中不包含任何内容的通信 |
包含大量拼写错误的消息 | 包含大量拼写错误的文本数据 |
页眉/页脚 | 包含页眉或页脚时
示例:垃圾邮件警告、病毒扫描警告等。 |
元数据包含在主题/正文中,而不是作为元数据属性 | 主题或正文中包含元数据时
示例: 将“[01/01/2023] I WCF 续订我的策略”作为消息正文,而不是“我想续订我的策略”作为消息,其中包含的日期为 01/01/2023元数据。 |
多条消息合并为一条消息 | 当一个线程中有多条消息应拆分为单独的消息时,应将其合并为单个通信。 |