communications-mining
latest
false
重要 :
请注意,此内容已使用机器翻译进行了本地化。
Communications Mining 用户指南
Last updated 2024年10月3日
多语言来源和数据集
Communications Mining™ 支持多语言源和数据集。 这意味着模型可以理解包含多种不同受支持语言的来源,而无需实际翻译这些语言。
多语言来源和数据集中当前正式发布的语言包括:英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语和日语。
如果用户使用平台支持的多种语言工作和开展业务,则他们可以使用这些语言的消息进行训练,而不是将所有内容翻译成单一语言。
使用多语言来源和数据集时的重要注意事项:
- 如果数据集是多语言数据集,则用户将无法看到任何消息的翻译(如为翻译的数据集提供的那样),因此他们需要能够理解数据集中的所有语言,才能有效训练他们的模型
- 与理解单一语言相比,理解多种语言是一个更复杂的机器学习问题,因此与使用单一语言的数据集相比,这些数据集的性能可能会略有下降
- 该平台只能理解上面列出的其中一种受支持语言的语言。 如果数据集中存在其他语言,则使用受支持语言的消息上使用的标签来标记这些消息将使平台感到困惑。 最好将这些注释注释为它们自己的特定标签,以将语言捕获为标签,但平台将无法解释不支持的语言的详细信息
如何创建多语言来源和数据集?
对于数据源和数据集,在创建时都会选择语言系列,并且一旦选择便无法更改。
只需从“创建源”或“创建数据集”模态窗口的语言族下拉列表中选择“多语言”即可(这通常是最后选择的设置)。
注意:多语言数据集可以包含平台支持的任何语族的源。
有关在用户界面中创建源的更多详细信息,请查看在 GUI 中创建数据源页面。
有关创建数据集的更多详细信息,请查看 “新建数据集”页面。
备注:
在内部人员门户上注册以提供反馈或提出问题。
预览版中还支持大量其他语言,这意味着当您开始使用这些语言时,我们将努力对其进行微调。 这些语言中的大部分都具有非常出色的性能,我们的团队几乎不需要进行微调,就可以实现高性能。
- 南非荷兰语
- 阿尔巴尼亚语
- 阿姆哈拉语
- 阿拉伯语
- 亚美尼亚语
- 阿萨姆语
- 阿塞拜疆
- 巴斯克语
- 白俄罗斯语
- 孟加拉语
- 孟加拉语(罗曼化)
- 波斯尼亚语
- 布列塔尼
- 保加利亚语
- 缅甸语
- 缅甸语
- 加泰罗尼亚语
- 中文 (简体)
- 中文 (繁体)
- 克罗地亚语
- 捷克语
- 丹麦语
- 世界语
- 爱沙尼亚语
- 菲律宾语
- 芬兰语
- 加利西亚语
- 格鲁吉亚语
- 希腊语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 印地语(拉丁语)
- 匈牙利语
- 冰岛语
- 印尼语
- 爱尔兰语
- 爪哇语
- 卡纳达语
- 哈萨克语
- 高棉语
- 韩语
- 库尔德语 (Kurmanji)
- 吉尔吉斯语
- 老挝语
- 拉丁语
- 拉脱维亚语
- 立陶宛语
- 马其顿语
- 马达加斯加语
- 马来语
- 马拉雅拉姆语
- 马拉地语
- 蒙古语
- 尼泊尔语
- 挪威语
- 奥里亚语
- 奥罗莫语
- 普什图语
- 波斯语
- 波兰语
- 旁遮普语
- 罗马尼亚语
- 俄语
- 梵语
- 苏格兰盖尔语
- 塞尔维亚语
- 信德语
- 尼加拉语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 巽他语
- 斯瓦希里语
- 瑞典语
- 瑞士德语
- 泰米尔语
- 泰米尔语(罗曼化)
- 泰卢固语
- 泰卢固语(罗曼化)
- 泰语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌尔都语(罗曼化)
- 维语
- 乌兹别克语
- 越南语
- 威尔士语
- 西弗里西亚语
- 科萨语
- 意第绪语