Communications Mining
最新
False
横幅背景图像
Communications Mining 用户指南
上次更新日期 2024年4月18日

多语言来源和数据集

Communications Mining 现在支持多语言数据集。 这意味着模型可以理解包含多种不同受支持语言的源,而无需实际进行翻译。

多语言来源和数据集中当前“正式发布”的语言包括:英语、法语、德语、西班牙语、意大利语、葡萄牙语荷兰语(我们将逐步扩大此列表的范围!)。

这在实践中意味着,如果用户使用平台支持的多种语言工作和开展业务,他们可以使用这些语言的消息进行训练,而不是将所有内容翻译成单一语言。

预览版”(包含在本页底部)支持大量其他语言,这意味着随着客户和合作伙伴开始使用这些语言,我们将不断努力对其进行微调。 这些语言中的大部分都具有非常出色的性能,我们的团队几乎不需要进行微调,就可以实现高性能。

使用多语言来源和数据集时的重要注意事项:

  • 如果数据集是多语言数据集,则用户将无法看到任何消息的翻译(如为翻译的数据集提供的那样),因此他们需要能够理解数据集中的所有语言,才能有效训练他们的模型
  • 与理解单一语言相比,理解多种语言是一个更复杂的机器学习问题,因此与使用单一语言的数据集相比,这些数据集的性能可能会略有下降
  • 该平台只能理解上面列出的其中一种受支持语言的语言。 如果数据集中存在其他语言,则使用受支持语言的消息上使用的标签来标记这些消息将使平台感到困惑。 最好将这些语言标记为它们自己的特定标签,以将语言捕获为标签,但平台将无法解释不支持的语言的详细信息

如何创建多语言来源和数据集?

对于数据源和数据集,在 创建 时会选择 语言系列 ,并且 一旦选定便无法更改

只需从“创建源”或“创建数据集”模式的 语言族下拉列表 中 选择“多语言” 即可(这通常是最后选择的设置)。

注意:多语言数据集可以包含平台支持的任何语族的源。

有关在用户界面中创建源的更多详细信息,请查看在 GUI 中创建数据源页面。

有关创建数据集的更多详细信息,请查看 “新建数据集”页面。

常规发布语言

  • 英文
  • 荷兰语
  • 法语
  • 德语
  • 意大利语
  • 葡萄牙语
  • 西班牙语

“处于预览阶段”支持的语言

  • 南非荷兰语
  • 阿尔巴尼亚语
  • 阿姆哈拉语
  • 阿拉伯语
  • 亚美尼亚语
  • 阿萨姆语
  • 阿塞拜疆
  • 巴斯克语
  • 白俄罗斯语
  • 孟加拉语
  • 孟加拉语(罗曼化)
  • 波斯尼亚语
  • 布列塔尼
  • 保加利亚语
  • 缅甸语
  • 缅甸语
  • 加泰罗尼亚语
  • 中文 (简体)
  • 中文 (繁体)
  • 克罗地亚语
  • 捷克语
  • 丹麦语
  • 世界语
  • 爱沙尼亚语
  • 菲律宾语
  • 芬兰语
  • 加利西亚语
  • 格鲁吉亚语
  • 希腊语
  • 古吉拉特语
  • 豪萨语
  • 希伯来语
  • 印地语
  • 印地语(拉丁语)
  • 匈牙利语
  • 冰岛语
  • 印尼语
  • 爱尔兰语
  • 日语
  • 爪哇语
  • 卡纳达语
  • 哈萨克语
  • 高棉语
  • 韩语
  • 库尔德语 (Kurmanji)
  • 吉尔吉斯语
  • 老挝语
  • 拉丁语
  • 拉脱维亚语
  • 立陶宛语
  • 马其顿语
  • 马达加斯加语
  • 马来语
  • 马拉雅拉姆语
  • 马拉地语
  • 蒙古语
  • 尼泊尔语
  • 挪威语
  • 奥里亚语
  • 奥罗莫语
  • 普什图语
  • 波斯语
  • 波兰语
  • 旁遮普语
  • 罗马尼亚语
  • 俄语
  • 梵语
  • 苏格兰盖尔语
  • 塞尔维亚语
  • 信德语
  • 尼加拉语
  • 斯洛伐克语
  • 斯洛文尼亚语
  • 索马里语
  • 巽他语
  • 斯瓦希里语
  • 瑞典语
  • 瑞士德语
  • 泰米尔语
  • 泰米尔语(罗曼化)
  • 泰卢固语
  • 泰卢固语(罗曼化)
  • 泰语
  • 土耳其语
  • 乌克兰语
  • 乌尔都语
  • 乌尔都语(罗曼化)
  • 维语
  • 乌兹别克语
  • 越南语
  • 威尔士语
  • 西弗里西亚语
  • 科萨语
  • 意第绪语
  • “处于预览阶段”支持的语言

此页面是否有帮助?

获取您需要的帮助
了解 RPA - 自动化课程
UiPath Community 论坛
Uipath 白色徽标
信任与安全
© 2005-2024 UiPath. All rights reserved.