微软 Paza:发布 39 种非洲语言语音识别基准

微软 Paza:发布 39 种非洲语言语音识别基准

  • 推出首个低资源语言专用 ASR 排行榜
  • 可比较 52 个最新模型的性能
  • 同时发布针对肯尼亚 6 种语言的微调模型 3 种

发生了什么?

微软研究院发布了用于低资源语言的语音识别 (ASR) 基准平台 Paza。[Microsoft Research] Paza 源自斯瓦希里语,意为“提高声音”。该项目由 PazaBench 排行榜和 Paza ASR 模型两部分组成。

PazaBench 是首个低资源语言专用 ASR 排行榜。它衡量了 39 种非洲语言的 52 个最新 ASR 和语言模型的性能。[Microsoft Research] 跟踪三个指标:字符错误率 (CER)、单词错误率 (WER) 和实时处理速度 (RTFx)。

为什么重要?

目前,大多数语音识别系统都针对英语、中文等主要语言进行了优化。非洲语言使用者超过 10 亿,但对他们的技术支持不足。微软的 Project Gecko 研究也表明“语音系统在实际低资源环境中会失败”。[Microsoft Research]

Paza 团队强调,“在低资源环境中创建有用的语音模型不仅是数据问题,还是设计和评估问题”。核心在于不仅仅是添加语言,而是与当地社区一起开发技术。

未来会怎样?

Paza 发布了针对肯尼亚 6 种语言(斯瓦希里语、卢奥语、卡伦金语、基库尤语、马赛语、索马里语)进行微调的 3 个模型。它们是 Paza-Phi-4-Multimodal-Instruct、Paza-MMS-1B-All 和 Paza-Whisper-Large-v3-Turbo。预计未来将扩展到更多非洲语言。它以开放基准的形式发布,研究人员可以自由地测试和改进模型。

常见问题 (FAQ)

问:Paza 基准支持哪些语言?

答:目前支持 39 种非洲语言。包括斯瓦希里语、约鲁巴语、豪萨语等,并为肯尼亚 6 种语言提供微调模型。以排行榜形式运营,研究人员可以直接比较模型性能。

问:PazaBench 衡量哪些性能指标?

答:衡量三个指标。字符错误率 (CER) 衡量单个字符的错误,单词错误率 (WER) 衡量单词的错误。RTFx 表示实时处理速度,用于预测实际部署时的响应速度。

问:为什么低资源语言语音识别很困难?

答:学习数据绝对不足。英语有数万小时的语音数据,但非洲语言通常只有数百小时。此外,方言多样性很大,并且有些语言没有标准拼写法,因此评估本身就很困难。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论