マイクロソフト Paza: アフリカ39言語の音声認識ベンチマークを公開

マイクロソフト Paza: 39のアフリカ言語の音声認識ベンチマークを公開

  • 低リソース言語初の専用ASRリーダーボードをリリース
  • 52の最新モデルの性能比較が可能
  • ケニアの6つの言語を対象としたファインチューニングモデル3種を合わせて公開

何が起こったのか?

マイクロソフトリサーチが低リソース言語のための音声認識(ASR)ベンチマークプラットフォームPazaを公開した。[Microsoft Research] Pazaは「声を上げる」という意味のスワヒリ語に由来する。このプロジェクトはPazaBenchリーダーボードとPaza ASRモデルの2つで構成される。

PazaBenchは低リソース言語専用初のASRリーダーボードだ。39のアフリカ言語を対象に52の最新ASRおよび言語モデルの性能を測定する。[Microsoft Research] 文字誤り率(CER)、単語誤り率(WER)、リアルタイム処理速度(RTFx)の3つの指標を追跡する。

なぜ重要なのか?

現在、ほとんどの音声認識システムは英語、中国語などの主要言語に最適化されている。アフリカ言語のユーザーは10億人を超えるが、彼らのための技術サポートは不足していた。マイクロソフトのProject Gecko研究でも「実際の低リソース環境で音声システムが失敗する」という点が明らかになった。[Microsoft Research]

Pazaチームは「低リソース環境で使える音声モデルを作るのはデータの問題だけでなく、設計と評価の問題」だと強調した。単に言語を追加するのではなく、現地のコミュニティと共に技術を作り上げていくというアプローチが核心だ。

今後どうなるのか?

Pazaはケニアの6つの言語(スワヒリ語、ドルオ語、カレンジン語、キクユ語、マサイ語、ソマリ語)を対象にファインチューニングされた3つのモデルを公開した。Paza-Phi-4-Multimodal-Instruct、Paza-MMS-1B-All、Paza-Whisper-Large-v3-Turboがそれだ。今後、より多くのアフリカ言語に拡張される見込みだ。オープンベンチマークの形で公開され、研究者たちが自由にモデルをテストし、改善することができる。

よくある質問 (FAQ)

Q: Pazaベンチマークはどんな言語をサポートしているのか?

A: 現在39のアフリカ言語をサポートしている。スワヒリ語、ヨルバ語、ハウサ語などが含まれ、ケニアの言語6つについてはファインチューニングされたモデルも提供する。リーダーボードの形で運営され、研究者たちが直接モデル性能を比較することができる。

Q: PazaBenchで測定する性能指標は何なのか?

A: 3つの指標を測定する。文字誤り率(CER)は個別の文字単位の誤りを、単語誤り率(WER)は単語単位の誤りを測定する。RTFxはリアルタイム処理速度を示し、実際の配布時の応答速度を予測するのに活用される。

Q: なぜ低リソース言語の音声認識は難しいのか?

A: 学習データが絶対的に不足している。英語は数万時間の音声データがあるが、アフリカ言語は数百時間に過ぎない場合が多い。また、方言の多様性が大きく、標準表記法がない言語もあり、評価自体が難しい。


この記事が役に立ったならAI Digesterを購読してください。

参考資料

コメントする