마이크로소프트 Paza: 39개 아프리카 언어 음성인식 벤치마크 공개
- 저자원 언어 최초의 전용 ASR 리더보드 출시
- 52개 최신 모델 성능 비교 가능
- 케냐 6개 언어 대상 파인튜닝 모델 3종 함께 공개
무슨 일이 일어났나?
마이크로소프트 리서치가 저자원 언어를 위한 음성인식(ASR) 벤치마크 플랫폼 Paza를 공개했다.[Microsoft Research] Paza는 ‘목소리를 높이다’라는 뜻의 스와힐리어에서 유래했다. 이 프로젝트는 PazaBench 리더보드와 Paza ASR 모델 두 가지로 구성된다.
PazaBench는 저자원 언어 전용 최초의 ASR 리더보드다. 39개 아프리카 언어를 대상으로 52개 최신 ASR 및 언어 모델의 성능을 측정한다.[Microsoft Research] 문자 오류율(CER), 단어 오류율(WER), 실시간 처리 속도(RTFx) 세 가지 지표를 추적한다.
왜 중요한가?
현재 대부분의 음성인식 시스템은 영어, 중국어 등 주요 언어에 최적화되어 있다. 아프리카 언어 사용자는 10억 명이 넘지만 이들을 위한 기술 지원은 부족했다. 마이크로소프트의 Project Gecko 연구에서도 “실제 저자원 환경에서 음성 시스템이 실패한다”는 점이 드러났다.[Microsoft Research]
Paza 팀은 “저자원 환경에서 쓸 만한 음성 모델을 만드는 건 데이터 문제만이 아니라 설계와 평가의 문제”라고 강조했다. 단순히 언어를 추가하는 게 아니라 현지 커뮤니티와 함께 기술을 만들어간다는 접근이 핵심이다.
앞으로 어떻게 될까?
Paza는 케냐 6개 언어(스와힐리어, 돌루오어, 칼렌진어, 키쿠유어, 마사이어, 소말리어)를 대상으로 파인튜닝된 3개 모델을 공개했다. Paza-Phi-4-Multimodal-Instruct, Paza-MMS-1B-All, Paza-Whisper-Large-v3-Turbo가 그것이다. 향후 더 많은 아프리카 언어로 확장될 전망이다. 오픈 벤치마크 형태로 공개되어 연구자들이 자유롭게 모델을 테스트하고 개선할 수 있다.
자주 묻는 질문 (FAQ)
Q: Paza 벤치마크는 어떤 언어를 지원하나?
A: 현재 39개 아프리카 언어를 지원한다. 스와힐리어, 요루바어, 하우사어 등이 포함되며 케냐 언어 6개에 대해서는 파인튜닝된 모델도 제공한다. 리더보드 형태로 운영되어 연구자들이 직접 모델 성능을 비교할 수 있다.
Q: PazaBench에서 측정하는 성능 지표는 무엇인가?
A: 세 가지 지표를 측정한다. 문자 오류율(CER)은 개별 문자 단위 오류를, 단어 오류율(WER)은 단어 단위 오류를 측정한다. RTFx는 실시간 처리 속도를 나타내며 실제 배포 시 응답 속도를 예측하는 데 활용된다.
Q: 왜 저자원 언어 음성인식이 어려운가?
A: 학습 데이터가 절대적으로 부족하다. 영어는 수만 시간의 음성 데이터가 있지만 아프리카 언어는 수백 시간에 불과한 경우가 많다. 또한 방언 다양성이 크고 표준 표기법이 없는 언어도 있어 평가 자체가 어렵다.
이 글이 유용했다면 AI Digester를 구독해주세요.
참고 자료
- Paza: Introducing automatic speech recognition benchmarks and models for low resource languages – Microsoft Research (2026-02-04)
- Massively Multilingual ASR: 50 Languages, 1 Model, 1 Billion Parameters – arXiv (2023-05-22)
- Whisper: Robust Speech Recognition via Large-Scale Weak Supervision – OpenAI (2022-09-21)