MiniCPM-o 4.5: スマートフォンで動作するマルチモーダルAI
- GitHub Stars: 23.6k
- 言語: Python
- ライセンス: Apache 2.0
このプロジェクトが注目される理由
MiniCPM-o 4.5は9BパラメータでGPT-4oを超え、Gemini 2.5 Flashに匹敵する。OpenBMBが2026年2月に公開したオープンソースのマルチモーダルLLMである。[GitHub]
フルデュプレックスライブストリーミングをサポートするオープンソースモデルはほとんど存在しない。スマートフォンで見て、聞いて、話すことを同時に処理する。[HuggingFace]
何ができるのか?
- ビジョン理解: 最大180万ピクセルの画像とOCR処理。OpenCompass 77.6点である。
- リアルタイム音声対話: 英語・中国語の二言語対話。音声複製も可能である。
- フルデュプレックスストリーミング: ビデオ・オーディオ入力とテキスト・音声出力を同時に処理する。
- 先制的な相互作用: シーン認識に基づいて、先に通知を送信する。
クイックスタート
# Ollamaで実行
ollama run minicpm-o-4_5
# Dockerでフルデュプレックスモード
docker pull openbmb/minicpm-o:latest
どこに使うのが良いか?
リアルタイム映像翻訳アシスタントが第一である。カメラで文書を見せると、すぐに翻訳してくれる。アクセシビリティ補助ツールとしても有用である。周辺環境をリアルタイムで説明するアプリを作成できる。クラウドAPI費用なしでローカルで動作するAI秘書としても活用可能である。[GitHub]
注意点
- フルモデルはVRAM 20GB以上が必要である。int4量子化バージョンで要求仕様を下げることができる。
- 音声機能は英語と中国語のみ対応である。韓国語音声は未サポートである。
- フルデュプレックスモードは実験段階である。
よくある質問 (FAQ)
Q: MiniCPM-o 4.5はどのようなハードウェアで動作するのか?
A: フルモデルはVRAM 20GB以上のGPUが必要である。int4量子化バージョンは8GBでも推論が可能である。Ollamaやllama.cppでMacでもローカル実行でき、公式Dockerイメージも提供されている。
Q: GPT-4oと比較するとどの程度のレベルか?
A: OpenCompassベンチマーク77.6点でGPT-4oを超えた。MMBench 87.6、MathVista 80.1、OCRBench 876点を記録した。ビジョン性能基準であり、テキスト専用の作業では差がある可能性がある。
Q: 商業的に使用できるか?
A: Apache 2.0ライセンスで商業使用が可能である。ソース修正と再配布も自由である。学習データ内のコンテンツ著作権は別途確認が必要であるため、プロダクション前にライセンスを必ず確認することを推奨する。
この記事が役に立ったなら、AI Digesterを購読してください。
参考文献
- MiniCPM-o GitHubリポジトリ – OpenBMB (2026-02-06)
- MiniCPM-o 4.5 モデルカード – Hugging Face (2026-02-06)
- MiniCPM-o 4.5 公開発表 – OpenBMB X (2026-02-02)