MiniCPM-o 4.5 — 9BでGPT-4oを超えるオンデバイスマルチモーダル【GitHub】

MiniCPM-o 4.5: スマートフォンで動作するマルチモーダルAI

  • GitHub Stars: 23.6k
  • 言語: Python
  • ライセンス: Apache 2.0

このプロジェクトが注目される理由

MiniCPM-o 4.5は9BパラメータでGPT-4oを超え、Gemini 2.5 Flashに匹敵する。OpenBMBが2026年2月に公開したオープンソースのマルチモーダルLLMである。[GitHub]

フルデュプレックスライブストリーミングをサポートするオープンソースモデルはほとんど存在しない。スマートフォンで見て、聞いて、話すことを同時に処理する。[HuggingFace]

何ができるのか?

  • ビジョン理解: 最大180万ピクセルの画像とOCR処理。OpenCompass 77.6点である。
  • リアルタイム音声対話: 英語・中国語の二言語対話。音声複製も可能である。
  • フルデュプレックスストリーミング: ビデオ・オーディオ入力とテキスト・音声出力を同時に処理する。
  • 先制的な相互作用: シーン認識に基づいて、先に通知を送信する。

クイックスタート

# Ollamaで実行
ollama run minicpm-o-4_5

# Dockerでフルデュプレックスモード
docker pull openbmb/minicpm-o:latest

どこに使うのが良いか?

リアルタイム映像翻訳アシスタントが第一である。カメラで文書を見せると、すぐに翻訳してくれる。アクセシビリティ補助ツールとしても有用である。周辺環境をリアルタイムで説明するアプリを作成できる。クラウドAPI費用なしでローカルで動作するAI秘書としても活用可能である。[GitHub]

注意点

  • フルモデルはVRAM 20GB以上が必要である。int4量子化バージョンで要求仕様を下げることができる。
  • 音声機能は英語と中国語のみ対応である。韓国語音声は未サポートである。
  • フルデュプレックスモードは実験段階である。

よくある質問 (FAQ)

Q: MiniCPM-o 4.5はどのようなハードウェアで動作するのか?

A: フルモデルはVRAM 20GB以上のGPUが必要である。int4量子化バージョンは8GBでも推論が可能である。Ollamaやllama.cppでMacでもローカル実行でき、公式Dockerイメージも提供されている。

Q: GPT-4oと比較するとどの程度のレベルか?

A: OpenCompassベンチマーク77.6点でGPT-4oを超えた。MMBench 87.6、MathVista 80.1、OCRBench 876点を記録した。ビジョン性能基準であり、テキスト専用の作業では差がある可能性がある。

Q: 商業的に使用できるか?

A: Apache 2.0ライセンスで商業使用が可能である。ソース修正と再配布も自由である。学習データ内のコンテンツ著作権は別途確認が必要であるため、プロダクション前にライセンスを必ず確認することを推奨する。


この記事が役に立ったなら、AI Digesterを購読してください。

参考文献

コメントする