MiniCPM-o 4.5 — 9BでGPT-4oを超えるオンデバイスマルチモーダル【GitHub】

MiniCPM-o 4.5: スマートフォンで動作するマルチモーダルAI

MiniCPM-o 4.5は9BパラメータでGPT-4oを超え、Gemini 2.5 Flashに匹敵する。OpenBMBが2026年2月に公開したオープンソースのマルチモーダルLLMである。^[GitHub]

フルデュプレックスライブストリーミングをサポートするオープンソースモデルはほとんど存在しない。スマートフォンで見て、聞いて、話すことを同時に処理する。^{[HuggingFace]}

# Ollamaで実行
ollama run minicpm-o-4_5

# Dockerでフルデュプレックスモード
docker pull openbmb/minicpm-o:latest

リアルタイム映像翻訳アシスタントが第一である。カメラで文書を見せると、すぐに翻訳してくれる。アクセシビリティ補助ツールとしても有用である。周辺環境をリアルタイムで説明するアプリを作成できる。クラウドAPI費用なしでローカルで動作するAI秘書としても活用可能である。^[GitHub]

Q: MiniCPM-o 4.5はどのようなハードウェアで動作するのか？

A: フルモデルはVRAM 20GB以上のGPUが必要である。int4量子化バージョンは8GBでも推論が可能である。Ollamaやllama.cppでMacでもローカル実行でき、公式Dockerイメージも提供されている。

Q: GPT-4oと比較するとどの程度のレベルか？

A: OpenCompassベンチマーク77.6点でGPT-4oを超えた。MMBench 87.6、MathVista 80.1、OCRBench 876点を記録した。ビジョン性能基準であり、テキスト専用の作業では差がある可能性がある。

Q: 商業的に使用できるか？

A: Apache 2.0ライセンスで商業使用が可能である。ソース修正と再配布も自由である。学習データ内のコンテンツ著作権は別途確認が必要であるため、プロダクション前にライセンスを必ず確認することを推奨する。

この記事が役に立ったなら、AI Digesterを購読してください。