MiniCPM-o 4.5:可在智能手机上运行的多模态 AI
- GitHub Stars: 23.6k
- 语言: Python
- 许可证: Apache 2.0
该项目受欢迎的原因
MiniCPM-o 4.5 以 9B 参数超越 GPT-4o,接近 Gemini 2.5 Flash。是由 OpenBMB 于 2026 年 2 月发布的开源多模态 LLM。[GitHub]
几乎没有支持全双工直播的开源模型。它可以在智能手机上同时处理观看、收听和说话。[HuggingFace]
它能做什么?
- 视觉理解:最大 180 万像素图像和 OCR 处理。OpenCompass 得分为 77.6。
- 实时语音对话:英语·中文双语对话。支持语音克隆。
- 全双工流式传输:同时处理视频·音频输入和文本·语音输出。
- 先发制人的互动:基于场景识别,提前发送通知。
快速开始
# 使用 Ollama 运行
ollama run minicpm-o-4_5
# 使用 Docker 进入全双工模式
docker pull openbmb/minicpm-o:latest
它适合用在哪些地方?
实时视频翻译助手是首选。用相机展示文档,即可立即翻译。它也适用于辅助工具。可以创建一个实时描述周围环境的应用程序。它还可以用作在本地运行的 AI 助手,无需云 API 费用。[GitHub]
注意事项
- 完整模型需要 20GB 以上的 VRAM。int4 量化版本可以降低要求。
- 语音功能仅支持英语和中文。不支持韩语语音。
- 全双工模式处于实验阶段。
常见问题 (FAQ)
问:MiniCPM-o 4.5 可以在哪些硬件上运行?
答:完整模型需要 20GB 以上 GPU 的 VRAM。int4 量化版本可以用 8GB 进行推理。您可以使用 Ollama 或 llama.cpp 在 Mac 上本地运行,并提供官方 Docker 镜像。
问:与 GPT-4o 相比,它处于什么水平?
答:OpenCompass 基准测试得分为 77.6,超过了 GPT-4o。MMBench 记录为 87.6,MathVista 记录为 80.1,OCRBench 记录为 876。这是基于视觉性能,文本专用任务可能会有所不同。
问:可以商业使用吗?
答:Apache 2.0 许可证允许商业使用。您可以自由修改和重新分发源代码。学习数据中的内容版权需要单独确认,因此建议在生产前务必确认许可证。
如果这篇文章对您有帮助,请订阅 AI Digester。
参考资料
- MiniCPM-o GitHub 存储库 – OpenBMB (2026-02-06)
- MiniCPM-o 4.5 模型卡 – Hugging Face (2026-02-06)
- MiniCPM-o 4.5 发布公告 – OpenBMB X (2026-02-02)