MiniCPM-o 4.5 — 9B超越GPT-4o的端侧多模态模型 [GitHub]

MiniCPM-o 4.5:可在智能手机上运行的多模态 AI

  • GitHub Stars: 23.6k
  • 语言: Python
  • 许可证: Apache 2.0

该项目受欢迎的原因

MiniCPM-o 4.5 以 9B 参数超越 GPT-4o,接近 Gemini 2.5 Flash。是由 OpenBMB 于 2026 年 2 月发布的开源多模态 LLM。[GitHub]

几乎没有支持全双工直播的开源模型。它可以在智能手机上同时处理观看、收听和说话。[HuggingFace]

它能做什么?

  • 视觉理解:最大 180 万像素图像和 OCR 处理。OpenCompass 得分为 77.6。
  • 实时语音对话:英语·中文双语对话。支持语音克隆。
  • 全双工流式传输:同时处理视频·音频输入和文本·语音输出。
  • 先发制人的互动:基于场景识别,提前发送通知。

快速开始

# 使用 Ollama 运行
ollama run minicpm-o-4_5

# 使用 Docker 进入全双工模式
docker pull openbmb/minicpm-o:latest

它适合用在哪些地方?

实时视频翻译助手是首选。用相机展示文档,即可立即翻译。它也适用于辅助工具。可以创建一个实时描述周围环境的应用程序。它还可以用作在本地运行的 AI 助手,无需云 API 费用。[GitHub]

注意事项

  • 完整模型需要 20GB 以上的 VRAM。int4 量化版本可以降低要求。
  • 语音功能仅支持英语和中文。不支持韩语语音。
  • 全双工模式处于实验阶段。

常见问题 (FAQ)

问:MiniCPM-o 4.5 可以在哪些硬件上运行?

答:完整模型需要 20GB 以上 GPU 的 VRAM。int4 量化版本可以用 8GB 进行推理。您可以使用 Ollama 或 llama.cpp 在 Mac 上本地运行,并提供官方 Docker 镜像。

问:与 GPT-4o 相比,它处于什么水平?

答:OpenCompass 基准测试得分为 77.6,超过了 GPT-4o。MMBench 记录为 87.6,MathVista 记录为 80.1,OCRBench 记录为 876。这是基于视觉性能,文本专用任务可能会有所不同。

问:可以商业使用吗?

答:Apache 2.0 许可证允许商业使用。您可以自由修改和重新分发源代码。学习数据中的内容版权需要单独确认,因此建议在生产前务必确认许可证。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论