MiniCPM-o 4.5 — 9B로 GPT-4o 넘는 온디바이스 멀티모달 [GitHub]

MiniCPM-o 4.5: 스마트폰에서 돌아가는 멀티모달 AI

MiniCPM-o 4.5는 9B 파라미터로 GPT-4o를 넘고 Gemini 2.5 Flash에 근접한다. OpenBMB가 2026년 2월 공개한 오픈소스 멀티모달 LLM이다.^[GitHub]

풀 듀플렉스 라이브 스트리밍을 지원하는 오픈소스 모델이 거의 없다. 스마트폰에서 보고, 듣고, 말하는 걸 동시에 처리한다.^{[HuggingFace]}

# Ollama로 실행
ollama run minicpm-o-4_5

# Docker로 풀 듀플렉스 모드
docker pull openbmb/minicpm-o:latest

실시간 화상 통역 도우미가 첫 번째다. 카메라로 문서를 보여주면 바로 번역해준다. 접근성 보조 도구로도 좋다. 주변 환경을 실시간 설명하는 앱을 만들 수 있다. 클라우드 API 비용 없이 로컬에서 돌리는 AI 비서로도 활용 가능하다.^[GitHub]

Q: MiniCPM-o 4.5는 어떤 하드웨어에서 돌릴 수 있나?

A: 풀 모델은 VRAM 20GB 이상 GPU가 필요하다. int4 양자화 버전은 8GB로도 추론이 가능하다. Ollama나 llama.cpp로 Mac에서도 로컬 실행할 수 있고 공식 Docker 이미지도 제공된다.

Q: GPT-4o와 비교하면 어느 수준인가?

A: OpenCompass 벤치마크 77.6점으로 GPT-4o를 넘었다. MMBench 87.6, MathVista 80.1, OCRBench 876점을 기록했다. 비전 성능 기준이고 텍스트 전용 작업에서는 차이가 있을 수 있다.

Q: 상업적으로 사용할 수 있나?

이 글이 유용했다면 AI Digester를 구독해주세요.