MiniCPM-o 4.5 — 9B로 GPT-4o 넘는 온디바이스 멀티모달 [GitHub]

MiniCPM-o 4.5: 스마트폰에서 돌아가는 멀티모달 AI

  • GitHub Stars: 23.6k
  • 언어: Python
  • 라이선스: Apache 2.0

이 프로젝트가 뜨는 이유

MiniCPM-o 4.5는 9B 파라미터로 GPT-4o를 넘고 Gemini 2.5 Flash에 근접한다. OpenBMB가 2026년 2월 공개한 오픈소스 멀티모달 LLM이다.[GitHub]

풀 듀플렉스 라이브 스트리밍을 지원하는 오픈소스 모델이 거의 없다. 스마트폰에서 보고, 듣고, 말하는 걸 동시에 처리한다.[HuggingFace]

뭘 할 수 있나?

  • 비전 이해: 최대 180만 픽셀 이미지와 OCR 처리. OpenCompass 77.6점이다.
  • 실시간 음성 대화: 영어·중국어 이중언어 대화. 음성 복제도 된다.
  • 풀 듀플렉스 스트리밍: 비디오·오디오 입력과 텍스트·음성 출력을 동시에 처리한다.
  • 선제적 상호작용: 장면 인식 기반으로 먼저 알림을 보낸다.

빠른 시작

# Ollama로 실행
ollama run minicpm-o-4_5

# Docker로 풀 듀플렉스 모드
docker pull openbmb/minicpm-o:latest

어디에 쓰면 좋을까?

실시간 화상 통역 도우미가 첫 번째다. 카메라로 문서를 보여주면 바로 번역해준다. 접근성 보조 도구로도 좋다. 주변 환경을 실시간 설명하는 앱을 만들 수 있다. 클라우드 API 비용 없이 로컬에서 돌리는 AI 비서로도 활용 가능하다.[GitHub]

주의할 점

  • 풀 모델은 VRAM 20GB 이상 필요하다. int4 양자화 버전으로 요구 사양을 낮출 수 있다.
  • 음성 기능은 영어와 중국어만 된다. 한국어 음성은 미지원이다.
  • 풀 듀플렉스 모드는 실험 단계다.

자주 묻는 질문 (FAQ)

Q: MiniCPM-o 4.5는 어떤 하드웨어에서 돌릴 수 있나?

A: 풀 모델은 VRAM 20GB 이상 GPU가 필요하다. int4 양자화 버전은 8GB로도 추론이 가능하다. Ollama나 llama.cpp로 Mac에서도 로컬 실행할 수 있고 공식 Docker 이미지도 제공된다.

Q: GPT-4o와 비교하면 어느 수준인가?

A: OpenCompass 벤치마크 77.6점으로 GPT-4o를 넘었다. MMBench 87.6, MathVista 80.1, OCRBench 876점을 기록했다. 비전 성능 기준이고 텍스트 전용 작업에서는 차이가 있을 수 있다.

Q: 상업적으로 사용할 수 있나?

A: Apache 2.0 라이선스로 상업 사용이 가능하다. 소스 수정과 재배포도 자유롭다. 학습 데이터 내 콘텐츠 저작권은 별도 확인이 필요하니 프로덕션 전 라이선스를 꼭 확인하길 권한다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

댓글 남기기