AI Digester - AI 뉴스와 트렌드 분석

텔넷 트래픽 83% 급감 — CVE 공개 전 Tier 1 차단 가설 [2026]

February 10, 2026 작성자: aidigester

텔넷 트래픽 83% 급감 — CVE 공개 6일 전에 무슨 일이?

2026년 1월 14일, 글로벌 텔넷 세션이 1시간 만에 65% 감소했다
GNU Inetutils telnetd 취약점(CVE-2026-24061)이 6일 뒤 공개됐다
현재 텔넷 트래픽은 기존 대비 3분의 1 수준이다

1시간 만에 사라진 텔넷 세션 5만 건

2026년 1월 14일 21시(UTC), 글로벌 텔넷 세션이 약 7만 4천 건에서 2만 2천 건으로 급감했다. 2시간 뒤 기준치 대비 83%까지 하락했다^{[GreyNoise Labs]}. 18개 주요 ASN이 완전히 침묵했고, 짐바브웨 등 5개국이 텔넷 데이터에서 사라졌다.

6일 뒤 드러난 루트 셸 탈취 취약점

1월 20일 CVE-2026-24061이 공개됐다. GNU Inetutils telnetd에서 USER 환경변수 처리 시 인수 주입 결함이 존재한다^[NVD]. 사용자명으로 -f root를 전송하면 인증 없이 루트 셸을 얻을 수 있다. 1월 26일 CISA가 KEV 목록에 추가했고, 연방 기관은 2월 16일까지 조치해야 한다^[CISA].

백본 사업자의 선제 차단 가설

취약점 공개 6일 전에 트래픽이 급감한 이유가 흥미롭다. GreyNoise 연구진은 Tier 1 백본 사업자가 사전 통보를 받고 포트 23 필터링을 적용했을 가능성을 제시했다^{[GreyNoise Labs]}. 클라우드 사업자는 영향이 적었다. AWS 트래픽은 78% 증가, Contabo는 90% 증가했다. 주거용 ISP만 큰 타격을 받았다.

현재 주간 텔넷 세션은 32만 건으로, 12월 초 108만 건 대비 70% 감소했다. 텔넷 퇴장이 가속화된 셈이다. GNU Inetutils 2.7-2 패치나 텔넷 비활성화를 권장한다.

자주 묻는 질문 (FAQ)

Q: CVE-2026-24061은 어떻게 작동하나?

A: GNU Inetutils telnetd가 USER 환경변수를 처리할 때 인수 주입 결함이 있다. 공격자가 사용자명에 -f root를 보내면 인증을 우회하고 루트 셸을 얻는다. 별도 인증 없이 원격으로 서버를 장악할 수 있는 심각한 취약점이다.

Q: 텔넷 대신 무엇을 사용해야 하나?

A: SSH(Secure Shell)가 표준 대체재다. 모든 통신을 암호화하고 키 기반 인증을 지원한다. 텔넷은 평문 전송이라 보안상 오래전부터 권장되지 않았다. 이번 사건은 텔넷을 운용 중인 시스템이 아직 많다는 걸 보여준 사례다.

Q: 일반 사용자에게도 영향이 있나?

A: 대부분 직접적 영향은 없다. 텔넷은 주로 서버 관리와 네트워크 장비 설정에 사용된다. 다만 오래된 IoT 기기나 산업용 장비가 텔넷에 의존할 수 있어, 관리자는 패치나 프로토콜 전환을 검토해야 한다.

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

The Day the Telnet Died – GreyNoise Labs (2026-02-10)
CVE-2026-24061 – NVD (2026-01-20)
Known Exploited Vulnerabilities Catalog – CISA (2026-01-26)

텔넷 트래픽 83% 급감 — CVE 공개 전 Tier 1 차단 가설 [2026]

February 11, 2026February 10, 2026 작성자: aidigester

텔넷 트래픽 83% 급감 — CVE 공개 6일 전에 무슨 일이?

2026년 1월 14일, 글로벌 텔넷 세션이 1시간 만에 65% 감소했다
GNU Inetutils telnetd 취약점(CVE-2026-24061)이 6일 뒤 공개됐다
현재 텔넷 트래픽은 기존 대비 3분의 1 수준이다

1시간 만에 사라진 텔넷 세션 5만 건

6일 뒤 드러난 루트 셸 탈취 취약점

백본 사업자의 선제 차단 가설

자주 묻는 질문 (FAQ)

Q: CVE-2026-24061은 어떻게 작동하나?

Q: 텔넷 대신 무엇을 사용해야 하나?

Q: 일반 사용자에게도 영향이 있나?

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

The Day the Telnet Died – GreyNoise Labs (2026-02-10)
CVE-2026-24061 – NVD (2026-01-20)
Known Exploited Vulnerabilities Catalog – CISA (2026-01-26)

AI 추론 모델 시대: O3·O4-mini가 바꾼 LLM 게임의 판도

February 10, 2026 작성자: aidigester

AI 모델의 패러다임이 바뀌고 있다. 단순히 텍스트를 생성하는 LLM 시대를 넘어, 스스로 ‘생각’하는 추론 모델이 주류로 떠오르고 있다. OpenAI의 O3, O4-mini가 대표적이며, 이 모델들은 기존 GPT 계열과 근본적으로 다른 접근 방식을 취한다.

기존 LLM은 방대한 텍스트 데이터를 학습해 다음 토큰을 예측하는 방식으로 작동했다. 반면 추론 모델은 ‘체인 오브 소트(Chain of Thought)’ 기법을 활용해 문제를 단계별로 분해하고, 중간 과정을 검증하면서 답에 도달한다. Medium의 추론 모델 가이드에 따르면, 이런 접근은 수학·코딩·과학 문제에서 기존 LLM 대비 압도적인 성능 향상을 보여준다. 단순 암기가 아니라 논리적 사고 과정을 시뮬레이션하는 셈이다.

특히 OpenAI의 O3는 추론 시간을 늘릴수록 성능이 올라가는 ‘테스트 타임 컴퓨트’ 전략을 극대화했다. 그러나 Interconnects의 분석은 O3의 과최적화 문제를 지적한다. 벤치마크 점수는 높지만, 실제 활용에서 기대만큼의 성능을 보이지 못하는 경우가 있다는 것이다. 추론에 소모되는 컴퓨팅 비용도 기존 모델 대비 수배에서 수십 배까지 높아, 비용 효율성 논란이 계속되고 있다.

오픈소스 진영도 빠르게 대응 중이다. Clarifai가 정리한 2026년 오픈소스 추론 모델 목록을 보면, DeepSeek-R1, QwQ-32B 등이 상용 모델에 근접한 추론 능력을 갖추고 있다. 폐쇄형 모델에 의존하지 않고도 추론 기능을 활용할 수 있는 길이 열리고 있는 것이다. 이는 기업들의 도입 장벽을 크게 낮추는 요인이 된다.

추론 모델의 부상은 AI 산업 전체의 방향을 바꿀 가능성이 크다. 단순 텍스트 생성을 넘어 복잡한 의사결정, 과학 연구 보조, 코드 자동 검증 같은 고부가가치 영역으로 AI 활용 범위가 확장될 것이다. 다만 비용 문제와 과최적화 리스크는 해결해야 할 과제로 남아 있다. 추론 모델이 진정한 범용 AI로 가는 징검다리가 될지, 지켜볼 필요가 있다.

FAQ

Q: 추론 모델과 기존 LLM의 가장 큰 차이는 무엇인가?

A: 기존 LLM은 학습 데이터를 기반으로 다음 단어를 예측하는 반면, 추론 모델은 문제를 단계별로 분해하고 중간 과정을 검증하며 답을 도출한다. 수학이나 논리 문제에서 특히 큰 성능 차이를 보인다.

Q: O3 모델의 과최적화 문제란 무엇인가?

A: 벤치마크 테스트에서는 높은 점수를 기록하지만, 실제 사용 환경에서는 그에 미치지 못하는 성능을 보이는 현상이다. 평가 지표에 맞춰 과도하게 튜닝된 결과로 해석된다.

Q: 오픈소스 추론 모델도 실용적으로 쓸 수 있는가?

A: DeepSeek-R1, QwQ-32B 등 오픈소스 추론 모델이 상용 모델에 근접한 성능을 보여주고 있다. 비용에 민감한 기업이나 개인 개발자에게 충분히 실용적인 대안이 될 수 있다.

LLM 백도어 모델 위협과 AI 공급망 보안 방어 전략 총정리

February 10, 2026 작성자: aidigester

대규모 언어모델(LLM)에 백도어를 심는 공격이 현실화되면서 AI 공급망 보안이 핵심 과제로 떠올랐다. 오픈소스 모델을 무분별하게 가져다 쓰는 조직이 늘면서, 모델 자체가 공격 벡터가 되는 시대가 열린 것이다. 백도어 모델 탐지부터 공급망 방어 전략까지 정리한다.

마이크로소프트는 최근 대규모 백도어 언어모델 탐지 연구를 공개했다. 핵심은 모델 가중치에 숨겨진 악성 행동 패턴을 스캔하는 기술이다. 특정 트리거 문구가 입력되면 정상과 전혀 다른 출력을 생성하도록 조작된 모델이 실제로 발견되고 있다. 공격자는 허깅페이스 같은 모델 허브에 정상처럼 보이는 백도어 모델을 업로드한다. 이를 내려받아 서비스에 적용하면 데이터 유출, 악성 코드 생성, 잘못된 정보 유포가 자동으로 이루어진다.

공급망 공격은 모델 변조에 그치지 않는다. Techzine 보도에 따르면 LLM재킹(LLMjacking)이라는 새로운 공격 유형이 대규모로 확산되고 있다. 클라우드 환경의 LLM API 키를 탈취해 수만 건의 악성 요청을 생성하는 방식이다. 피해 기업은 막대한 API 비용을 떠안게 된다. Sombra의 2026년 보안 위협 분석은 프롬프트 인젝션, RAG 오염, 섀도우 AI를 3대 위협으로 꼽았다. 조직이 공식 승인 없이 사용하는 섀도우 AI가 특히 위험하다. 보안팀이 존재 자체를 모르는 LLM이 내부 데이터를 처리하고 있을 수 있다.

방어 전략의 핵심은 세 가지다. 첫째, 모델 출처 검증이다. 서명된 모델만 사용하고 체크섬을 반드시 확인한다. 둘째, 행동 기반 탐지다. 모델 출력을 지속적으로 모니터링해 이상 패턴을 잡아낸다. 셋째, API 접근 제어 강화다. 키 로테이션과 사용량 이상 탐지를 자동화해야 한다.

AI 공급망 보안은 더 이상 선택이 아니다. 오픈소스 모델 생태계가 성장할수록 공격 표면도 넓어진다. 모델을 코드처럼 취급하고 보안 파이프라인에 통합하는 것이 필수가 되고 있다. 2026년은 AI 보안이 별도 분야로 확립되는 원년이 될 전망이다.

FAQ

Q: LLM 백도어 모델은 어떻게 작동하는가?

A: 모델 가중치에 악성 패턴이 삽입되어 특정 트리거 입력 시 정상과 다른 출력을 생성한다. 일반 사용에서는 정상 작동해 탐지가 어렵다.

Q: LLM재킹이란 무엇인가?

A: 클라우드 환경의 LLM API 키를 탈취해 대량의 악성 요청을 보내는 공격이다. 피해 조직에 막대한 비용이 발생하며, 탈취된 API로 피싱 콘텐츠 생성 등에 악용된다.

Q: AI 공급망 보안을 위해 가장 먼저 해야 할 일은?

A: 사용 중인 모델의 출처와 무결성을 검증하는 것이 최우선이다. 공식 배포처 확인, 체크섬 검증, 모델 서명 확인을 기본 프로세스로 도입해야 한다.

물리 AI 로봇 2026년 상용화 본격 진입, ChatGPT급 모멘트 온다

February 10, 2026 작성자: aidigester

2026년, 물리 AI 로봇이 드디어 ChatGPT와 같은 대중화 모멘트를 맞이하고 있다. 엔비디아, 구글, 테슬라 등 빅테크 기업들이 앞다투어 물리 AI 분야에 투자하면서 로봇 상용화 시대가 본격적으로 열리는 중이다. 소프트웨어에 머물던 AI가 이제 물리적 세계로 확장하는 전환점에 도달했다.

Manufacturing Dive에 따르면, 2026년 자동화 업계에서 가장 주목받는 트렌드가 바로 물리 AI다. 물리 AI란 현실 세계의 물리 법칙을 이해하고 그에 맞게 행동하는 AI 시스템을 말한다. 기존 산업용 로봇이 정해진 동작만 반복했다면, 물리 AI 로봇은 주변 환경을 인식하고 스스로 판단해 유연하게 움직인다. 엔비디아의 젠슨 황 CEO는 물리 AI를 차세대 핵심 기술로 지목하며 대규모 투자를 선언한 바 있다. 제조업, 물류, 의료 등 다양한 산업에서 파일럿 프로젝트가 진행 중이며, 실제 공장 라인에 투입되는 사례도 늘고 있다. 특히 휴머노이드 로봇 분야에서는 Figure AI, 테슬라 옵티머스 등이 시제품 단계를 넘어 소규모 양산 체제에 돌입했다. 시장 조사 기관들은 물리 AI 로봇 시장이 2030년까지 연평균 40% 이상 성장할 것으로 전망한다.

물리 AI 로봇의 상용화가 빨라진 배경에는 세 가지 요인이 있다. 첫째, 대규모 언어 모델(LLM) 기술이 로봇 제어에 접목되면서 로봇의 상황 판단 능력이 비약적으로 향상됐다. 둘째, 시뮬레이션 기술 발전으로 로봇 훈련 비용이 크게 줄었다. 셋째, 하드웨어 가격 하락과 센서 기술 고도화가 맞물리면서 경제성이 확보되기 시작했다.

물리 AI는 단순한 기술 트렌드가 아니라 산업 구조 자체를 바꿀 수 있는 변곡점이다. 제조업의 인력 부족 문제를 해결하고, 위험한 작업 환경에서 인간을 대체할 가능성이 크다. 다만 안전 규제, 일자리 변화 등 사회적 논의도 함께 이뤄져야 할 시점이다. 2026년이 물리 AI 원년으로 기록될 가능성이 높아 보인다.

FAQ

Q: 물리 AI 로봇이란 무엇인가?

A: 현실 세계의 물리 법칙을 이해하고, 환경을 인식해 스스로 판단하며 행동하는 AI 기반 로봇 시스템이다. 기존 산업용 로봇과 달리 유연한 대응이 가능하다.

Q: 물리 AI 로봇은 어떤 산업에 적용되나?

A: 제조업, 물류, 의료, 건설 등 다양한 분야에서 활용된다. 특히 반복 작업이 많고 인력 부족이 심한 제조업과 물류 분야에서 도입이 가장 빠르게 진행 중이다.

Q: 물리 AI 로봇 상용화의 가장 큰 과제는?

A: 안전성 확보와 규제 정비가 가장 큰 과제다. 로봇이 사람과 같은 공간에서 작업하려면 충돌 방지, 비상 정지 등 엄격한 안전 기준을 충족해야 한다.

오픈AI 코덱스 macOS 앱 출시, 에이전트 코딩 시대 본격 개막

February 10, 2026 작성자: aidigester

오픈AI가 코덱스(Codex) 기반의 macOS 전용 데스크톱 앱을 공식 출시했다. 이 앱은 단순한 코드 자동완성을 넘어, AI 에이전트가 개발자의 코딩 워크플로우 전체를 보조하는 방식으로 설계됐다. 클라우드가 아닌 로컬 데스크톱 환경에서 직접 동작한다는 점이 핵심이다.

TechCrunch 보도에 따르면, 이번 앱은 기존 웹 기반 코덱스와 달리 macOS 네이티브 앱으로 제공된다. 개발자가 로컬 프로젝트 폴더를 직접 연결하면, AI 에이전트가 코드베이스를 분석하고 버그 수정, 리팩토링, 새 기능 구현까지 자율적으로 수행한다. 터미널 명령 실행과 파일 편집을 AI가 스스로 판단해 처리하는 구조다. 이는 GitHub Copilot이 제공하는 줄 단위 자동완성과는 근본적으로 다른 접근이다. 에이전트 코딩이란 AI가 단순 보조가 아니라, 작업 단위의 자율적 실행자로 기능한다는 뜻이다. Boston Institute of Analytics는 이번 출시를 2026년 초 가장 주목할 만한 생성형 AI 업데이트 중 하나로 꼽았다. 실제로 Product Hunt에서도 AI 소프트웨어 카테고리 상위에 관련 도구들이 연이어 등장하고 있다.

macOS 전용으로 먼저 출시한 점도 의미가 있다. 개발자 생태계에서 맥 사용 비율이 높다는 현실적 판단이 반영된 것으로 보인다. 다만 Windows와 Linux 지원 시점은 아직 공개되지 않았다. 보안 측면에서는 로컬 실행 방식이 코드 유출 우려를 줄여주지만, AI 에이전트에게 파일 시스템 접근 권한을 부여하는 만큼 새로운 보안 논의가 필요하다. 경쟁 구도도 주목할 만하다. 앤트로픽의 Claude Code, 구글의 제미나이 코드 어시스트 등이 유사한 에이전트 코딩 기능을 강화하고 있어, 2026년은 에이전트 코딩 도구 간 본격적인 경쟁이 펼쳐질 전망이다.

이번 코덱스 macOS 앱은 AI 코딩 도구가 보조 수준에서 자율 실행 단계로 진화하고 있음을 보여주는 사례다. 개발 생산성에 미치는 영향이 클 것으로 예상되며, 에이전트 코딩이 업계 표준으로 자리잡을 가능성이 높다. 다만 AI가 생성한 코드의 품질 검증과 책임 소재에 대한 논의도 함께 진행돼야 할 것이다.

FAQ

Q: 오픈AI 코덱스 macOS 앱은 무료로 사용할 수 있나?

A: 현재까지 공개된 정보에 따르면, 오픈AI의 기존 유료 플랜 구독자에게 제공될 가능성이 높다. 정확한 가격 정책은 공식 발표를 확인해야 한다.

Q: 기존 GitHub Copilot과 어떤 차이가 있나?

A: Copilot은 코드 줄 단위 자동완성에 초점을 맞추고 있다. 반면 코덱스 앱은 프로젝트 전체를 분석하고, 파일 수정과 터미널 명령까지 자율적으로 수행하는 에이전트 방식이다.

Q: Windows나 Linux에서도 사용할 수 있나?

A: 현재는 macOS 전용으로 출시됐다. 타 운영체제 지원 일정은 아직 공식적으로 발표되지 않은 상태다.

NVIDIA Vera Rubin 아키텍처, 인퍼런스 비용 10배 절감 차세대 AI 슈퍼컴퓨터 공개

February 10, 2026 작성자: aidigester

NVIDIA가 차세대 AI 슈퍼컴퓨터 플랫폼 ‘Vera Rubin’을 공개했다. Blackwell 대비 인퍼런스 성능 5배, 토큰당 비용은 10분의 1로 줄이겠다는 목표다. 2026년 하반기 출시를 예고하며 AI 컴퓨팅의 새로운 기준을 제시했다.

CES 2026에서 발표된 Vera Rubin 플랫폼은 총 6개의 신규 칩으로 구성된다. NVIDIA 공식 발표에 따르면, Rubin GPU와 Vera CPU를 결합한 NVL72 랙 스케일 구성이 핵심이다. 이 구성은 72개의 GPU를 하나의 시스템으로 묶어 대규모 AI 모델의 추론 작업을 처리한다. 특히 주목할 점은 경제성이다. Tom’s Hardware 보도에 의하면, Blackwell 아키텍처 대비 토큰당 비용을 10배 절감할 수 있다고 한다. AI 서비스 운영 기업 입장에서 인퍼런스 비용은 가장 큰 부담 중 하나인데, 이 수치가 실현되면 업계 전반에 상당한 파급 효과가 예상된다. Vera CPU는 ARM 기반 아키텍처를 채택해 전력 효율도 개선했다. NVLink 6세대 인터커넥트를 통해 GPU 간 통신 대역폭도 대폭 확대되었다. NVIDIA 블로그는 Rubin 플랫폼이 자율주행, 오픈 모델 생태계까지 아우르는 청사진의 일부라고 설명했다. 단순히 하드웨어 성능 향상에 그치지 않고, AI 인프라 전체를 재설계하려는 전략이 엿보인다.

Vera Rubin의 등장은 AI 산업의 비용 구조를 근본적으로 바꿀 가능성이 있다. 인퍼런스 비용이 실제로 10배 줄어든다면, 중소 기업도 대규모 AI 서비스를 운영할 수 있는 시대가 열린다. 물론 실제 성능은 출시 후 검증이 필요하지만, NVIDIA의 로드맵이 업계 표준을 다시 한번 재편할 것이라는 점은 분명해 보인다. 하반기 출시 이후 클라우드 서비스 업체들의 도입 속도가 관건이 될 것이다.

FAQ

Q: NVIDIA Vera Rubin은 언제 출시되나?

A: NVIDIA는 2026년 하반기 출시를 예고했다. 정확한 월은 아직 공개되지 않았다.

Q: Blackwell 대비 어떤 점이 개선되었나?

A: 인퍼런스 성능이 최대 5배 향상되고, 토큰당 비용은 10분의 1 수준으로 절감된다. NVLink 6세대와 ARM 기반 Vera CPU도 새롭게 도입되었다.

Q: Vera Rubin NVL72 구성은 무엇인가?

A: 72개의 Rubin GPU를 하나의 랙 스케일 시스템으로 통합한 구성이다. 대규모 AI 모델의 학습과 추론을 하나의 시스템에서 처리할 수 있도록 설계되었다.

LangSmith, 구글 클라우드 마켓플레이스 입점 — 3가지 포인트

February 10, 2026 작성자: aidigester

LangSmith, 구글 클라우드 마켓플레이스 입점 — 3가지 포인트

LangChain의 LangSmith가 Google Cloud Marketplace에 등록됐다
GCP 약정 크레딧으로 결제 가능, 조달 절차가 간소화된다
Vertex AI, Gemini, BigQuery 등 GCP 서비스와 통합된다

LangSmith의 마켓플레이스 등록

LangChain이 에이전트 엔지니어링 플랫폼 LangSmith를 Google Cloud Marketplace에 올렸다. GCP 고객은 기존 클라우드 계정으로 바로 구매할 수 있다.^{[LangChain Blog]}

핵심은 약정 지출 크레딧 적용이다. GCP에 투자한 금액을 LangSmith 구독에 쓸 수 있어 별도 예산 확보가 필요 없다. 청구도 GCP 인보이스에 통합된다.^{[Google Cloud Marketplace]}

주요 기능과 GCP 연동

LangSmith는 AI 에이전트의 빌드, 테스트, 배포, 모니터링을 한 플랫폼에서 처리한다. 옵저버빌리티로 개별 상호작용을 추적하고, 평가 기능으로 배포 전 테스트와 프로덕션 모니터링을 지원한다.^{[LangSmith Docs]}

GCP 서비스와의 연동도 폭넓다. Vertex AI, Gemini, AlloyDB, BigQuery 등과 통합된다. 배포는 SaaS, 하이브리드, GKE 자체 호스팅 중 선택 가능하다.^{[LangChain Blog]}

엔터프라이즈 시장에 미치는 영향

마켓플레이스 입점은 엔터프라이즈 시장 공략 본격화 신호다. 대기업은 클라우드 마켓플레이스 조달을 선호한다. 승인이 빠르고, 기존 계약 안에서 처리되기 때문이다.

LLM 옵저버빌리티 경쟁이 치열해지는 가운데, GCP 생태계와의 결합은 차별화 포인트가 된다. 참고가 되길 바란다.

자주 묻는 질문 (FAQ)

Q: 마켓플레이스에서 구매하면 어떤 이점이 있나?

A: GCP 약정 크레딧으로 구독 비용을 처리할 수 있다. 별도 조달 절차 없이 클라우드 인보이스에 통합 청구된다. 기존 GCP 계정으로 바로 구매 가능해 도입 속도가 빨라진다.

Q: LangSmith는 어떤 용도의 도구인가?

A: AI 에이전트와 LLM 앱을 빌드, 테스트, 배포, 모니터링하는 통합 플랫폼이다. 옵저버빌리티와 평가 기능을 묶어 프로덕션 AI 시스템 운영을 돕는다.

Q: 배포 옵션은 어떻게 되나?

A: 완전관리형 SaaS, 하이브리드(VPC 내 데이터 보관), GKE 자체 호스팅 세 가지다. Helm과 Terraform을 지원해 보안 정책에 맞게 데이터 위치를 선택할 수 있다.

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

LangSmith is Now Available in Google Cloud Marketplace – LangChain Blog (2026-02-10)
Google Cloud Marketplace – Google Cloud (2026-02-10)
LangSmith Documentation – LangChain (2026-02-10)

MiniCPM-o 4.5 — 9B로 GPT-4o 넘는 온디바이스 멀티모달 [GitHub]

February 10, 2026 작성자: aidigester

MiniCPM-o 4.5: 스마트폰에서 돌아가는 멀티모달 AI

GitHub Stars: 23.6k
언어: Python
라이선스: Apache 2.0

이 프로젝트가 뜨는 이유

MiniCPM-o 4.5는 9B 파라미터로 GPT-4o를 넘고 Gemini 2.5 Flash에 근접한다. OpenBMB가 2026년 2월 공개한 오픈소스 멀티모달 LLM이다.^[GitHub]

풀 듀플렉스 라이브 스트리밍을 지원하는 오픈소스 모델이 거의 없다. 스마트폰에서 보고, 듣고, 말하는 걸 동시에 처리한다.^{[HuggingFace]}

뭘 할 수 있나?

비전 이해: 최대 180만 픽셀 이미지와 OCR 처리. OpenCompass 77.6점이다.
실시간 음성 대화: 영어·중국어 이중언어 대화. 음성 복제도 된다.
풀 듀플렉스 스트리밍: 비디오·오디오 입력과 텍스트·음성 출력을 동시에 처리한다.
선제적 상호작용: 장면 인식 기반으로 먼저 알림을 보낸다.

빠른 시작

# Ollama로 실행
ollama run minicpm-o-4_5

# Docker로 풀 듀플렉스 모드
docker pull openbmb/minicpm-o:latest

어디에 쓰면 좋을까?

실시간 화상 통역 도우미가 첫 번째다. 카메라로 문서를 보여주면 바로 번역해준다. 접근성 보조 도구로도 좋다. 주변 환경을 실시간 설명하는 앱을 만들 수 있다. 클라우드 API 비용 없이 로컬에서 돌리는 AI 비서로도 활용 가능하다.^[GitHub]

주의할 점

풀 모델은 VRAM 20GB 이상 필요하다. int4 양자화 버전으로 요구 사양을 낮출 수 있다.
음성 기능은 영어와 중국어만 된다. 한국어 음성은 미지원이다.
풀 듀플렉스 모드는 실험 단계다.

자주 묻는 질문 (FAQ)

Q: MiniCPM-o 4.5는 어떤 하드웨어에서 돌릴 수 있나?

A: 풀 모델은 VRAM 20GB 이상 GPU가 필요하다. int4 양자화 버전은 8GB로도 추론이 가능하다. Ollama나 llama.cpp로 Mac에서도 로컬 실행할 수 있고 공식 Docker 이미지도 제공된다.

Q: GPT-4o와 비교하면 어느 수준인가?

A: OpenCompass 벤치마크 77.6점으로 GPT-4o를 넘었다. MMBench 87.6, MathVista 80.1, OCRBench 876점을 기록했다. 비전 성능 기준이고 텍스트 전용 작업에서는 차이가 있을 수 있다.

Q: 상업적으로 사용할 수 있나?

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

MiniCPM-o GitHub 저장소 – OpenBMB (2026-02-06)
MiniCPM-o 4.5 모델 카드 – Hugging Face (2026-02-06)
MiniCPM-o 4.5 공개 발표 – OpenBMB X (2026-02-02)

AI 영상 생성 도구 비교: Sora 2 vs Veo 3.1 vs Kling 3.0 — 2026년 최강자는?

February 10, 2026 작성자: aidigester

2026년 AI 영상 생성 시장이 본격적인 3파전에 돌입했다. OpenAI의 Sora 2, Google의 Veo 3.1, 그리고 중국 Kuaishou의 Kling 3.0이 각축을 벌이고 있다. 각 도구의 강점과 약점을 실제 성능 기준으로 비교해 본다.

먼저 영상 품질 면에서 보면, Veo 3.1은 현재 가장 사실적인 영상을 생성하는 것으로 평가받는다. Powtoon의 비교 분석에 따르면 Veo 3.1은 특히 인물의 표정과 손동작 표현에서 다른 도구를 앞선다. 피부 질감, 조명 반사 같은 세밀한 디테일이 실사에 가깝다. 반면 Sora 2는 창의적 연출과 시네마틱 구도에서 강점을 보인다. 프롬프트 해석 능력이 뛰어나 추상적인 개념도 영상으로 잘 풀어낸다. Kling 3.0은 가성비 측면에서 주목할 만하다. WaveSpeedAI의 비교 테스트에서 Kling 3.0은 생성 속도가 가장 빨랐고, 가격 대비 품질이 우수했다.

음성 및 오디오 통합도 중요한 차별점이다. Veo 3.1은 네이티브 오디오 생성 기능을 탑재해 영상과 동기화된 효과음, 배경음악을 자동으로 만든다. Sora 2도 최근 오디오 기능을 추가했지만 아직 별도 생성 후 합성하는 방식이라 자연스러움이 떨어진다. InVideo의 리뷰는 Kling 3.0의 립싱크 정확도가 세 도구 중 가장 높다고 분석했다. 가격 정책을 보면 Sora 2는 ChatGPT Plus 구독에 포함되어 월 20달러로 접근성이 좋다. Veo 3.1은 Google AI Pro 구독이 필요해 비용이 더 든다. Kling 3.0은 크레딧 기반 과금으로 소량 사용자에게 유리하다.

결론적으로 절대적 최강자는 없다. PXZ AI의 실사용 테스트 결과도 용도별로 추천 도구가 달랐다. 사실적 영상이 필요하면 Veo 3.1, 창의적 콘텐츠에는 Sora 2, 빠르고 저렴한 작업에는 Kling 3.0이 적합하다. 2026년 하반기에는 세 도구 모두 대규모 업데이트를 예고하고 있어 경쟁이 더 치열해질 전망이다. 이 시장의 진짜 승자는 결국 사용자가 될 것이다.

FAQ

Q: 초보자에게 가장 추천하는 AI 영상 생성 도구는?

A: Sora 2가 가장 접근성이 좋다. ChatGPT Plus 구독만 있으면 바로 사용 가능하고, 프롬프트 해석력이 뛰어나 초보자도 원하는 결과를 얻기 쉽다.

Q: 세 도구 중 가장 긴 영상을 생성할 수 있는 것은?

A: Kling 3.0이 최대 2분 영상을 지원해 가장 길다. Veo 3.1은 최대 1분, Sora 2는 최대 20초 수준이다. 다만 긴 영상일수록 일관성 유지가 어려워진다.

A: 세 도구 모두 유료 플랜에서 상업적 사용권을 부여한다. 다만 생성된 영상에 실존 인물이나 브랜드가 포함되면 별도의 법적 검토가 필요하다. 각 서비스의 이용약관을 반드시 확인해야 한다.