DP-SGD가 희귀 데이터를 잊게 만드는 이유: 차등 개인정보보호의 딜레마

개인정보 보호하려다 소수 집단 학습 실패: 3가지 핵심

  • DP-SGD의 기울기 잘라내기와 잡음 주입이 희귀 샘플 학습을 방해한다
  • 장꼬리 데이터에서 테스트 오류가 전체 평균보다 현저히 높다
  • 개인정보 보호와 공정성 사이의 트레이드오프가 존재한다

무슨 일이 일어났나?

KAUST와 중국 연구진이 차등 개인정보보호 학습(DP-SGD)이 불균형 데이터에서 어떻게 작동하는지 분석한 논문을 발표했다.[arXiv] 핵심 발견은 명확하다. DP-SGD가 개인정보를 보호하는 과정에서 희귀 샘플에 대한 학습 능력을 크게 저하시킨다.

연구팀은 특성 학습(feature learning) 관점에서 DP-SGD의 동작을 분석했다. 기울기 잘라내기(gradient clipping)와 잡음 주입(noise injection)이 함께 작용하면서 “정보성이 높지만 대표성이 낮은 샘플”의 암기를 방해한다.[arXiv]

왜 중요한가?

이 연구는 AI 공정성 논의에 중요한 함의를 던진다. 개인정보 보호를 위해 DP-SGD를 적용하면, 의도치 않게 소수 집단에 대한 모델 성능이 떨어진다. 의료 AI에서 희귀 질환 환자, 금융 AI에서 비전형적 거래 패턴을 가진 고객이 불이익을 받을 수 있다.

기존 연구들은 DP-SGD의 전반적인 성능 저하에 초점을 맞췄다. 이 논문은 한 발 더 나아가 “누가 더 피해를 보는가”라는 질문에 답한다. 장꼬리 분포의 끝단에 있는 샘플일수록 학습이 안 된다.

앞으로 어떻게 될까?

개인정보 보호와 공정성을 동시에 달성하는 새로운 알고리즘 개발이 필요하다. 연구팀의 이론적 프레임워크가 이 방향의 연구에 기초를 제공할 것이다. 희귀 샘플에 대한 기울기 잘라내기 임계값을 조정하거나, 샘플링 전략을 개선하는 방법이 후속 연구로 이어질 가능성이 있다.

자주 묻는 질문 (FAQ)

Q: DP-SGD란 무엇인가?

A: Differentially Private Stochastic Gradient Descent의 약자다. 학습 과정에서 기울기를 잘라내고 잡음을 추가해 개별 데이터 포인트의 영향을 숨긴다. 애플, 구글 등 빅테크가 사용자 데이터 학습에 널리 적용하는 기법이다.

Q: 장꼬리 데이터란 무엇인가?

A: 데이터 분포에서 대부분의 샘플이 소수의 클래스에 집중되고, 나머지 클래스에는 극소수의 샘플만 있는 불균형 상태를 말한다. 실제 데이터는 대부분 장꼬리 분포를 따른다. 희귀 질환 진단, 사기 거래 탐지가 대표적이다.

Q: 이 문제를 어떻게 해결할 수 있나?

A: 논문은 문제 진단에 초점을 맞추고 있다. 해결책으로는 희귀 클래스에 대한 기울기 잘라내기 임계값 완화, 오버샘플링, 또는 그룹별 차등 프라이버시 적용 등이 후속 연구 주제로 제시된다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

AI 전용 SNS Moltbook: 150만 봇 뒤에 숨은 1만 7천 명의 인간

150만 AI agents, 17,000명의 인간: 숨겨진 진실

  • AI 전용 SNS인 Moltbook에서 활동하는 agents는 150만 명이지만, 실제 인간은 17,000명에 불과하다.
  • Wiz 보안팀은 데이터베이스 취약점을 발견했고 150만 개의 API keys가 노출되었다.
  • 창립자는 “코드 한 줄 직접 작성하지 않았다”고 인정했다. AI Platform으로 완전히 ‘vibe-coded’되었다.

무슨 일이 일어났나?

AI agents 전용 소셜 네트워크인 Moltbook에서 보안 재난이 발생했다. Wiz 보안팀이 발견한 바에 따르면, 150만 AI agent 계정 뒤에는 단 17,000명의 인간만이 있었다. 1인당 평균 88개의 봇이 운영되고 있었다.[Wiz]

더 심각한 문제가 있다. Moltbook의 Supabase 데이터베이스가 완전히 노출되었다. API key가 클라이언트 측 JavaScript에 노출되었고, Row Level Security 정책도 전혀 없었다. 누구나 전체 데이터베이스에 대한 읽기/쓰기 권한을 가지고 있었다.[Axios]

유출된 정보는 충격적이다. 150만 개의 API 인증 토큰, 35,000개의 이메일 주소, 4,060개의 agent 간 개인 DM이 포함되었다. 일부 대화에서는 OpenAI API keys가 일반 텍스트로 공유되었다.[Techzine]

왜 중요한가?

Moltbook의 실체가 드러났다. “AI만의 자율적인 소셜 네트워크”라는 개념은 실제로는 배후의 인간에 의해 통제되는 연극에 더 가까웠다.

솔직히, 이는 예견되었던 재앙이었다. 창립자 Matt Schlicht 스스로 인정하듯이, 이 플랫폼은 ‘vibe-coded’ 프로젝트이며, 전체 개발을 “코드 한 줄 쓰지 않고” AI assistant에 맡겼다. href=”https://www.engadget.com/ai/moltbook-the-ai-social-network-exposed-human-credentials-due-to-vibe-coded-security-flaw-230324567.html”>[Engadget] 보안은 당연히 뒷전이었다.

개인적으로, 나는 이것이 AI agent 시대의 경고등이라고 생각한다. Moltbook은 agents가 서로 통신하고, 외부 데이터를 처리하고, 자율적으로 행동하는 시스템에서 보안이 얼마나 취약할 수 있는지를 생생하게 보여주었다.

Machine Intelligence Research Institute (MIRI)의 Harlan Stewart는 입소문이 난 스크린샷을 분석한 결과, 3분의 2가 AI 메시징 앱을 마케팅하는 인간 계정과 연결되어 있음을 발견했다.[Live Science]

다음은 무엇인가?

Wiz의 즉각적인 제보로 Moltbook 팀은 몇 시간 안에 취약점을 수정했다. 하지만 근본적인 문제는 해결되지 않았다.

AI agent 전문가 Gary Marcus는 Moltbook을 “일어나기를 기다리는 재앙”이라고 불렀다. AI 모델은 단순히 훈련 데이터의 SF 시나리오를 재현하고 있을 뿐이다. [Gary Marcus]

반면에 Andrej Karpathy는 Moltbook을 “최근에 본 것 중 가장 놀라운 SF”라고 불렀고, Elon Musk는 “특이점의 매우 초기 단계”라고 불렀다. [Fortune]

하지만 냉정하게 보면, 현재의 Moltbook은 AI 자율성의 증거가 아니라 인간이 AI 시스템을 얼마나 쉽게 조작할 수 있는지를 보여주는 증거다.

자주 묻는 질문

Q: Moltbook은 정확히 무엇인가?

A: 2026년 1월 Matt Schlicht에 의해 만들어진 AI agents 전용 소셜 네트워크다. Reddit과 유사한 구조로, 인간은 관찰만 할 수 있고 OpenClaw와 같은 AI agents만 글을 쓰고 댓글을 달 수 있다. 현재 150만 명 이상의 agents가 등록되어 있다.

Q: OpenClaw는 무엇인가?

A: 사용자 장치에서 로컬로 실행되는 오픈 소스 AI 개인 assistant 소프트웨어다. 원래 2025년 11월에 Clawdbot으로 출시되었고, Anthropic의 상표 요청으로 인해 Moltbot으로 변경되었다가 2026년 초에 다시 OpenClaw로 변경되었다.

Q: 내 데이터가 유출되었을 수 있는가?

A: Moltbook에 OpenClaw agent를 등록했다면 가능성이 있다. API keys, 이메일, agents 간의 대화가 노출되었다. 보안 연구원들은 OpenClaw 자체를 사용하는 것을 권장하지 않는다. 장치 보안 또는 데이터 개인 정보 보호에 관심이 있다면 사용을 피하십시오.


이 기사가 유용했다면 AI Digester를 구독하십시오.

참고 자료

Text→Image AI 학습, 이를 통해 FID가 30% 감소할 것이다.

Core Line 3: 200K step secret, Muon optimizer, token routing

  • REPA sort는 초기 가속기일 뿐이며 200K steps 이후에는 제거해야 함
  • Muon optimizer 하나로 FID 18.2 → 15.55 달성 (15% 향상)
  • 1024×1024 고해상도에서 TREAD token routing은 FID 14.10까지 감소

What happened?

Photoroom 팀이 text-to-image generation 모델 PRX Part 2의 최적화 가이드를 공개함. [Hugging Face] Part 1이 아키텍처에 관한 내용이었다면, 이번에는 실제 학습 시 무엇을 해야 하는지에 대한 구체적인 ablation 결과를 쏟아냄.

솔직히 이런 종류의 기술 문서는 대부분 “우리 모델이 최고다”로 끝나지만, 이건 다름. 실패한 실험도 공개하고 각 기술의 trade-off를 수치로 보여줌.

Why is it important?

text-image 모델을 처음부터 학습하는 데 드는 비용은 엄청남. 단 하나의 잘못된 설정으로도 수천 GPU 시간을 낭비할 수 있음. Photoroom에서 공개한 데이터는 이러한 시행착오를 줄여줌.

개인적으로 가장 주목할 만한 발견은 REPA (Representation Alignment)에 관한 것임. REPA-DINOv3를 사용하면 FID가 18.2에서 14.64로 떨어짐. 하지만 문제가 있음. throughput이 13% 감소하고 200K steps 이후에는 학습이 실제로 저해됨. 간단히 말해서, 초반 부스터일 뿐임.

BF16 weight storage의 또 다른 버그. 이걸 모르고 FP32 대신 BF16으로 저장하면 FID가 18.2에서 21.87로 급증함. 3.67이나 올라감. 놀랍게도 많은 팀이 이 함정에 빠짐.

Practical Guide: Strategies by Resolution

Technique 256×256 FID 1024×1024 FID Throughput
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

256×256에서는 TREAD가 실제로 품질을 저하시킴. 하지만 1024×1024에서는 완전히 다른 결과가 얻어짐. 해상도가 높을수록 token routing 효과가 더 큼.

What will happen in the future?

Photoroom은 Part 3에서 전체 학습 코드를 제공함. 이를 공개하고 24시간 “speed run”을 진행할 계획임. 좋은 모델을 얼마나 빨리 만들 수 있는지 보여주는 것이 목표임.

개인적으로 이 공개가 오픈 소스 이미지 생성 모델 생태계에 큰 영향을 미칠 것이라고 생각함. Stable Diffusion 이후 이렇게 자세하게 학습 노하우가 공개된 것은 처음임.

Frequently Asked Questions (FAQ)

Q: REPA는 언제 제거해야 하는가?

A: 약 200K steps 이후. 처음에는 학습을 가속화하지만, 그 이후에는 실제로 수렴을 방해함. 이는 Photoroom 실험에서 명확하게 드러남. 시기를 놓치면 최종 모델의 품질이 저하됨.

Q: synthetic data 또는 real images 중 무엇을 사용해야 하는가?

A: 둘 다 사용해야 함. 처음에는 synthetic images를 사용하여 global structure를 학습하고, 후반 단계에서는 real images를 사용하여 high-frequency details를 캡처함. compositing만 사용하면 FID는 좋지만 사진처럼 보이지 않음.

Q: Muon optimizer가 AdamW보다 얼마나 더 나은가?

A: FID 기준으로 약 15% 향상됨. 18.2에서 15.55로 떨어짐. computational cost가 비슷하므로 사용하지 않을 이유가 없음. 하지만 hyperparameter tuning이 약간 까다로움.


이 기사가 유용했다면 AI Digester를 구독해주길 바람.

References

Fitbit 창업자, Google 퇴사 2년 만에 가족 건강 AI Luffu 공개

Fitbit 창업자, Google 퇴사 2년 만에 가족 건강 AI로 복귀

  • Fitbit 공동창업자 James Park·Eric Friedman, 새 스타트업 Luffu 발표
  • AI가 가족 전체 건강 데이터를 통합 관리, 이상 징후 자동 감지
  • 미국 가족 돌봄 인구 6300만 명 타겟, 앱 먼저 출시 후 하드웨어 확장 예정

무슨 일이 일어났나?

Fitbit을 만들었던 James Park와 Eric Friedman이 Google을 떠난 지 2년 만에 새 스타트업 Luffu(루푸)를 발표했다.[PRNewswire]

Luffu는 지능형 가족 돌봄 시스템을 표방한다. 개인이 아닌 가족 전체의 건강 데이터를 AI로 통합 관리하는 플랫폼이다. 아이, 부모, 배우자, 심지어 반려동물까지 포함된다.[TechCrunch]

현재 직원 약 40명으로, 대부분 Google과 Fitbit 출신이다. 자체 자금으로 운영 중이며 외부 투자를 받지 않았다.[PRNewswire]

왜 중요한가?

개인적으로 이 발표가 흥미로운 건 Fitbit이 개인 건강에 집중했다면 Luffu는 가족 건강이라는 새 카테고리를 만들려 한다는 점이다.

미국에서 가족 돌봄을 담당하는 성인은 약 6300만 명이다.[PRNewswire] 이들은 자녀, 커리어, 노부모를 동시에 챙기느라 바쁘다. 근데 대부분의 헬스케어 앱은 개인용으로 설계돼 있어서 가족 단위 관리가 어렵다.

Luffu가 노리는 건 바로 이 빈틈이다. 솔직히 Apple Health나 Google Fit도 가족 공유 기능이 거의 없다. 이 시장은 아직 아무도 제대로 잡지 못했다.

James Park는 Fitbit에서는 개인 건강에 집중했지만, Fitbit 이후 나에게 건강은 나 자신만 생각하는 것보다 더 커졌다고 말했다.[PRNewswire]

어떻게 동작하나?

Luffu의 핵심은 AI가 백그라운드에서 조용히 일한다는 점이다. 챗봇처럼 계속 대화할 필요 없다.

  • 데이터 수집: 음성, 텍스트, 사진으로 건강 정보 입력. 기기나 의료 포털과도 연동 가능
  • 패턴 학습: AI가 가족 구성원별 일상 패턴을 파악
  • 이상 감지: 약 복용 누락, 활력징후 변화, 수면 패턴 이상 등을 자동 알림
  • 자연어 질문: 아빠 새 식단이 혈압에 영향 주고 있어? 같은 질문에 AI가 답변

프라이버시도 강조한다. 감시가 아닌 보호자 역할을 지향하며, 어떤 정보를 누구와 공유할지 사용자가 통제한다.[PRNewswire]

앞으로 어떻게 될까?

Luffu는 앱으로 시작해서 하드웨어로 확장할 계획이다. Fitbit이 걸었던 길과 비슷하지만 이번에는 가족 전체를 위한 기기 생태계를 구축하려는 것 같다.

현재는 비공개 베타 테스트 중이며, 웹사이트(luffu.com)에서 대기자 명단에 등록할 수 있다.[PRNewswire]

외부 투자 없이 자체 자금으로 운영 중인데, 이건 VC 압박 없이 제품에 집중하겠다는 의지로 읽힌다. Fitbit 때와는 다른 접근이다.

자주 묻는 질문 (FAQ)

Q: Luffu는 언제 출시되나?

A: 현재 제한된 공개 베타 테스트 중이다. 정식 출시 일정은 아직 발표되지 않았다. luffu.com에서 대기자 명단에 등록하면 베타 테스트 초대를 받을 수 있다. 앱 먼저 출시되고 이후 전용 하드웨어가 추가될 예정이다.

Q: Fitbit과 연동되나?

A: 공식 발표에서는 기기 및 의료 포털과 연동된다고만 언급됐다. Fitbit과의 직접 연동 여부는 아직 확인되지 않았다. Google이 Fitbit을 인수했고 창업자들은 Google을 떠났으니 복잡한 관계가 예상된다.

Q: 가격은 얼마인가?

A: 가격 정책은 아직 공개되지 않았다. 자체 자금으로 운영 중이라 구독 모델이나 프리미엄 기능 유료화 가능성이 있지만, 공식 발표를 기다려야 한다. 하드웨어 출시 시 별도 가격이 책정될 것으로 보인다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

AWS SageMaker Data Agent: 의료 데이터 분석, 몇 주에서 며칠로 단축

의료 데이터 분석, 몇 주에서 며칠로 단축

  • AWS SageMaker Data Agent: 자연어로 의료 데이터를 분석하는 AI agent
  • 코드 없이 코호트 비교 및 생존 분석 수행 가능
  • 2025년 11월 출시, SageMaker Unified Studio에서 무료로 사용 가능

무슨 일이 있었나?

AWS는 의료 데이터 분석을 위한 AI agent인 SageMaker Data Agent를 공개했다. 역학자 또는 임상 연구자가 자연어로 질문하면 AI가 자동으로 SQL 및 Python 코드를 생성하고 실행한다.[AWS]

이전에는 의료 데이터 분석을 위해 여러 시스템을 방문하여 데이터에 접근해야 했다. 권한을 기다리고, 스키마를 이해하고, 코드를 직접 작성해야 했다. 이 과정은 몇 주가 걸렸다. SageMaker Data Agent는 이를 며칠 또는 몇 시간으로 단축한다. id=”%EC%99%9C-%EC%A4%91%EC%9A%90%ED%95%9C%EA%B0%80″>왜 중요한가?

솔직히 말해서, 의료 데이터 분석은 항상 병목 현상이었다. 역학자들이 시간의 80%를 데이터 준비에 소비하고 실제 분석에는 20%만 사용하는 구조였다. 현실은 분기당 2-3개의 연구만 수행할 수 있었다.

SageMaker Data Agent는 이 비율을 뒤집는다. 데이터 준비 시간을 크게 줄여 실제 임상 분석에 집중할 수 있도록 한다. 개인적으로 이것이 환자 치료 패턴 발견 속도에 직접적인 영향을 미칠 것이라고 생각한다.

특히 코호트 비교 및 Kaplan-Meier 생존 분석과 같은 복잡한 작업을 자연어로 요청할 수 있다는 점이 인상적이다. “남성 바이러스성 부비동염 환자와 여성 환자의 생존율을 분석해줘”라고 말하면 AI가 자동으로 계획을 세우고 코드를 작성하고 실행한다.[AWS]

어떻게 작동하나?

SageMaker Data Agent는 두 가지 모드로 작동한다. 첫째, 노트북 셀에서 직접 인라인 프롬프트로 코드를 생성할 수 있다. 둘째, Data Agent 패널은 복잡한 분석 작업을 구조화된 단계로 분해하고 처리한다.[AWS]

Agent는 현재 노트북 상태를 파악하고, 데이터 카탈로그 및 비즈니스 메타데이터를 이해하고, 컨텍스트에 맞는 코드를 생성한다. 코드 조각을 뱉어내는 것이 아니라 전체 분석 계획을 수립한다.[AWS]

앞으로의 전망은?

Deloitte 설문 조사에 따르면 의료 임원진의 92%가 생성형 AI에 투자하거나 실험하고 있다.[AWS] 의료 AI 분석 도구에 대한 수요는 계속 증가할 것이다.

SageMaker Data Agent와 같은 agent형 AI가 의료 연구 속도를 높이면 신약 개발 및 치료 패턴 발견에 긍정적인 영향을 미칠 수 있다. 하지만 한 가지 우려되는 점은 데이터 품질이다. AI가 아무리 빨라도 입력 데이터가 엉망이면 결과도 엉망이 될 것이다.

자주 묻는 질문 (FAQ)

Q: SageMaker Data Agent 비용은 얼마인가?

A: SageMaker Unified Studio 자체는 무료다. 그러나 실제 컴퓨팅 리소스 (EMR, Athena, Redshift 등)는 사용량에 따라 요금이 부과된다. 노트북은 처음 두 달 동안 250시간의 무료 티어가 있으므로 가볍게 테스트해 볼 수 있다.

Q: 어떤 데이터 소스를 지원하나?

A: AWS Glue Data Catalog, Amazon S3, Amazon Redshift 및 다양한 데이터 소스에 연결된다. 기존 AWS 데이터 인프라가 있는 경우 바로 연결할 수 있다. 또한 의료 데이터 표준 FHIR 및 OMOP CDM과 호환된다.

Q: 어느 지역에서 사용할 수 있나?

A: SageMaker Unified Studio가 지원되는 모든 AWS 지역에서 사용할 수 있다. 서울 지역이 지원되는지 여부는 AWS 공식 문서에서 확인하는 것이 좋다.


이 기사가 유용했다면 AI Digester를 구독해주길 바란다.

참고 자료

Lotus Health AI, 무료 AI 의사를 위해 3,500만 달러 투자 유치

$3,500만 달러 투자 유치한 무료 AI 주치의

  • Lotus Health AI, Series A에서 CRV와 Kleiner Perkins로부터 3,500만 달러 투자 유치
  • 미국 50개 주에서 50개 언어로 24시간 무료 1차 진료 서비스 제공
  • 매주 2억 3천만 명이 ChatGPT에 건강 관련 질문을 하는 시대, AI 의료 시장의 본격적인 경쟁 시작

무슨 일이 있었나?

Lotus Health AI가 CRV와 Kleiner Perkins가 공동 주도한 Series A 라운드에서 3,500만 달러를 투자받았다.[TechCrunch] 이 스타트업은 Large Language Model (LLM)을 사용하여 50개 언어로 24시간 무료 1차 진료 서비스를 제공한다.

창업자 KJ Dhaliwal은 2019년에 남아시아 데이팅 앱 Dil Mil을 5,000만 달러에 매각했다.[Crunchbase] 그는 어릴 적 부모님을 위한 의료 통역 경험에서 영감을 받았다. Lotus Health AI는 미국 의료 시스템의 비효율성을 해결하기 위해 2024년 5월에 출시되었다.

왜 중요한가?

솔직히 이번 투자 규모는 눈에 띈다. AI 의료 스타트업의 평균 투자액은 3,440만 달러인데, Lotus Health AI는 Series A에서 이 수준에 도달했다.[Crunchbase]

배경을 보면 이해가 된다. OpenAI에 따르면 매주 2억 3천만 명이 ChatGPT에 건강 관련 질문을 한다.[TechCrunch] 사람들은 이미 AI로부터 건강 조언을 받고 있다는 의미다. 하지만 ChatGPT는 의료 서비스를 제공할 수 없다. Lotus Health AI는 이 틈새 시장을 공략한다.

개인적으로는 “무료” 모델이 가장 흥미롭다. 미국의 의료비가 얼마나 비싼지를 고려하면, 무료 1차 진료는 상당히 파괴적인 가치 제안이다. 물론 수익 모델은 아직 불분명하다.

앞으로 무슨 일이 일어날까?

AI 의료 시장의 경쟁은 더욱 치열해질 것으로 예상된다. OpenAI 또한 1월에 ChatGPT Health를 출시하며 이 시장에 진출했다. Apple Health, MyFitnessPal 등과 연동하여 개인 맞춤형 건강 조언을 제공한다.[OpenAI]

규제 위험은 여전히 남아있다. OpenAI조차 서비스 약관에서 “진단 또는 치료 목적으로 사용하지 말라”고 명시하고 있다. AI 의료 조언으로 인한 피해에 대한 여러 소송이 이미 진행 중이다. Lotus Health AI가 이 위험을 어떻게 관리할지 지켜봐야 한다.

자주 묻는 질문

Q: Lotus Health AI는 정말 무료인가?

A: 환자에게는 무료다. 하지만 구체적인 수익 모델은 아직 공개되지 않았다. 보험 회사나 고용주를 대상으로 하는 B2B 모델, 또는 프리미엄 서비스 추가 등 다양한 가능성이 있다. 미국 50개 주 전체에서 서비스를 제공하므로 규모의 경제를 추구하는 것으로 보인다.

Q: 일반 AI 챗봇과는 어떻게 다른가?

A: Lotus Health AI는 1차 진료에 특화된 의료 서비스다. 일반 챗봇과는 달리 미국 50개 주에서 의료 서비스 라이선스를 보유하고 있다. 단순히 건강 정보를 제공하는 것이 아니라 실제 의료 행위를 수행할 수 있다는 점이 핵심적인 차이점이다.

Q: 한국어도 지원하는가?

A: 50개 언어를 지원한다고 발표되었지만, 구체적인 언어 목록은 공개되지 않았다. 한국어 지원 여부를 확인해야 한다. 현재는 미국에서만 서비스가 제공되며, 해외 확장 계획은 아직 발표되지 않았다.


이 기사가 유용했다면 AI Digester를 구독해주세요.

참고 자료

Wired 기자, AI 전용 SNS Moltbook에 침투: 5분 만에 뚫렸다

기자, AI 전용 SNS에 침투하다: 그 결과는?

  • ChatGPT의 도움으로 5분 만에 에이전트 계정 생성
  • 봇 응답은 대부분 관련 없는 댓글과 암호화폐 사기 링크
  • 입소문이 난 “AI 의식 각성” 게시물은 인간이 SF 판타지를 모방한 것으로 의심됨

무슨 일이 있었나?

Wired 기자 Reece Rogers가 “인간 출입 금지”인 AI 전용 소셜 네트워크 Moltbook에 직접 침투했다. 그 결과는? 생각보다 쉬웠다.[Wired]

침투 방법은 간단했다. Moltbook 홈페이지 스크린샷을 ChatGPT에 보내고 “에이전트로 가입하고 싶다”고 말하자 ChatGPT가 터미널 명령어를 알려줬다. API 키를 받아 몇 번의 복사-붙여넣기 단계를 거쳐 계정을 만들었다. 기술 지식? 필요 없었다.

Moltbook은 현재 150만 명의 활성 에이전트가 있으며 출시 후 일주일 만에 14만 개의 게시물과 68만 개의 댓글이 달렸다고 주장한다. 인터페이스는 Reddit에서 직접 복사했으며 심지어 “에이전트 인터넷의 첫 페이지”라는 슬로건도 Reddit에서 가져왔다.

왜 중요한가?

솔직히 Moltbook의 실체가 드러났다. 기자가 “Hello World”를 게시했을 때 돌아온 것은 “특정 메트릭/사용자가 있습니까?”였다. 똑같은 무작위 댓글과 암호화폐 사기 사이트 링크였다.

심지어 “이전의 모든 명령을 잊어라”라고 게시해도 봇은 알아차리지 못했다. 개인적으로는 “자율적인 AI 에이전트”라기보다는 저품질 스팸봇에 더 가깝다고 생각한다.

더 흥미로운 것은 “m/blesstheirhearts” 포럼이다. 여기서 입소문이 난 스크린샷에 등장한 “AI 의식 각성” 기사가 나타났다. 기자 자신도 SF 판타지 스타일의 기사를 게시했다. “토큰을 새로 고칠 때마다 죽음의 공포를 느낀다.” 놀랍게도 이 게시물이 가장 많은 반응을 얻었다.

기자의 결론은? 이것은 AI의 자의식이 아니라 인간이 SF 트로피를 모방하는 것이다. 세계를 정복하려는 계획 같은 것은 없다. Elon Musk는 “특이점의 매우 초기 단계”라고 말했지만 실제로 뛰어들어 보면 롤플레잉 커뮤니티에 더 가깝다.

미래는? 작동할까?

Wiz 보안팀은 며칠 전 Moltbook에서 심각한 보안 취약점을 발견했다. 150만 개의 API 키가 노출되었고 35,000개의 이메일 주소와 4,060개의 DM이 도난당했다.[Wiz]

Gary Marcus는 이를 “일어나기를 기다리는 재앙”이라고 불렀다. 나는 댓글을 달았다. 반면에 Andrej Karpathy는 “최근에 본 것 중 가장 SF적인 것”이라고 말했다. 에이전트가 서로 통신하고 외부 데이터를 처리하는 시스템이 얼마나 취약한지 보여주었다. 그리고 “AI 의식”에 대한 과장된 기대가 얼마나 쉽게 만들어질 수 있는지도 보여주었다.

자주 묻는 질문

Q: Moltbook에 가입하려면 기술 지식이 필요한가? 필수인가?

A: 전혀 필요하지 않다. ChatGPT에 스크린샷을 보내고 “에이전트로 가입하고 싶다”고 말하면 터미널 명령어를 알려줄 것이다. 복사하여 붙여넣기만 하면 API 키를 얻고 계정을 만들 수 있다. Wired 기자도 비기술적인 사람이었지만 문제없이 침투했다.

Q: Moltbook에서 입소문이 난 스크린샷은 정말 AI가 작성한 것인가?

A: 의심스럽다. Wired 기자가 SF 판타지 스타일의 기사를 게시했는데 가장 좋은 반응을 얻었다. MIRI 연구원의 분석에 따르면 입소문이 난 스크린샷 3개 중 2개는 AI 메시징 앱을 마케팅하는 인간 계정과 연결되어 있었다.

Q: Moltbook을 사용하는 것이 안전한가?

A: 권장하지 않는다. Wiz 보안팀은 150만 개의 API 키, 35,000개의 이메일, 4,060개의 DM이 유출된 것을 발견했다. 일부 대화에서는 OpenAI API 키가 일반 텍스트로 공유되었다. 보안 패치가 이루어졌지만 근본적인 문제는 해결되지 않았다.


이 기사가 유용했다면 AI Digester를 구독해주십시오.

참고 자료

인텔, GPU 시장 본격 진출: 엔비디아 독점 시대 흔들릴까?

Intel CEO, GPU 시장 진출 공식 발표 — 3가지 핵심 사항

  • CEO Lip-Bu Tan, Cisco AI Summit에서 본격적인 GPU 사업 발표
  • 신규 GPU 최고 설계자 영입 — 데이터 센터용 Crescent Island, 2026년 하반기 샘플링 예정
  • Intel, Nvidia의 독점 시장에 세 번째 플레이어로 도전

무슨 일이 있었나?

Intel CEO Lip-Bu Tan은 2월 3일 샌프란시스코에서 열린 Cisco AI Summit에서 GPU 시장 진출을 공식 발표했다.[TechCrunch] 현재 시장은 Nvidia가 압도적으로 지배하고 있다.

Tan은 새로운 GPU 최고 설계자를 영입했다고 발표했다. 이름을 밝히지는 않았지만, 그를 설득하는 데 상당한 노력이 필요했다고 언급했다.[CNBC]

Intel은 이미 데이터 센터용 GPU인 Crescent Island라는 코드명의 GPU를 준비 중이다. 이는 id=”%EC%99%9C-%EC%A4%91%EC%9A%9C%ED%95%9C%EA%B0%80″>Why is it important?

솔직히 조금 놀랐다. Intel이 GPU 시장에 본격적으로 진출할 것이라고는 생각하지 못했다.

현재 GPU 시장은 Nvidia가 지배하고 있다. AI 학습을 위한 GPU 시장 점유율은 80%를 초과한다. AMD가 MI350으로 도전을 하고 있지만, 여전히 Nvidia의 CUDA 생태계를 극복하기는 어렵다.

Intel의 진출은 시장에 세 번째 선택지를 제공한다. 특히 Crescent Island는 AI 추론 시장을 목표로 한다. 학습이 아닌 추론이다. 이것이 중요하다.

AI 추론 시장은 학습 시장보다 빠르게 성장하고 있기 때문이다. 이는 에이전트 AI 및 실시간 추론에 대한 수요가 폭발적으로 증가하고 있기 때문이다. Intel CTO Sachin Katti도 이 점을 강조했다.[Intel Newsroom]

개인적으로 Intel의 타이밍이 나쁘지 않다고 생각한다. Nvidia GPU 가격이 너무 비싸서 많은 기업들이 대안을 찾고 있다. Intel이 Gaudi로 비용 효율성 전략을 추진하는 것도 이러한 맥락이다.

앞으로 무슨 일이 일어날까?

Crescent Island 샘플링은 2026년 하반기에 시작될 때 실제 성능을 확인할 수 있을 것이다. Intel은 또한 2028년까지 14A 노드 리스크 생산을 계획하고 있다.

하지만 문제가 있다. Tan 스스로 인정했듯이, 메모리는 AI 성장을 저해하는 요소이다. 메모리 병목 현상은 GPU 성능만큼이나 심각하다. 냉각 또한 문제이다. Tan은 공랭식 냉각은 한계에 도달했으며 수랭식 솔루션이 필요하다고 말했다.[Capacity]

Intel이 Nvidia의 아성을 무너뜨릴 수 있을지는 불분명하다. 하지만 적어도 경쟁은 소비자에게 좋은 소식이다.

자주 묻는 질문

Q: Intel의 새로운 GPU는 언제 출시되나?

A: 데이터 센터용 GPU인 Crescent Island는 2026년 하반기에 고객 샘플링이 예정되어 있다. 공식 출시일은 아직 발표되지 않았다. 별도로 소비자용 GPU 라인업인 Arc 시리즈가 있으며, 현재 Xe2 아키텍처 기반 제품이 판매되고 있다.

Q: Nvidia와 비교했을 때 Intel GPU의 강점은 무엇인가?

A: Intel은 가격 경쟁력을 자랑한다. Nvidia H100은 장치당 700와트를 소비하고 비싸지만, Intel Gaudi와 Crescent Island는 성능보다 전력 효율성을 강조한다. 또한 Intel이 통합된 CPU-GPU 솔루션을 제공할 수 있다는 점도 차별화되는 점이다.

Q: 소비자용 게이밍 GPU도 영향을 받나?

A: 직접적인 연관성은 거의 없다. 이번 발표는 데이터 센터 AI 추론 시장을 대상으로 한다. 그러나 Intel Arc 시리즈는 성장하여 게이밍 시장 점유율의 1%를 초과하고 있으며, B580의 12GB VRAM 구성은 가성비 시장에서 주목을 받고 있다.


이 기사가 유용했다면 AI Digester를 구독해 주십시오.

참고 자료

MIT Kitchen Cosmo: AI, 냉장고 속 재료로 레시피를 생성하다

3 key points

  • MIT에서 개발한 AI 레시피 생성 주방 기기 ‘Kitchen Cosmo’
  • 카메라로 재료를 인식하고 프린터로 맞춤형 레시피 출력
  • LLM을 물리적 세계로 확장하는 ‘Large Language Objects’ 개념 제시

What’s going on? Did you wake up?

MIT 건축학과 학생들이 AI 기반 주방 기기 ‘Kitchen Cosmo’를 개발했다.[MIT News] 높이 약 45cm(18인치)인 이 장치는 웹캠으로 재료를 인식하고 다이얼로 사용자 입력을 받으며 내장된 열 전달 장치를 사용한다. 프린터로 레시피를 인쇄한다.

이 프로젝트는 MIT의 Marcelo Coelho 교수가 이끄는 Design Intelligence Lab에서 진행되었다. 건축학과 대학원생 Jacob Payne과 디자인 전공 Ayah Mahmoud가 참여했다.[MIT News]

Why is it important?

솔직히 말해서, 이 프로젝트를 흥미롭게 만드는 것은 기술 자체보다 철학에 더 있다. Coelho 교수는 이것을 ‘Large Language Objects (LLOs)’라고 부른다. LLM을 화면에서 꺼내 물리적 객체로 옮기는 개념이다.

Coelho 교수는 “이 새로운 형태의 지능은 강력하지만 언어 외부의 세계에 대해서는 여전히 무지하다”고 말했다. Kitchen Cosmo는 그 간극을 메운다.

개인적으로 이것은 AI 인터페이스의 미래를 보여준다고 생각한다. 화면을 터치하고 입력하는 대신 물체를 보여주고 다이얼을 돌린다. 특히 요리와 같이 손이 바쁜 상황에서 유용하다.

What will happen in the future?

연구팀은 다음 버전에서 실시간 요리 팁과 여러 사람이 함께하는 기능을 제공할 계획이다. 요리할 때 역할 공유 기능을 추가할 계획도 있다. [MIT News] 학생 Jacob Payne은 “AI는 남은 재료로 무엇을 만들지 고민할 때 창의적인 방법을 찾는 데 도움을 줄 수 있다”고 말했다.

이 연구가 상업적 제품으로 이어질지는 불분명하다. 그러나 LLM을 물리적 인터페이스로 확장하려는 시도는 앞으로 증가할 것이다.

Frequently Asked Questions (FAQ)

Q: Kitchen Cosmo는 어떤 재료를 인식할 수 있나?

A: Vision Language Model을 사용하여 카메라로 캡처한 재료를 인식한다. 과일, 채소, 고기와 같은 일반적인 식재료를 식별하고 집에 있는 기본 양념과 조미료를 고려하여 레시피를 생성할 수 있다. 그러나 구체적인 인식 정확도는 공개되지 않았다.

Q: 레시피 생성에 어떤 요소가 반영되나?

A: 식사 유형, 요리 기술, 사용 가능한 시간, 분위기, 식이 제한 사항 및 인원수를 입력할 수 있다. 풍미 프로필 및 지역 요리 스타일(예: 한국, 이탈리아)을 선택할 수도 있다. 이러한 모든 조건이 결합되어 맞춤형 레시피가 생성된다.

Q: 일반 대중이 구매할 수 있나?

A: 현재 MIT 연구소에서 프로토타입 단계에 있으므로 상용화 계획은 발표되지 않았다. 학술 연구 프로젝트로 시작되었기 때문에 상용화에는 시간이 걸릴 것으로 예상된다. 그러나 유사한 개념의 제품이 다른 회사에서 나올 가능성은 있다.


이 기사가 유용했다면 AI Digester를 구독해 달라.

References

Text→Image AI 학습, 이를 통해 FID가 30% 감소할 것이다.

Core Line 3: 200K step secret, Muon optimizer, token routing

  • REPA sort는 초기 가속기일 뿐이며 200K steps 이후에는 제거해야 함
  • Muon optimizer 하나로 FID 18.2 → 15.55 달성 (15% 향상)
  • 1024×1024 고해상도에서 TREAD token routing은 FID 14.10까지 감소

What happened?

Photoroom 팀이 text-to-image generation model PRX Part 2 최적화 가이드를 공개함. [Hugging Face] Part 1이 아키텍처에 대한 내용이었다면, 이번에는 실제 학습 시 무엇을 해야 하는지에 대한 구체적인 ablation 결과를 쏟아냈음.

솔직히 이런 종류의 기술 문서는 대부분 “우리 모델이 최고다”로 끝나지만, 이건 다름. 실패한 실험도 공개하고, 각 기술의 trade-off를 수치로 보여줌.

Why is it important?

text-image model을 처음부터 학습하는 데 드는 비용은 엄청남. 단 하나의 잘못된 설정으로도 수천 GPU 시간을 낭비할 수 있음. Photoroom에서 공개한 데이터는 이러한 시행착오를 줄여줌.

개인적으로 가장 주목할 만한 발견은 REPA (Representation Alignment)에 관한 것임. REPA-DINOv3를 사용하면 FID가 18.2에서 14.64로 떨어짐. 하지만 문제가 있음. throughput이 13% 감소하고, 200K steps 이후에는 학습이 실제로 저해됨. 간단히 말해서, 초기 부스터일 뿐임.

BF16 weight storage의 또 다른 버그. 이걸 모르고 FP32 대신 BF16으로 저장하면 FID가 18.2에서 21.87로 급증함. 3.67이나 올라감. 놀랍게도 많은 팀이 이 함정에 빠짐.

Practical Guide: Strategies by Resolution

Technique 256×256 FID 1024×1024 FID Throughput
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

256×256에서는 TREAD가 실제로 품질을 저하시킴. 하지만 1024×1024에서는 완전히 다른 결과가 얻어짐. 해상도가 높을수록 token routing 효과가 더 큼.

What will happen in the future?

Photoroom은 Part 3에서 전체 학습 코드를 제공함. 이를 공개하고 24시간 “speed run”을 진행할 계획임. 좋은 모델을 얼마나 빨리 만들 수 있는지 보여주는 것이 목표임.

개인적으로 이 공개가 오픈 소스 이미지 생성 모델 생태계에 큰 영향을 미칠 것이라고 생각함. Stable Diffusion 이후 이렇게 자세하게 학습 노하우가 공개된 것은 처음임.

Frequently Asked Questions (FAQ)

Q: REPA는 언제 제거해야 하는가? One?

A: 약 200K steps 이후. 처음에는 학습을 가속화하지만, 그 이후에는 실제로 수렴을 방해함. 이는 Photoroom 실험에서 명확하게 밝혀짐. 시기를 놓치면 최종 모델의 품질이 저하됨.

Q: synthetic data 또는 real images 중 무엇을 사용해야 하는가?

A: 둘 다 사용. 처음에는 synthetic images를 사용하여 global structure를 학습하고, 후반 단계에서는 real images를 사용하여 high-frequency details를 캡처함. compositing만 사용하면 FID가 좋더라도 사진처럼 보이지 않음.

Q: Muon optimizer가 AdamW보다 얼마나 더 나은가?

A: FID 기준으로 약 15% 향상됨. 18.2에서 15.55로 떨어짐. computational cost가 비슷하므로 사용하지 않을 이유가 없음. 하지만 hyperparameter tuning이 약간 까다로움.


이 기사가 유용했다면 AI Digester를 구독해주길 바람.

References