텍스트→이미지 AI 학습, 이렇게 하면 FID 30% 떨어진다

핵심 3줄: 200K 스텝 비밀, Muon 옵티마이저, 토큰 라우팅

REPA 정렬은 초기 가속기일 뿐, 200K 스텝 이후 반드시 제거해야 한다
Muon 옵티마이저 하나로 FID 18.2 → 15.55 달성 (15% 개선)
1024×1024 고해상도에서 TREAD 토큰 라우팅은 FID 14.10까지 끌어내린다

무슨 일이 일어났나?

Photoroom 팀이 텍스트-이미지 생성 모델 PRX의 학습 최적화 가이드 Part 2를 공개했다.^{[Hugging Face]} Part 1이 아키텍처를 다뤘다면, 이번엔 실제로 학습할 때 뭘 어떻게 해야 하는지 구체적인 ablation 결과를 쏟아냈다.

솔직히 이런 류의 기술 문서는 대부분 “우리 모델 좋아요”로 끝나는데, 이건 다르다. 실패한 실험도 공개했고, 각 기법의 트레이드오프를 수치로 보여준다.

왜 중요한가?

텍스트-이미지 모델을 처음부터 학습하는 건 비용이 어마어마하다. 잘못된 설정 하나로 GPU 수천 시간이 날아간다. Photoroom이 공개한 데이터는 이 시행착오를 줄여준다.

개인적으로 가장 눈에 띄는 발견은 REPA(표현 정렬)에 관한 것이다. REPA-DINOv3를 쓰면 FID가 18.2에서 14.64로 떨어진다. 근데 문제가 있다. 처리량이 13% 줄어들고, 200K 스텝 이후엔 오히려 학습을 방해한다. 쉽게 말하면 초반 부스터일 뿐이라는 거다.

또 하나, BF16 가중치 저장 버그. 이거 모르고 FP32 대신 BF16으로 저장하면 FID가 18.2에서 21.87로 뛴다. 3.67이나 올라간다. 의외로 많은 팀이 이 함정에 빠진다.

실전 가이드: 해상도별 전략

기법	256×256 FID	1024×1024 FID	처리량
Baseline	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon Optimizer	15.55	–	–

256×256에서 TREAD는 오히려 품질을 떨어뜨린다. 근데 1024×1024에선 완전히 다른 결과가 나온다. 해상도가 높을수록 토큰 라우팅 효과가 극대화된다는 뜻이다.

앞으로 어떻게 될까?

Photoroom은 Part 3에서 전체 학습 코드를 공개하고, 24시간 “스피드런”을 실시할 예정이다. 얼마나 빨리 괜찮은 모델을 만들 수 있는지 보여주겠다는 거다.

개인적으로는 이 공개가 오픈소스 이미지 생성 모델 생태계에 상당한 영향을 줄 거라 본다. Stable Diffusion 이후로 학습 노하우가 이렇게 구체적으로 공개된 건 처음이다.

자주 묻는 질문 (FAQ)

Q: REPA는 언제 제거해야 하나?

A: 약 200K 스텝 이후다. 초기에는 학습을 가속시키지만, 그 이후엔 오히려 수렴을 방해한다. Photoroom 실험에서 명확하게 드러났다. 타이밍을 놓치면 최종 모델 품질이 떨어진다.

Q: 합성 데이터와 실제 이미지 중 뭘 써야 하나?

A: 둘 다 쓴다. 초기엔 합성 이미지로 전역 구조를 학습하고, 후기엔 실제 이미지로 고주파 디테일을 잡는다. 합성만 쓰면 FID는 좋아도 사진 느낌이 안 난다.

Q: Muon 옵티마이저가 AdamW보다 얼마나 좋은가?

A: FID 기준 약 15% 개선이다. 18.2에서 15.55로 떨어졌다. 계산 비용은 비슷하니까, 안 쓸 이유가 없다. 다만 하이퍼파라미터 튜닝이 좀 까다롭다.

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)