FastAPI vs Triton: 의료 AI 추론 서버, 뭘 써야 할까?

FastAPI vs Triton: 의료 AI 추론 서버, 뭘 써야 할까?

  • FastAPI 단일 요청 지연: 22ms — 간단한 서비스에 적합
  • Triton 처리량: GPU당 780 RPS — 대용량 배치 처리에 압도적
  • 결론: 둘 다 쓰는 하이브리드가 정답

한눈에 보는 비교

항목 FastAPI Triton Inference Server
지연 시간 (p50) 22ms 0.44ms
처리량 제한적 (단일 프로세스) 780 RPS/GPU
학습 난이도 낮음 높음
배치 처리 수동 구현 필요 동적 배칭 내장
HIPAA 대응 게이트웨이로 활용 백엔드 추론 전용

FastAPI의 특징

Python 웹 프레임워크다. 쉽게 말하면 모델을 REST API로 감싸주는 도구다. 설치부터 배포까지 몇 시간이면 끝난다.[arXiv]

장점

  • 진입 장벽이 낮다 — Python만 알면 바로 시작
  • 유연하다 — 원하는 대로 커스터마이징 가능
  • 단일 요청에서 22ms 수준의 낮은 지연 시간

단점

  • 확장성에 한계 — 단일 프로세스로는 대용량 처리 불가[Medium]
  • 동기 추론이 이벤트 루프를 막는다 — async 핸들러여도 추론 중엔 다른 요청 처리 불가

Triton Inference Server의 특징

NVIDIA가 만든 추론 전용 서버다. TensorRT, PyTorch, ONNX 모델을 그대로 올릴 수 있다. 대용량 트래픽에 최적화됐다.[NVIDIA Docs]

장점

  • 동적 배칭 — 요청을 모아서 한 번에 처리, 처리량 2배 향상[arXiv]
  • 멀티 GPU 지원 — 수평 확장이 쉽다
  • Vestiaire 사례에서 FastAPI 대비 15배 빠른 성능 기록[Vestiaire]

단점

  • 학습 곡선이 가파르다 — 설정 파일과 백엔드 개념 이해 필요
  • 인프라 오버헤드 — 소규모 서비스엔 과하다

언제 뭘 써야 할까?

FastAPI를 선택해야 할 때: 프로토타입 단계, CPU 전용 추론, 요청량이 적은 내부 도구

Triton을 선택해야 할 때: 프로덕션 배포, GPU 활용 필수, 초당 수백 건 이상 처리

개인적으로는 둘 중 하나만 고르는 게 아니라 하이브리드 접근이 현실적이라고 본다. 논문의 결론도 그렇다.

의료 AI에서의 하이브리드 아키텍처

연구팀이 제안한 방식은 이렇다. FastAPI가 앞단에서 PHI(보호대상 건강정보) 비식별화를 처리하고, 뒷단 Triton이 실제 추론을 담당한다.[arXiv]

왜 중요하냐면, HIPAA 규정 준수가 2026년 더 엄격해졌기 때문이다. HHS가 20년 만에 보안 규칙을 대폭 개정했다.[Foley] AI가 PHI를 만지는 순간, 암호화·접근 제어·감사 로그가 필수가 됐다.

하이브리드 구조는 보안과 성능을 동시에 잡는다. FastAPI 레이어에서 민감 정보를 걸러내고, Triton은 깨끗한 데이터만 처리한다. 논문은 이걸 “엔터프라이즈 임상 AI의 베스트 프랙티스”라고 부른다.

자주 묻는 질문 (FAQ)

Q: FastAPI와 Triton을 같이 쓸 수 있나?

A: 가능하다. 실제로 논문이 권장하는 방식이 바로 그거다. FastAPI가 게이트웨이 역할을 하면서 인증, 로깅, 전처리를 담당하고, Triton이 GPU 추론을 맡는다. PyTriton 라이브러리를 쓰면 Python 친화적인 인터페이스로 Triton을 제어할 수 있어서 통합이 한결 쉬워진다.

Q: 초보자에게 추천하는 건?

A: FastAPI부터 시작하는 게 맞다. 모델 서빙의 기본 개념을 익히고 나서 트래픽이 늘어나면 Triton으로 전환하면 된다. 처음부터 Triton을 쓰면 설정에 허덕이다가 정작 모델 개선에 집중 못 한다. 단, 처음부터 대용량 트래픽이 예상된다면 Triton으로 바로 가는 게 나중에 재작업을 줄인다.

Q: Kubernetes 배포 시 주의점은?

A: 이 논문이 바로 Kubernetes 환경에서 벤치마킹한 거다. Triton의 경우 GPU 노드 스케줄링과 리소스 제한 설정이 핵심이다. NVIDIA device plugin 설치가 필수고, HPA(수평 자동 확장) 설정 시 GPU 메트릭 기반으로 해야 제대로 동작한다. FastAPI는 일반적인 Pod 배포와 크게 다르지 않다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

댓글 남기기