NVIDIA Vera Rubin 아키텍처, 인퍼런스 비용 10배 절감 차세대 AI 슈퍼컴퓨터 공개

NVIDIA가 차세대 AI 슈퍼컴퓨터 플랫폼 ‘Vera Rubin’을 공개했다. Blackwell 대비 인퍼런스 성능 5배, 토큰당 비용은 10분의 1로 줄이겠다는 목표다. 2026년 하반기 출시를 예고하며 AI 컴퓨팅의 새로운 기준을 제시했다.

CES 2026에서 발표된 Vera Rubin 플랫폼은 총 6개의 신규 칩으로 구성된다. NVIDIA 공식 발표에 따르면, Rubin GPU와 Vera CPU를 결합한 NVL72 랙 스케일 구성이 핵심이다. 이 구성은 72개의 GPU를 하나의 시스템으로 묶어 대규모 AI 모델의 추론 작업을 처리한다. 특히 주목할 점은 경제성이다. Tom’s Hardware 보도에 의하면, Blackwell 아키텍처 대비 토큰당 비용을 10배 절감할 수 있다고 한다. AI 서비스 운영 기업 입장에서 인퍼런스 비용은 가장 큰 부담 중 하나인데, 이 수치가 실현되면 업계 전반에 상당한 파급 효과가 예상된다. Vera CPU는 ARM 기반 아키텍처를 채택해 전력 효율도 개선했다. NVLink 6세대 인터커넥트를 통해 GPU 간 통신 대역폭도 대폭 확대되었다. NVIDIA 블로그는 Rubin 플랫폼이 자율주행, 오픈 모델 생태계까지 아우르는 청사진의 일부라고 설명했다. 단순히 하드웨어 성능 향상에 그치지 않고, AI 인프라 전체를 재설계하려는 전략이 엿보인다.

Vera Rubin의 등장은 AI 산업의 비용 구조를 근본적으로 바꿀 가능성이 있다. 인퍼런스 비용이 실제로 10배 줄어든다면, 중소 기업도 대규모 AI 서비스를 운영할 수 있는 시대가 열린다. 물론 실제 성능은 출시 후 검증이 필요하지만, NVIDIA의 로드맵이 업계 표준을 다시 한번 재편할 것이라는 점은 분명해 보인다. 하반기 출시 이후 클라우드 서비스 업체들의 도입 속도가 관건이 될 것이다.

FAQ

Q: NVIDIA Vera Rubin은 언제 출시되나?

A: NVIDIA는 2026년 하반기 출시를 예고했다. 정확한 월은 아직 공개되지 않았다.

Q: Blackwell 대비 어떤 점이 개선되었나?

A: 인퍼런스 성능이 최대 5배 향상되고, 토큰당 비용은 10분의 1 수준으로 절감된다. NVLink 6세대와 ARM 기반 Vera CPU도 새롭게 도입되었다.

Q: Vera Rubin NVL72 구성은 무엇인가?

A: 72개의 Rubin GPU를 하나의 랙 스케일 시스템으로 통합한 구성이다. 대규모 AI 모델의 학습과 추론을 하나의 시스템에서 처리할 수 있도록 설계되었다.

FAQ

댓글 남기기 Cancel reply