NVIDIA가 문서 검색 1위 찍었다: Nemotron ColEmbed V2 출시

ViDoRe V3 벤치마크 전체 1위 달성

  • ViDoRe V3 벤치마크 NDCG@10 63.42로 전체 1위 달성
  • 3B, 4B, 8B 세 가지 모델 크기로 다양한 활용 지원
  • Late-Interaction 방식으로 텍스트+이미지 동시 검색 가능

무슨 일이 일어났나?

NVIDIA가 멀티모달 문서 검색 모델 Nemotron ColEmbed V2를 공개했다.[Hugging Face] 이 모델은 시각적 요소가 포함된 문서에서 텍스트 쿼리로 검색하는 Visual Document Retrieval에 특화되어 있다. ViDoRe V3 벤치마크에서 NDCG@10 63.42점을 기록하며 전체 1위를 차지했다.[NVIDIA]

모델은 세 가지 크기로 제공된다. 8B 모델이 최고 성능(63.42), 4B가 61.54로 3위, 3B가 59.79로 6위를 각각 기록했다. ColBERT 스타일의 Late-Interaction 메커니즘을 사용해 각 토큰 단위로 정밀한 유사도를 계산한다.[Hugging Face]

왜 중요한가?

기업 환경에서 문서는 텍스트만 있는 게 아니다. 표, 차트, 인포그래픽이 섞여 있다. 기존 텍스트 기반 검색은 이런 시각적 요소를 놓친다. Nemotron ColEmbed V2는 이미지와 텍스트를 함께 이해해서 검색 정확도를 높인다.

특히 RAG(Retrieval-Augmented Generation) 시스템에서 활용도가 높다. LLM이 답변을 생성하기 전에 관련 문서를 찾아야 하는데, 이 검색 단계의 정확도가 최종 답변 품질을 결정한다. V1 대비 개선된 점은 고급 모델 병합 기법과 다국어 합성 데이터 학습이다.

앞으로 어떻게 될까?

멀티모달 검색은 이제 선택이 아닌 필수가 되어가고 있다. NVIDIA는 NeMo Retriever 제품군에 이 모델을 통합할 예정이다. 기업용 RAG 파이프라인에서 문서 검색 정확도 경쟁이 본격화될 전망이다. 다만 Late-Interaction 방식은 토큰 단위 임베딩을 저장해야 해서 스토리지 비용이 높다는 점은 고려해야 한다.

자주 묻는 질문 (FAQ)

Q: Late-Interaction이 뭔가?

A: 기존 임베딩 모델은 문서 전체를 하나의 벡터로 압축한다. Late-Interaction은 각 토큰마다 별도 벡터를 만들고, 쿼리 토큰과 문서 토큰 간 최대 유사도를 합산한다. 더 정밀하지만 저장 공간이 많이 필요하다.

Q: 어떤 모델 크기를 선택해야 하나?

A: 정확도가 최우선이면 8B 모델을 쓰면 된다. 비용과 속도의 균형을 원하면 4B가 적절하다. 리소스가 제한된 환경에서는 3B도 상위권 성능을 제공한다. 모두 Hugging Face에서 무료로 받을 수 있다.

Q: 기존 RAG 시스템에 바로 적용할 수 있나?

A: 가능하다. Hugging Face Transformers로 로드해서 기존 파이프라인의 임베딩 모델만 교체하면 된다. 다만 Late-Interaction 특성상 벡터 DB 인덱싱 방식을 조정해야 할 수 있다. NVIDIA NGC에서 컨테이너도 제공한다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

댓글 남기기