ViDoRe V3ベンチマークで総合1位を達成
- ViDoRe V3ベンチマークでNDCG@10 63.42を記録し、総合1位を達成
- 3B、4B、8Bの3つのモデルサイズで多様な活用をサポート
- Late-Interaction方式でテキストと画像の同時検索が可能
何が起きたのか?
NVIDIAがマルチモーダル文書検索モデルNemotron ColEmbed V2を公開した。[Hugging Face] このモデルは視覚的要素を含む文書からテキストクエリで検索するVisual Document Retrievalに特化している。ViDoRe V3ベンチマークでNDCG@10 63.42点を記録し、総合1位を獲得した。[NVIDIA]
モデルは3つのサイズで提供される。8Bモデルが最高性能(63.42)、4Bが61.54で3位、3Bが59.79で6位をそれぞれ記録した。ColBERTスタイルのLate-Interactionメカニズムを使用し、各トークン単位で精密な類似度を計算する。[Hugging Face]
なぜ重要なのか?
企業環境での文書はテキストだけではない。表、チャート、インフォグラフィックが混在している。従来のテキストベースの検索はこれらの視覚的要素を見逃す。Nemotron ColEmbed V2は画像とテキストを一緒に理解し、検索精度を向上させる。
特にRAG(Retrieval-Augmented Generation)システムでの活用度が高い。LLMが回答を生成する前に関連文書を見つける必要があり、この検索段階の精度が最終回答の品質を決定する。V1からの改善点は、高度なモデルマージ技法と多言語合成データ学習である。
今後どうなるのか?
マルチモーダル検索は今や選択ではなく必須になりつつある。NVIDIAはNeMo Retriever製品群にこのモデルを統合する予定だ。企業向けRAGパイプラインでの文書検索精度競争が本格化する見通しである。ただし、Late-Interaction方式はトークン単位のエンベディングを保存する必要があり、ストレージコストが高いという点は考慮すべきである。
よくある質問(FAQ)
Q: Late-Interactionとは何か?
A: 従来のエンベディングモデルは文書全体を1つのベクトルに圧縮する。Late-Interactionは各トークンごとに別々のベクトルを作成し、クエリトークンと文書トークン間の最大類似度を合計する。より精密だが、ストレージ容量が多く必要である。
Q: どのモデルサイズを選ぶべきか?
A: 精度が最優先なら8Bモデルを使えばよい。コストと速度のバランスを求めるなら4Bが適切だ。リソースが制限された環境では3Bも上位圏の性能を提供する。すべてHugging Faceで無料で入手できる。
Q: 既存のRAGシステムにすぐ適用できるか?
A: 可能だ。Hugging Face Transformersでロードして、既存パイプラインのエンベディングモデルを置き換えればよい。ただし、Late-Interactionの特性上、ベクトルDBのインデックス方式を調整する必要があるかもしれない。NVIDIA NGCでコンテナも提供している。
この記事が役に立ったら、AI Digesterを購読してください。
参考資料
- Nemotron ColEmbed V2: Raising the Bar for Multimodal Retrieval – Hugging Face (2026-02-04)
- nemotron-colembed-vl-8b-v2 Model Card – Hugging Face (2026-02-04)
- ColBERT: Efficient and Effective Passage Search – arXiv (2020-04-27)