NVIDIA拿下文档搜索第一:Nemotron ColEmbed V2发布

ViDoRe V3基准测试总榜第一

  • ViDoRe V3基准测试NDCG@10达到63.42,获得总榜第一
  • 提供3B、4B、8B三种模型规模,支持多样化应用场景
  • Late-Interaction方式实现文本与图像同步检索

发生了什么?

NVIDIA发布了多模态文档搜索模型Nemotron ColEmbed V2。[Hugging Face] 该模型专门用于Visual Document Retrieval,即用文本查询搜索包含视觉元素的文档。在ViDoRe V3基准测试中,该模型以NDCG@10 63.42的成绩获得总榜第一。[NVIDIA]

模型提供三种规模。8B模型性能最佳(63.42),4B以61.54排名第3,3B以59.79排名第6。该模型采用ColBERT风格的Late-Interaction机制,在token级别计算精确的相似度。[Hugging Face]

为什么重要?

企业环境中的文档不只有文本。还包含表格、图表和信息图。传统的基于文本的搜索会遗漏这些视觉元素。Nemotron ColEmbed V2能够同时理解图像和文本,从而提高搜索准确性。

这在RAG(Retrieval-Augmented Generation)系统中尤其有价值。LLM在生成回答之前需要找到相关文档,这个检索阶段的准确性决定了最终回答的质量。相比V1的改进包括高级模型融合技术和多语言合成数据训练。

未来会怎样?

多模态搜索正在从可选变为必选。NVIDIA计划将此模型整合到NeMo Retriever产品线中。企业级RAG管道的文档搜索精度竞争即将全面展开。不过,Late-Interaction方式需要存储token级别的嵌入向量,这意味着更高的存储成本。

常见问题(FAQ)

Q: 什么是Late-Interaction?

A: 传统嵌入模型将整个文档压缩为单个向量。Late-Interaction为每个token创建单独的向量,并计算查询token和文档token之间的最大相似度之和。更精确,但需要更多存储空间。

Q: 应该选择哪种模型规模?

A: 如果准确性是首要考虑,使用8B模型。如果需要成本和速度的平衡,4B是合适的选择。在资源受限的环境中,3B也能提供顶级性能。所有模型都可以在Hugging Face免费获取。

Q: 能直接应用到现有的RAG系统吗?

A: 可以。通过Hugging Face Transformers加载,替换现有管道中的嵌入模型即可。但由于Late-Interaction的特性,可能需要调整向量数据库的索引方式。NVIDIA NGC也提供容器。


如果这篇文章对你有帮助,请订阅AI Digester。

参考资料

发表评论