阿里通义大年夜模型团队正式开源宣布 Qwen3-VL-Embedding  Qwen3-VL-Reranker 模型系列,这两个模型基于 Qwen3-VL 构建,专为多模态信息检索跨模态懂得设计,为图文、视频等混淆内容的懂得与检索供给同一、高效的解决筹划。

  • 多模态通用性 

两个模型系列均能在同一框架内处理文本图像可视化文档(图表、代码、UI组件......)、视频等多种模态输入。在图文检索、视频-文本匹配、视觉问答(VQA),多模态内容聚类等多样化义务中,均达到了业界领先程度。

  • 同一表示进修(Embedding)

Qwen3-VL-Embedding 充分应用 Qwen3-VL 基本模型的优势,可以或许生成语义丰富的向量表示,将视觉与文本信息映射到同一语义空间中,从而实现高效的跨模态类似度计算与检索。

Embedding 模型接收单模态或混淆模态输入,并将其映射为高维语义向量。我们提取基座模型最后一层中对应 [EOS] token 的隐蔽状况向量,作为输入的最终语义表示。这种办法确保了大年夜范围检索所需的高效自力编码才能。

作为 Embedding 模型的弥补,Qwen3-VL-Reranker 接收随便率性模态组合的查询与文档对(eg:图文查询匹配图文文档),输出精确的相干性分数。在实际应用中,二者常协同工作:Embedding 负责快速召回Reranker 负责精细化重排序,构成“两阶段检索流程”,明显晋升最终成果精度。

  • 卓越的实用性

该系列持续了 Qwen3-VL 的多说话才能,支撑跨越 30 种说话,合适全球化安排。模型供给灵活的向量维度选择、义务指令定制,以及量化后仍保持的优良机能,便于开辟者集成到现有体系中。

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 采取了不合的架构设计,分别针对检索流程的不合阶段进行优化。

图1:同一多模态表示空间示意图。Qwen3-VL-Embedding模型系列将多源数据(文本、图像、视觉文档和视频)映射到合营的高维语义空间。

  • 高精度重排序(Reranker)

图 2:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 架构概览。左侧为 Embedding 模型的双塔自力编码架构,右侧为 Reranker 模型的单塔交叉留意力架构。

Qwen3-VL-Embedding 采取双塔架构可以高效地将不合模态的内容自力编码为同一的向量表示,特别合适处理海量数据的并行计算。

Qwen3-VL-Reranker 采取单塔架构经由过程内部的交叉留意力机制,深度分析查询与文档之间的语义接洽关系,从而输出精确的相干性分数。

在实际工作中,Reranking 模型接收输入对 (Query, Document) 并进行结合编码。它应用基座模型内的交叉留意力机制,实现 Query 和 Document 之间更深层、更细粒度的跨模态交互和信息融合。模型最终经由过程猜测两个特别 token(yes 和 no)的生成概率来表达输入对的相干性分数。

 

GitHub 仓库:

https://github.com/QwenLM/Qwen3-VL-Embedding

魔搭 ModelScope:

https://modelscope.cn/collections/Qwen/Qwen3-VL-Embedding
https://modelscope.cn/collections/Qwen/Qwen3-VL-Reranker

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部