简单来说,以前的模型浏览模式是从左上到右下,地毯式扫一遍图片,DeepSeek-OCR 2则可以或许懂得构造,按构造一步步读。这种新的视觉懂得模式,让DeepSeek-OCR 2可以更好地舆解复杂的构冒昧序、公式和表格。

在文档懂得基准测试OmniDocBench v1.5上,DeepSeek-OCR 2拿到了91.09%的得分,在练习数据和编码器都不变的前提下,较DeepSeek-OCR晋升了3.73%。与其他端到端的OCR模型比拟,这已经是SOTA成就,但其表示要略逊于百度的PaddleOCR-VL(92.86%)OCR管线。

03.


同时,在类似的视觉token预算下,DeepSeek-OCR 2在文档解析方面的编辑距离(编辑为精确文本所需的工作量)低于Gemini-3 Pro,这证实DeepSeek-OCR 2在确保优胜机能的同时保持了视觉token的高紧缩率。

DeepSeek-OCR 2兼具双重价值:既可作为新型VLM(视觉说话模型)架构进行摸索性研究,也能作为生成高质量预练习数据的实用对象,办事于大年夜说话模型的练习过程。

论文链接:

https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

开源地址:

https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01.

大年夜模型不懂复杂文件构造?

先不雅察全局再浏览便可解决

从架构上来看,DeepSeek-OCR 2持续了DeepSeek-OCR的整体架构,该架构由编码器和解码器构成。编码器将图像离散化为视觉token,而解码器根据这些视觉token和文本提示生成输出。

关键差别在于编码器:DeepSeek将此前的DeepEncoder进级为DeepEncoder V2,它保存了原有的所有才能,但把本来基于CLIP的编码器换成基于LLM的,同时经由过程新的架构设计引入了因果推理。

不过,DeepSeek-OCR 2也不是全能的。在文本密度超高的报纸上,DeepSeek-OCR 2辨认后果没有其他类型的文本好。这一问题后续可以经由过程增长局部裁剪数量来解决,或者在练习过程中供给更多的样本。


DeepEncoder V2存眷的核心问题在于:当二维构造被映射为一维序列并绑定线性次序后,模型在建模空间关系时弗成避免地受到该次序的影响。

这在天然图像中可能尚可接收,但在OCR、表格、表单等具有复杂构造的场景中,线性次序往往与真实的语义组织方法严重不匹配,从而限制模型对视觉构造的表达才能。

DeepEncoder V2是若何缓解这一问题的?它起首采取视觉tokenizer对图像进行高效表示,经由过程窗口留意力实现约16倍的token紧缩,在明显降低后续全局留意力计算与显存开销的同时,保持了充分的局部与中标准视觉信息。

它并未依附地位编码来规定视觉token的语义次序,而是引入因果流查询(causal queries),经由过程内容感知的方法对视觉标记进行重排序与蒸馏。这种次序不是由空间展开规矩决定,而是由模型在不雅察全局视觉高低文后慢慢生成,从而避免了对固定一维次序的强依附。

每个因果查询可以存眷所有视觉token及先前查询,从而在保持token数量不变的前提下,对视觉特点进行语义重排序与信息蒸馏。最终,仅因果查询的输出被送入下流LLM解码器。

该设计本质上形成了两级级联的因果推理过程:起首,编码器内部经由过程因果查询对无序的视觉标记进行语义排序。随后,LLM解码器在此有序序列上履行自回归推理。

相较于经由过程地位编码强迫施加空间次序的做法,因果查询所引诱的次序更贴合视觉语义本身,也就是相符人类浏览内容的正常习惯。

因为DeepSeek-OCR 2重要存眷编码器改进,没有对解码器组件进行进级。遵守这一设计原则,DeepSeek保存了DeepSeek-OCR的解码器:一个具有约5亿活泼参数的3B参数MoE构造。

02.

OmniDocBench得分达91.09%

编辑距离低于Gemini-3 Pro

为了验证上述设计的有效性,DeepSeek进行了实验。研究团队分三个阶段练习DeepSeek-OCR 2:编码器预练习、查询加强和解码器专业化。

第一阶段使视觉tokenizer和LLM风格的编码器获得特点提取、token紧缩和token重排序的根本才能。第二阶段进一步加强了编码器的token重排序才能,同时加强了视觉常识紧缩。第三阶段冻结编码器参数,仅优化解码器,从而在雷同的FLOPs下实现更高的数据吞吐量。

为评估模型后果,DeepSeek选择OmniDocBench v1.5作为重要的评估基准。该基准包含1355个文档页面,涵盖中英文的9个重要类别(包含杂志、学术论文、研究申报等)。

DeepSeek-OCR 2在仅应用最小的视觉标记上限(V-token maxmax)的情况下,达到了91.09%的机能。与DeepSeek-OCR基线比拟,在类似的练习数据源下,它表示出3.73%的改进,验证了新架构的有效性。

在类似的视觉标记预算(1120)下,DeepSeek-OCR 2(0.100)在文档解析方面的编辑距离低于Gemini-3 Pro(0.115),进一步证实新模型在确保机能的同时保持了视觉标记的高紧缩率。

除了整体改进外,浏览次序(R-order)的编辑距离(ED)也明显降低(从0.085降至0.057),这注解新的DeepEncoder V2可以根据图像信息有效地选择和分列初始视觉标记。


结语:或成新型VLM架构开端

DeepEncoder V2为LLM风格编码器在视觉义务上的可行性供给了初步验证。更重要的是,DeepSeek的研究团队认为,该架构具有演变为同一全模态编码器的潜力。如许的编码器可以在同一参数空间内紧缩文本、提取语音特点和重组视觉内容。

DeepSeek称,DeepSeek-OCR的光学紧缩代表了向原生多模态的初步摸索,将来,他们还将持续摸索经由过程这种共享编码器框架集成额外模态,成为研究摸索的新型VLM架构的开端。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部