在传统的视觉说话模型中,图像平日会被切分为若干视觉token,并按照从左上到右下的固定栅格次序送入模型处理。这种方法固然实现简单,但与人类在浏览文档、表格或公式时基于语义和逻辑关系进行跳跃式浏览的方法并不一致。

DeepSeek论文指出,尤其在版式复杂的文档场景中,视觉元素之间往往存在明白的逻辑先后关系,仅依附空间次序可能限制模型对内容构造的懂得才能。

为验证模型机能,研究团队在OmniDocBench v1.5基准长进行了周全评估。该基准涵盖多种类型的中英文文档,包含学术论文、杂志、申报等,重点考察文本辨认、公式解析、表格构造还原以及浏览次序等指标。

测试成果显示,在视觉token上限更低的情况下,DeepSeek-OCR 2的整体得分达到91.09%,相较DeepSeek-OCR晋升了3.73%。特别是在浏览次序精确度方面,编辑距离从0.085降至0.057,注解新模型可以或许更合理地舆解文档内容构造。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部