格灵深瞳宣布大年夜范围中文视觉说话预练习数据集：丹青

141 阅读 0 评论 0 点赞

格灵深瞳宣布大年夜范围中文视觉说话预练习数据集“丹青”（DanQing），包含1亿组图文配对数据，基于2024–2025年收集数据构建。该数据集采取更严格的筛选机制，研究团队基于SigLIP2模型实验注解，其在零样本分类、跨模态检索及大年夜型多模态模型评测等义务中表示优良。

据介绍，团队实现了一个基于BERTopic 的主题建模流程。他们随机抽取了1000万个图像-文本对，并应用Chinese-CLIP-L/14提取文本嵌入。为懂得决高维聚类问题，团队应用UMAP进行降维，然后应用HDBSCAN辨认语义簇，最小簇大年夜小为1000，以进步稳定性并降低噪声。最后应用基于类其余TF-IDF为每个主题提代替表性关键词。

丹青数据集官网：https://deepglint.github.io/DanQing/

点赞(0) 打赏

本文分类：互联网
本文标签：格灵深瞳发布大规模中文视觉语言预训练数据集：丹青
浏览次数：141 次浏览
发布日期：2026-01-20 21:34:12
本文链接：http://www.fqpy.com/internet/7126

上一篇 > 昆仑万维宣布 Skywork Design Agent，面向非专业人士的 AI 设计对象
下一篇 > 软件测试智能体技巧规范正式宣布

评论列表共有 0 条评论

暂无评论

格灵深瞳宣布大年夜范围中文视觉说话预练习数据集：丹青

格灵深瞳宣布大年夜范围中文视觉说话预练习数据集：丹青

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复