格灵深瞳宣布大年夜范围中文视觉说话预练习数据集“丹青”(DanQing),包含1亿组图文配对数据,基于2024–2025年收集数据构建。该数据集采取更严格的筛选机制,研究团队基于SigLIP2模型实验注解,其在零样本分类、跨模态检索及大年夜型多模态模型评测等义务中表示优良。

据介绍,团队实现了一个基于BERTopic 的主题建模流程。他们随机抽取了1000万个图像-文本对,并应用Chinese-CLIP-L/14提取文本嵌入。为懂得决高维聚类问题,团队应用UMAP进行降维,然后应用HDBSCAN辨认语义簇,最小簇大年夜小为1000,以进步稳定性并降低噪声。最后应用基于类其余TF-IDF为每个主题提代替表性关键词。

丹青数据集官网:https://deepglint.github.io/DanQing/

发表评论 取消回复