据介绍,ScienceMetaBench 是一个专注于评估科学文献 PDF 元数据提取才能的评测集,涵盖了学术论文 (Paper)、教科书 (Textbook) 与 电子书 (Ebook) 三类典范语料 。在构建过程中,研究团队针对中英文双语情况进行了深度适配,确保元信息的提取逻辑与正文语种保持一致。

须要从论文首页提取以下关键信息:{

上海人工智能实验室 OpenDataLab 团队宣布 ScienceMetaBench 科学文献元数据提取评测集,该基准旨在建立客不雅、同一的评估标准,助力社区衡量与比较各类前沿办法的实际机能。

数据集地址:https://huggingface.co/datasets/opendatalab/ScienceMetaBench
评测对象代码 (Dingo):https://github.com/MigoXLab/dingo

下图展示了从学术论文 PDF 文件中提取的元数据字段示例:

  "sha256": "8d3e...f3a", // 文件独一哈希,确保数据可追溯  "doi": "10.1186/s41038-017-0090-z", // 独一标识符  "title": "Children are not little adults...", // 文献标题  "author": "Tina L. Palmieri, ...", // 作者姓名,同一用英文逗号分隔  "keyword": "Blood transfusion, Pediatric", // 关键词,同一用英文逗号分隔  "abstract": "Blood transfusion in burns larger than...", // 摘要正文  "pub_time": "2017" // 标准化后的出版年份}

为了晋升样本的代表性,团队结合了多半据源采样与 K-Means 图像聚类技巧,力争覆盖更多元、复杂的排版样式。在标注环节,团队采取了“AI 预标注 + 人工修改”的高效模式,并参考了用于MinerU评测的OmniDocBench 威望评测基准,以确保数据质量与评测维度的专业性。

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部