解析成功后会看到阁下分栏视图,左边是网页快照,右边是清楚的 Markdown 或 JSON。支撑高质量缩放,对比查看,所见即所得。
MinerU 是一款将 PDF 转化为机械可读格局的对象(如 markdown、json),可以很便利地抽取为随便率性格局。该项目近日宣布上线“网页解析”功能,只需输入链接或上传 HTML,即可实现网页到 Markdown 的完美转换。
技巧申报链接:https://arxiv.org/pdf/2511.16397v1
模型链接:https://huggingface.co/opendatalab/MinerU-HTML
韧性解析,自带 “重试” 机制。假如动态加载出现问题,体系会主动切换重试。无论是复杂的交互页面照样难以提守信息的站点,在 MinerU 面前一切都要乖乖变回构造化的数据。
据介绍,此次更新的核心利器“MinerU HTML”网页解析体系具有以下核心亮点:
-
极致转化,秒变 Markdown。无需复杂操作,在同一输入框内粘贴网址,无论是图文并茂的深度长文,照样构造复杂的动态页面,MinerU 都能将其精准转化为逻辑严密、构造清楚的 Markdown 文档。
-
深度解析,持续技巧优势。该功能充分持续了 MinerU 在公式、表格辨认范畴的领先优势。网页中嵌入的复杂科学公式、嵌套表格均能被精准还原,确保解析后的文档具备极高的可读性与专业性,完美适配学术研究与专业分析场景。
-
无惧动态衬着,深度兼容。针对现代网页常见的 React、Vue 等框架生成的动态内容,MinerU 展示了强大年夜的解析才能。拜别乱码与格局错位,让 “所见即所得” 成为实际。
-
纯净体验,去冗留精。体系会主动辨认并过滤告白干扰、侧边栏杂讯及无关链接,剔除冗余信息,只为您提取最核心、最纯净的高价值内容。

今朝,MinerU 网页端与桌面客户端供给了每人每日 100 次的免费配额。体验地址:https://mineru.net/OpenSourceTools/Extractor


发表评论 取消回复