在医疗人工智能的成长过程中,才能评估方法在很大年夜程度上塑造了技巧演进的偏向。

以前相当长一段时光里,医疗 AI 的进步重要环绕医学常识获取与推理展开,模型是否“足够聪慧”平日经由过程医学测验题、临床问答数据集等静态基准来衡量。在这一评价框架下,模型只需在信息完全、问题封闭的前提下给出精确谜底,便被视为具备较高的医疗才能。

跟着大年夜说话模型的鼓起,这一路径敏捷取得冲破性进展,多种体系在 MedQA 等测试中达到甚至跨越人类专家程度,使得“医疗 AI 是否已经成熟”一度成为行业内的乐不雅断定。

然而,跟着这些模型被慢慢引入更切近真实临床的交互场景,一个经久被掩盖的问题开端浮现:真实医疗实践并非基于完全信息给出诊断,而是一种在高度不肯定前提下,经由过程持续提问、风险辨认与信息整合来慢慢切近亲近决定计划的动态过程。

模型在静态评测中展示出的常识优势,并未天然转化为对真实问诊场景的靠得住支撑,反而在多轮对话中裸露出提问策略僵化、对高风险旌旗灯号反响迟缓、过早形成结论以及缺乏根本沟通与共情才能等缺点。

这种“高分经由过程测验,却难以胜任临床问诊”的断层,逐渐成为医疗 AI 范畴的核心瓶颈,也迫使研究者从新思虑一个根本性问题:医疗智能体真正须要被练习和评估的,毕竟是什么才能。

在这一背景下,清华大年夜学刘洋团队提出了题为《DOCTOR-R1: Mastering Clinical Inquiry with Experiential Agentic Reinforcement Learning》的研究工作,试图从问题建模和练习范式层面打破以静态常识评测为中间的既有路径。

其次,研究将以往被视难堪以量化和体系练习的软技能问题转化为可优化目标。研究人员经由过程合理的义务建模和嘉奖设计,使得共情表达、沟通质量以及对不肯定性的处理等才能可以或许被稳定评估并持续强化,验证了软技能并非只能依附隐式进修或人工规矩,而是可以纳入同一的练习与评价体系之中。

这项研究不再将模型才能简单等同于常识覆盖度或参数范围,而是将临床问诊本身视为一个经久、多轮、部分可不雅测且高度风险敏感的决定计划过程,重点摸索若何让模型学会在信息不完全的前提下提出高价值问题、动态调剂询问策略,并在全部过程中保持安然意识与沟通质量。为医疗智能体从对象型问答体系迈向具备临床推理与交互才能的决定计划主体供给了新的研究范式。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

这项研究的实验成果本质上环绕三个核心问题展开,即现有模型在真实临床问诊场景中毕竟面对哪些挑衅,DOCTOR-R1 在哪些具体才能层面弥补了这些不足,以及这些才能晋升是否确切源于研究团队提出的办法机制而非有时身分。

研究人员起首经由过程对比实验揭示了一个关键事实:在静态医学问答义务中表示优良的模型,在须要多轮交互的动态临床问诊情况中会出现体系性掉效。

这种掉效并非源于医学常识贮备不足,而重要表如今问诊策略层面,例如提问次序缺乏针对性,偏向于应用信息增益较低的标准化体检式问题;在患者给出潜在高危旌旗灯号后,仍难以及时调剂提问路径,而是沿用固定模板持续询问;在关键信息尚未充分收集的情况下过早形成断定,甚至给出不恰当的安抚性或缺点建议;以及整体沟通方法与真实医疗场景不匹配,表示为共情不足、语气过于果断或对不肯定性处理欠妥。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

因为这些问题在 MedQA、MMLU 等静态评测中几乎不会裸露,研究指出传统评测方法对模型真实临床才能存在掉真。与之比拟,DOCTOR-R1 的机能晋升并非表如今单一指标上,而是整体改变。DOCTOR-R1模型除了在上述传统测试的表示优于已有模型,在 MAQuE等模仿评测数据集上,其最终表示也优于 GPT-4.1 等模型。

这一点在对话轮次与精确率关系的分析中也得以表现,DOCTOR-R1 从首轮对话开端即占据优势,并且跟着对话推动持续扩大年夜领先幅度,表现出一种越问越准的策略特点。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

同时,在 HealthBench 的沟通质量、高低文懂得和答复完全性等指标上,DOCTOR-R1 的晋升幅度明显高于精确率本身,注解优胜的沟通与共情才能并非附带收益,而是其问诊策略的内涵构成部分,即共情本身有助于进步信息获取效力。

进一步的消融实验验证了这一结论。研究团队发明,在移除过程嘉奖、仅保存最终诊断嘉奖的情况下,模型固然仍能进修到精确的诊断成果,但中心问诊过程明显退化为模板化和低风险偏好模式,在高风险场景中更轻易产生安然性不足的答复,解释假如纰谬提问过程本身进行显式嘉奖,模型会偏向于忽视若何提问这一关键才能。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

而当经验库机制被移除时,模型在新场景中的适应才能明显降低,在类似病例上的表示也加倍不稳定,对话策略波动明显增大年夜,这注解仅依附>清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

让模型在不肯定中学会决定计划

在实验设计层面,研究团队认为必须采取强化进修而非纯真的微调办法,其核心断定在于两者所能进修的才能本质不合。

微调重要教会模型在获取完全信息后若何生成答复,而临床问诊的关键并不在于“若何作答”,而在于模型在尚不清楚谜底的情况下,若何决定下一步应当询问什么信息。

这一过程本质上属于行动会改变将来可获守信息构造的序列决定计划问题,是以天然更合实用强化进修来建模。进一步地,研究人员指出临床问诊并非一个完全可不雅测的决定计划过程。在真实医疗场景中,患者自身往往也无法完全懂得病情,大夫只能经由过程患者的答复慢慢反推出潜在状况,且大年夜量关键信息只有在被主动询问后才会浮现。

基于这一实际,该研究将问诊过程建模为部分可不雅测马尔可夫决定计划过程,而非简单的马尔可夫决定计划过程,个中真实病情状况对大夫模型弗成见,大夫所获得的不雅察信息具有噪声和不完全性,而每一次提问行动都邑直接影响下一步可以或许获得的信息内容。

这一建模方法对于保存“问什么才有意义”这一核心问题至关重要。与此同时,研究团队强调多智能体交互情况并非情势上的复杂化,而是晋升泛化才能的须要前提。假如患者仅由固定脚本模仿,模型很轻易学会针对脚本进行应对,从而在真实场景中表示出极差的泛化才能。雷峰网("大众,"号:雷峰网)

最后,从办法论层面来看,研究提出的框架为真实世界智能体的构建供给了一种具有可复制性的通用模板。其核心问题特点包含不完全信息前提下的决定计划、面向经久目标的序列行动、高风险情境中的安然束缚以及对经验积聚机制的依附,而这些特点恰是大年夜多半真实世界智能体义务所共有的。

为此,研究人员应用大年夜说话模型扮演患者智能体,是以即便在雷同疾病背景下,患者的表述方法、答复次序以及风险旌旗灯号的裸露机会都具有高度多样性,从而让大夫智能体真正进修稳定有效的问诊策略,而非记忆固定套路。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

不合于传统的权重平均得分,研究团队引入了分层处罚机制,将安然性、推理合理性和医学精确性置于最高优先级,一旦触发底线缺点即直接赐与强负嘉奖。这种在强化进修中相对激进的设计固然束缚严格,但能让模型守住临床安然的底线,且更切近真实医疗场景的风险峻求。雷峰网

最后,在经验应用机制上,该研究并未将经验库视为通俗的记忆模块,而是将其定位为经由筛选的“高质量大夫经验”。研究人员经由过程仅存储高嘉奖轨迹、在检索时同时推敲语义类似度与汗青嘉奖,并引入新鲜性束缚以避免模型反复依附同一问诊套路,使模型在面对新患者时更接近一名积聚了大年夜量临床经验的大夫,而非简单依附谜底记忆的学生。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

真实临床才能导向的医疗 AI 办法论启发

从整体意义上看,这项研究在医疗人工智能范畴具有明白而深远的启发感化。研究成果起首注解,当前医疗 AI 的瓶颈不仅受限于模型所具备的医学常识范围,还在于是否采取了与真实临床实践相匹配的练习范式。

经由过程实验可以看到,在参数范围仅为 8B 的前提下,结合合适的强化进修练习框架,模型在多项动态问诊指标上可以或许跨越参数范围达到 32B 甚至 70B 的常识型模型,这一现象对经久以来以模型范围和常识覆盖度为中间的成长路径形成了纠偏。

是以,这项工作的意义不仅局限于医疗范畴,也为更广泛的智能体研究供给了具有参考价值的范式思路。

构建 DOCTOR-R1 的人

论文第一作者为黎雍卉,清华大年夜学计算机科学与技巧系硕士研究生,导师为刘洋传授。她的重要研究偏向为聪明医疗与大年夜模型智能体,特别是在医疗模型的交互、进化、推理等方面的才能优化。她已揭橥了ICLR等多篇成果,曾获中国当局奖学金、北京市当局奖学金、清华计算机系 84 立异将来奖学金等多项荣誉。

在嘉奖设计方面,研究提出的双层嘉奖机制旨在解决经久存在的两个关键难题。一方面,假如仅根据最终诊断成果赐与嘉奖,模型往往会偏向于过早猜测并提前停止对话,导致中心问诊过程弗成控,高风险缺点也难以及时被处罚;另一方面,医疗决定计划中广泛存在否决型缺点,即一次危险建议或严重误判无法被多次礼貌或合理表达所抵消。

论文链接:https://arxiv.org/pdf/2510.04284

从模板化提问到策略性问诊

论文的合营通信作者之一是马为之,他是清华大年夜学智能家当研究院副研究员,重要从事智能信息获取与聪明医疗的研究工作。他在 SIGIR、ICLR 等国际顶级会议以及 Nature Medicine 等威望期刊上揭橥了100余篇论文,曾获得SIGIR、EMNLP等会议的论文奖项,入选中国科协青年人才托举工程、北京市科技新星。今朝担负 ACM TOIS 副主编及中国中文信息学会青工委秘书长。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

参考链接:https://air.tsinghua.edu.cn/info/1046/1196.htm

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

论文的另一位合营通信作者是刘洋,他是清华大年夜学计算机科学与技巧系万国数据传授、智能家当研究院院长、人工智能病院联席履行院长。研究偏向为天然说话处理、聪明医疗和科学智能。

刘洋传授承担国度天然科学基金委出色青年项目、科技立异2030“新一代人工智能”重大年夜项目等重要科研项目,获得国度科技进步二等奖1项、省部级与一级学会科技嘉奖5项、重要国际会议优良论文奖4项。重要学术兼职包含中国人工智能学会组织工作委员会主任、中国中文信息学管帐算说话学专业委员会主任等。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

参考链接:https://nlp.csai.tsinghua.edu.cn/~ly

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部