大年夜说话模型的才能在赓续加强,但幻觉问题仍然是横亘在实际应用前的一道关键障碍。

即便在有文档和检索成果作为根据的情况下,模型仍可能生成与事实不符、缺乏根据甚至与原文相抵触的内容,并且表达平日流畅、自洽,不易被发明。这对司法、医疗、金融、检索加强生成等对靠得住性请求极高的场景带来了明显风险。
固然业内赓续经由过程“做更大年夜的模型”“更复杂的检索”“更强的安然对齐”等方法来缓解问题,但成本与算力需求持续攀升,而幻觉为何产生、若何体系检测与解释,依然缺乏有效谜底。
在如许的背景下,清华大年夜学孙茂松团队结合深言科技提出了新论文《FaithLens: Training Large Language Models to Detect Hallucinations with Useful Explanations》。这项工作不再把幻觉检测算作简单的对错分类,而是把它晋升为对模型推理过程与证据一致性的整体评估。
FaithLens 的核心思路是:模型不仅须要断定是否存在幻觉,还要生成清楚、具体、真正能赞助另一个模型做出精确断定的解释,并把这种“解释是否有效”直接作为练习旌旗灯号来优化模型。
为此,研究团队设计了一套结合监督微调和强化进修的练习框架,经由过程合成数据、解释过滤和嘉奖机制,使模型在给出结论的同时,也学会解释根据在哪里、推理是怎么来的。实验注解,在这一范式下,仅 8B 参数范围的模型,就在多个跨范畴幻觉检测义务上跨越多款闭源大年夜模型,同时在解释质量与推理一致性方面取得明显优势。
论文地址:https://arxiv.org/pdf/2512.20182
8B 模型反超多款闭源大年夜模型
这项工作的核心实验成果注解,研究团队提出的 FaithLens 模型在忠诚性幻觉检测义务上达到了当前最优甚至跨越闭源大年夜模型的后果。
所谓忠诚性幻觉,是指大年夜说话模型在给定文档或检索信息的基本上生成了与原文不一致、无法支撑甚至相抵触的内容。实验覆盖 12 个跨范畴跨义务的数据集,包含消息摘要、检索加强生成问答、固定文档问答、事实核查和多跳推理等广泛场景。这些义务分别来自 LLM-AggreFact 和 HoVer 两大年夜标准基准,具有很强代表性。
实验采取宏平均 F1 值作为评价指标,从实验成果来看,FaithLens 在这 12 个义务上的整体平均指标跨越了所有比较体系。特别是与当前最强开放或闭源的大年夜模型比拟,比如 GPT-4.1、GPT-4o、o3、Claude 3.7 Sonnet 以及 Llama-3.1-405B 等,FaithLens 在整体机能上均取得领先。这一成果异常重要,因为 FaithLens 仅基于 8B 参数范围,而这些比较模型大年夜多在百亿甚至千亿级别。
在多跳推理义务 HoVer 上,FaithLens 尤为凸起。该义务请求模型综合多个证据片段,进行事实链推理,再断定给定断言是否被支撑或被辩驳。FaithLens 在这一义务上的明显领先,解释它不仅依附浅层模式匹配,而是具备了在文档基本长进行构造化推理和一致性分析的才能。

进一步看细节,实验还比较了 FaithLens 与专门为幻觉检测而设计的体系,如 AlignScore、FactCG、MiniCheck 和 ClearCheck 等。实验注解,在绝大年夜部分义务中,FaithLens 的表示明显优于这些专用体系,并且在义务间的机能方差最低,解释不合类型的幻觉现象(例如摘要中的微扭曲、检索问答中的无中生有、多跳推理中的推理缺环等)都可以被同一辨认,从而具有较强的鲁棒性与跨义务泛化才能。

此外,研究人员还对“解释生成质量”做了专门实验。他们经由过程人工评价以及 GPT-4.1 主动评价两种方法,从可读性、赞助性和信息量等维度,体系比较不合模型产生的解释。成果注解,FaithLens 所生成的解释比大年夜多半模型更清楚、更具体,且可以或许有效指出幻觉产生的原因,例如“文档中不存在该事实”“因果关系被缺点推出”“数字被曲解”等,而不是简单反复问题或泛泛而谈。

更为关键的一点是计算成本。实验给出了不合模型在一致样本数量上的推理成本,FaithLens 因为参数范围小,可以用明显更低的 GPU 资本实现推理,其成本大年夜幅低于 API 级闭源模型,同时机能反而更优。实验成果综合注解,FaithLens 在精度、稳定性、解释性以及成本四个方面都具有明显优势。

既要断定对,也要解释清,还要格局完全
在冷启动监督微调阶段,重要问题是练习数据的获取。传统做法须要人工标注幻觉与否,同时撰写解释,这不仅昂贵且一致性差。雷峰网("大众,"号:雷峰网)
除学术研究外,孙茂松传授也十分看重技巧转化与社会办事。他积极推动说话资本扶植与相干国际标准制订,介入组织重要科研平台与学术组织扶植,并倡导人工智能技巧在教导普惠、文化传承与公共治理中的应用。他主持推动了多项具有社会影响力的工程与平台,使说话智能技巧真正走向"大众,"与家当实际场景。
研究团队选择应用强大年夜的现成推理模型生成合成数据,具体做法是从公开义务数据集中抽取文档与断言,输入到大年夜型推理模型中,令其输出三种内容:一是推理链条(chain-of-thought),二是天然说话解释,三是标签。如许获得的样本同时包含语义高低文、义务断言、模型推理、解释和结论。
然而,合成数据质量并不稳定。为此,研究人员提出了三层过滤机制来对数据质量进行控制。
第一层过滤存眷标签精确性,即比较强模型给出的标签与原始标注是否一致,若不一致则丢弃该样本。这一机制可以防止模型进修“缺点但看起来合理的解释”,避免解释与真实标签脱节。
第二层过滤存眷解释质量。团队没有采取人工打分,而是提出了一种“解释可否进步猜测才能”的客不雅指标:先计算模型在无解释情况下猜测精确标签的困惑度,再参加解释从新猜测,假如困惑度降低,则认定解释白实供给了信息支撑;不然,该解释被视为冗余甚至误导,从而对应样本被剔除。
第三层过滤存眷数据多样性。因为前两层过滤轻易保存大年夜量“简单样本”,从而导致模型过拟合某些模式,是以研究团队应用句向量表示文档-断言对,经由过程聚类算法控制不合类别分布,拔取具有代表性的样本,使模型充分裸露于多种幻觉类型之中。
之后,模型在这些经由过程三重过滤后的数据长进行监督微调,使其获得初步的幻觉检测才能和解释生成才能。然而,该阶段重要属于模仿进修,模型偏向于复制练习数据中的推理习惯,而不会主动优化解释质量或断定靠得住性。是以研究人员引入第二阶段 —— 基于规矩的强化进修。
在强化进修阶段,模型针对同一输入生成多条候选输出,每条输出同时包含推理过程、解释和最终标签。研究人员采取 GRPO(Group Relative Policy Optimization)算法来更新策略模型。这一算法无需练习额外嘉奖模型,而是直接应用一组候选之间的相对表示进行优化,加倍高效。
实验的关键立异在于嘉奖设计。起首是猜测精确嘉奖,断定模型最终是否精确辨认幻觉或忠诚内容。该嘉奖直接感化于分类精确性。其次是解释质量嘉奖,这是这项工作最重要的供献之一。
研究团队提出应用一个较弱的新手模型作为评价器,将 FaithLens 生成的解释输入给新手模型,若新手模型是以更轻易作出精确断定,则解释该解释具备清楚性和信息性,因而应当赐与嘉奖。如许体系便能主动进修生成“对他人有效”的解释,而不是仅仅“自我感到优胜”的描述。第三项嘉奖是格局嘉奖,用于束缚输出构造,使其包含完全的推理、解释和标签,避免语句缺掉或构造纷乱。雷峰网
经由过程三种嘉奖的合成,FaithLens 在 RL 阶段慢慢学会兼顾断定精确性与解释质量。实验还进行了体系性的消融实验,将三重过滤、解释质量嘉奖、RL 阶段等组件依次去除,对机能影响进行分析,成果显示,这些组件均对最终模型机能具有关键供献,尤其是解释质量嘉奖对解释可用性晋升明显。

从黑箱判别,到透明可解释

这项工作的实验设计依托于一个完全的模型练习框架,该框架包含两个核心阶段:冷启动监督微调阶段(SFT)和基于规矩的强化进修阶段(RL)。研究团队的设计目标不是简单进步分类精确率,而是欲望同时优化两个输出维度:一是是否存在忠诚性幻觉的断定成果,二是对此断定的天然说话解释。
从学术层面来看,这项工作最重要的意义在于,它将幻觉检测从简单判别问题改变为可解释的推理评估问题。以往的多半检测模型只给出二元断定,用户并不知道模型根据安在,也无法定位幻觉的来源。FaithLens 的框架使模型不仅断定“对或错”,同时解释“错在何处、为什么错”,从而使幻觉检测从黑箱对象转向可以审查、可以复核的透明体系。
从应用层面来看,研究解决了实际体系中的两个抵触:一方面,先辈闭源大年夜模型固然检测和解释才能强,但成本极高,不合适大年夜范围安排。另一方面,小范围模型推理便宜,但质量不足。FaithLens 注解,经由过程精心设计的数据合成策略与强化进修筹划,中等范围模型完全可以实现接近甚至跨越闭源大年夜模型的检测与解释才能,从而明显进步体系可落地性。
从办法论角度来看,研究团队提出了一种新的练习思惟:即经由过程解释是否能教会另一模型来衡量解释质量,这冲破了传统的 BLEU、ROUGE 等外面指标,将解释从文本评价对象改变为功能性对象。这一思惟不仅实用于幻觉检测,还可以推广到推理链验证、数学推理解释、事实核查解释等范畴。
本论文共有三位合营第一作者,分别来自清华大年夜学、复旦大年夜学以及伊利诺伊大年夜学喷鼻槟分校(UIUC),三人合营主导了本项工作的研究推动与论文撰写。
个中,来自清华大年夜学的司书正同时就职于深言科技,现为清华大年夜学计算机系二年级博士生,其导师为孙茂松传授。他的研究偏向重要包含天然说话处理和大年夜范围说话模型。在相干范畴,他以第一作者或合营第一作者身份在 NeurIPS、ACL、ICLR、EMNLP 等顶级国际会议揭橥论文 12 篇,其相干论文累计被引用 800 余次,GitHub 项目获得跨越 5000 颗星标,个中一篇第一作者论文获得 EMNLP 2025 SAC Highlights Award。

参考链接:https://s1s-z.github.io/
早年肄业时代,孙茂松传授在清华大年夜学计算机系完成本科与硕士进修,之后又在海外持续深造并获得计算说话学博士学位,形成了扎实的说话学与计算机科学交叉背景。
作为清华大年夜学天然说话处理实验室(THUNLP)的重要学术带头人之一,孙茂松传授经久存眷中文信息处理、机械翻译、语义计算、大年夜模型练习与推理、说话资本与常识图谱、社会与人文计算等研究偏向,带领团队环绕 NLP 的基本理论与关键技巧开展体系性研究。他的研究既覆盖说话建模、语义表示、推理等核心科学问题,也存眷技巧在教导、文化与社会治理等范畴的落地与影响。
在科研成果方面,他指导和介入的团队在 ACL、EMNLP、NAACL、COLING、AAAI、IJCAI 等国际顶级会议与期刊上揭橥了大年夜量论文,并主持或承担多项国度级重大年夜科研项目。其研究成果涵盖说话技巧基本理论、中文处理平台、智能问答与翻译体系、新一代大年夜范围预练习说话模型等多个偏向,为推动中文 NLP 技巧进入国际前列发挥了关键感化。
这项工作的通信录为孙茂松,他是清华大年夜学计算机科学与技巧系长聘传授、博士生导师,是我国天然说话处理(NLP)与人工智能范畴的重要学者之一。他现任清华大年夜学人工智能研究院常务副院长,并兼任清华大年夜学多个重要学术组织与研究机构的负责人,经久在教授教化、科研与人才培养一线工作,对我国 NLP 学科体系扶植产生了深远影响。
在学术荣誉方面,孙茂松传授获得了多项国表里重要学术称号与嘉奖,包含国际学术组织会士等荣誉,充分表现了国际同业对其学术供献的承认。他培养的学生与团队成员已在国表里高校与企业成长为骨干力量,形成了在 NLP 范畴具有持续影响力的学术梯队。
总体而言,孙茂松传授既是中国 NLP 早期开辟者之一,也是近年来大年夜说话模型与可托 AI 研究的重要推动者。面发挥了关键感化。

参考链接:https://nlp.csai.tsinghua.edu.cn/staff/sms/
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
更深层的意义在于,这项研究对 AI 可托性提出了新的标准。它暗含如许一个不雅点:将来的智能体系不克不及只输出谜底,而必须供给可追溯、可核验、可被他模型应用的解释。这与医疗、司法、教导、金融等高风险范畴的审计诉求高度契合,具有长远的社会价值。
成果背后的科研力量

发表评论 取消回复