腾讯开源 finLLM-Eval：大年夜模型金融场景幻觉专业评测筹划

19 阅读 0 评论 0 点赞

腾讯开源宣布推出 finLLM-Eval，一套专为大年夜模型金融场景设计的幻觉评测筹划，在行业内初次提出无 GroundTruth 下金融数据精确性的评测办法，弥补了大年夜模型金融范畴评测的空白，旨在推动AI技巧在高风险、高请求的金融范畴安然、靠得住地落地。

本次开源版本包含以下核心才能：

逻辑一致性 & 事实精确性评测模块：完全工程代码，示例评测集，支撑用户自定义评测集，主动化输出模型表示详情。供给完全评测申报，包含总分、缺点点分布、千字幻觉率等指标。
端到端金融数据精确性比较模块：技巧筹划

核心功能亮点

面向大年夜模型生成才能评测

事实精确性评测：检测模型输出是否与客不雅事实一致，避免无中生有、张冠李戴等问题。
逻辑一致性评测：评估模型分析过程中的前提、论证和结论是否相符金融市场规律与投资理论，杜绝逻辑谬误。

面向大年夜模型端到端应用评测

无GroundTruth的金融数据精确性评测：基于真实用户问答，主动提取“标的×时光×指标”金融事实三要素，经由过程内部金融数据库进行主动化验证，无需人工标注标准谜底。

AgentAsJudger主动化评测

全程无需人工干涉，经由过程AI Agent主动提取事实点与逻辑链，并与RAG内容或金融数据库进行比对，精确率高达96%以上。

接下来，项目团队筹划将持续迭代 finLLM-Eval，将来将支撑非金融指标数据核验、成果归因等才能。

点赞(0) 打赏

本文分类：互联网
本文标签：finLLM-Eval 腾讯开源 finLLM-Eval：大模型金融场景幻觉专业评测方案
浏览次数：19 次浏览
发布日期：2026-01-20 08:40:11
本文链接：http://www.fqpy.com/internet/6879

上一篇 > eBPF 基金会 2025 年度回想
下一篇 > PHP 在 2026 年还实用吗？

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信小程序

微信扫一扫体验

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部