腾讯开源宣布推出 finLLM-Eval,一套专为大年夜模型金融场景设计的幻觉评测筹划,在行业内初次提出无 GroundTruth 下金融数据精确性的评测办法,弥补了大年夜模型金融范畴评测的空白,旨在推动AI技巧在高风险、高请求的金融范畴安然、靠得住地落地。
本次开源版本包含以下核心才能:
- 逻辑一致性 & 事实精确性评测模块:完全工程代码,示例评测集,支撑用户自定义评测集,主动化输出模型表示详情。供给完全评测申报,包含总分、缺点点分布、千字幻觉率等指标。
- 端到端金融数据精确性比较模块:技巧筹划
核心功能亮点
面向大年夜模型生成才能评测
- 事实精确性评测:检测模型输出是否与客不雅事实一致,避免无中生有、张冠李戴等问题。
- 逻辑一致性评测:评估模型分析过程中的前提、论证和结论是否相符金融市场规律与投资理论,杜绝逻辑谬误。
面向大年夜模型端到端应用评测
- 无GroundTruth的金融数据精确性评测:基于真实用户问答,主动提取“标的×时光×指标”金融事实三要素,经由过程内部金融数据库进行主动化验证,无需人工标注标准谜底。
AgentAsJudger主动化评测
- 全程无需人工干涉,经由过程AI Agent主动提取事实点与逻辑链,并与RAG内容或金融数据库进行比对,精确率高达96%以上。
接下来,项目团队筹划将持续迭代 finLLM-Eval,将来将支撑非金融指标数据核验、成果归因等才能。

发表评论 取消回复