腾讯开源宣布推出 finLLM-Eval,一套专为大年夜模型金融场景设计的幻觉评测筹划,在行业内初次提出无 GroundTruth 下金融数据精确性的评测办法,弥补了大年夜模型金融范畴评测的空白,旨在推动AI技巧在高风险、高请求的金融范畴安然、靠得住地落地。

本次开源版本包含以下核心才能:

  • 逻辑一致性 & 事实精确性评测模块:完全工程代码,示例评测集,支撑用户自定义评测集,主动化输出模型表示详情。供给完全评测申报,包含总分、缺点点分布、千字幻觉率等指标。
  • 端到端金融数据精确性比较模块:技巧筹划

核心功能亮点

面向大年夜模型生成才能评测

  • 事实精确性评测:检测模型输出是否与客不雅事实一致,避免无中生有、张冠李戴等问题。
  • 逻辑一致性评测:评估模型分析过程中的前提、论证和结论是否相符金融市场规律与投资理论,杜绝逻辑谬误。

面向大年夜模型端到端应用评测

  • 无GroundTruth的金融数据精确性评测:基于真实用户问答,主动提取“标的×时光×指标”金融事实三要素,经由过程内部金融数据库进行主动化验证,无需人工标注标准谜底。

AgentAsJudger主动化评测

  • 全程无需人工干涉,经由过程AI Agent主动提取事实点与逻辑链,并与RAG内容或金融数据库进行比对,精确率高达96%以上。

接下来,项目团队筹划将持续迭代 finLLM-Eval将来支撑金融指标数据核验成果归因才能

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部