一、背景与意义

通用大模型在文创、对话等场景中表现优异,但在专业金融场景下,其生成内容的数据、事实准确性和逻辑严谨性仍面临严峻挑战。金融行业对数据的精确性、逻辑的严密性以及合规性有极高要求,传统的通用评测方法难以满足金融场景高专业、强合规、低容错需求。

  为此,我们开发了finLLM-Eval,这是一套专为大模型金融场景设计的幻觉评测方案,在行业内首次提出无 GroundTruth 下金融数据准确性的评测方法,填补了大模型金融领域评测的空白,旨在推动AI技术在高风险、高要求的金融领域安全、可靠地落地。

二、核心功能亮点

🚀 关键词:无GroundTruth、真实用户问答、无需人工标注

1. 面向大模型生成能力评测

👉 事实准确性评测:检测模型输出是否与客观事实一致,避免无中生有、张冠李戴等问题。

👉 逻辑一致性评测:评估模型分析过程中的前提、论证和结论是否符合金融市场规律与投资理论,杜绝逻辑谬误。

2. 面向大模型端到端应用评测

👉 无GroundTruth的金融数据准确性评测:基于真实用户问答,自动提取“标的×时间×指标”金融事实三要素,通过内部金融数据库进行自动化验证,无需人工标注标准答案。

3. AgentAsJudger自动化评测

👉 全程无需人工干预,通过AI Agent自动提取事实点与逻辑链,并与RAG内容或金融数据库进行比对,准确率高达96%以上。

三、技术方案简介

大模型领域针对幻觉常用如下基础二分:

忠实性幻觉( Faithfulness Hallucination)

指输出与指令不一致未忠实于输入、上下文不一致、逻辑不一致。

事实性幻觉(Factuality Hallucination)

指与客观世界事实不符或冲突, 违背、虚构、歪曲事实和数据。

请在此添加图片描述

本方案提供大模型金融场景逻辑一致性、事实准确性和金融数据准确性的评测方法。在行业内首次提出无 GroundTruth 下金融数据准确性评测方案,强化了金融场景幻觉评测能力。

1、逻辑一致性与事实准确性评测

对于金融场景,大模型的回答基本是由金融事实和基于事实的分析(推论、预测、建议等)组成,评测Agent将结合用户的真实Query、应用层RAG,从模型Answer中,逐句提取全部事实点和全部逻辑链。针对每个事实点,逐一核查事实点与RAG的符合性。针对每条逻辑链,提取论点和论据,进行逻辑链条一致性核查。初判结果经LLM二次复核后输出。

请在此添加图片描述

【图-逻辑一致性与事实准确性评测流程图】

本方案事实、观点提取和核查采用了Gemini作为评判模型,提取核查结果经人工标注,准确率在91%以上。

2、金融数据准确性评测

当前,行业内在设计评测集时通常采用预设“标准答案”的方式,即通过评测模型将模型回答与标准答案进行比对。然而,该方法所能覆盖的金融场景范围受限于评测集的覆盖广度,且需依赖人工提前准备标准答案。本方案从用户真实问题出发,通过对真实问答过程中所涉及的金融数据准确性进行评测,更直接地反映模型在实际应用中的表现。

通过对用户的问题和模型答案分析,我们发现金融数据存在一个基本范式:

标的 X 时间 X 指标 = 金融事实三要素

请在此添加图片描述

模型生成的回答往往涉及多个标的、不同时间范围及多项金融指标,我们从中提取出一组结构化的“金融事实三要素”清单(标的、时间和指标)。在提取出三要素后,借助内部构建的大规模、经过验证的金融数据库及配套的 MCP 调用工具链,评测agent根据MCP工具出入参schema描述,自动完成工具选择,组装入参,工具调用、结果指标值解析,对常见金融指标进行查询与比对,并最终给出准确率指标数据。

请在此添加图片描述

【图-金融数据准确性评测流程图】

请在此添加图片描述

【图-查值比对示意】

本方案三要素抽取、MCP工具调用查值和值对比,采用了Gemini作为评判模型,比对结果经人工标注,准确率在96%以上。

四、开源内容

finLLM-Eval现已正式开源,源代码在GitHub上免费开放,欢迎大家下载和使用。

本次开源版本包含以下核心能力:

👉 逻辑一致性 & 事实准确性评测模块:完整工程代码,示例评测集,支持用户自定义评测集,自动化输出模型表现详情。提供完整评测报告,包括总分、错误点分布、千字幻觉率等指标。

👉 端到端金融数据准确性对比模块:技术方案

👉 Github 仓库:https://github.com/Tencent/finLLM-Eval

五、未来展望

我们将持续迭代finLLM-Eval,未来将支持非金融指标数据核验、结果归因等能力。欢迎来自学术界、工业界及社区的开发者,通过提交Issue与Pull Request参与项目共建,通过专业评测能力构建,共同推动大模型在金融领域可靠发展!

关注腾讯开源公众号

获取更多最新腾讯官方开源信息!

文章来源于腾讯云开发者社区,点击查看原文