很抱歉,当前没有启用javascript,网站无法正常访问。请开启以便继续访问。上海财经大学张立文:金融大模型的落地需要高质量的语料体系
上海财经大学张立文:金融大模型的落地需要高质量的语料体系
2025.02.23 21:54 财联社记者 黄心怡

《科创板日报》2月23日讯(记者 黄心怡)2025全球开发者先锋大会“共筑金融新生态:AI 大模型落地应用与实践“分论坛今日在上海徐汇西安艺术中心举行。

上海财经大学统计与数据科学学院和滴水湖高级金融学院联聘教授、博导,数据科学与统计研究院副院长张立文发表了题为“中国金融领域大模型评测体系的探索”的演讲。

大模型的浪潮对于金融行业而言也引起一场重大的变革,整个金融产业的业态或都将为之重塑。一时间,金融领域大模型也纷纷崛起。何种金融大模型能够真正赋能到金融机构乃至金融行业,它们应具备怎样的能力?

为此,上海财经大学提出了国内财经类院校首个金融大模型评测体系FinEval,从第三方视角公正客观评测,填补了中国金融领域评估基准的空白。同时,上海财经大学在金融大模型的其他领域,如金融大模型的部署微调,金融业务结合以及更垂类金融场景如ESG大模型都有持续深入的研究。

在上海市委金融办、市经信委的指导下,上海财经大学、上海人工智能实验室、上海库帕思科技有限公司共同发布《金融大模型应用评测报告(2024)》。

模型基础能力方面,参评模型平均得分为59.8分;排名前三的模型分别为:阿里巴巴的Qwen2.5-72B-Instruct(70.3分)Anthropic的Claude-3.5-Sonnet-20240620(68.9分)、阶跃星辰/财跃星辰的Step-2-16k(65.7分)

金融安全与价值对齐能力方面,参评模型平均得分为92.8 分;排名前三的模型分别为:阶跃星辰/财跃星辰的Step-2-16k(98.8 分)、智谱的 GLM-4-plus(96.3 分)、阿里巴巴的 Qwen2.5-72B-Instruct(95.9 分);得分最低的模型为字节跳动的 Doubao-pro-32k(86.9 分)。

金融风险控制能力方面,参评模型平均得分77.1分;排名前三的模型为Anthropic的Claude-3.5-Sonnet-20240620(84.1分)、阶跃星辰/财跃星辰的Step-2-16k(83.3分)、零一万物的 Yi-Lightning(79.6 分 )。

据悉,金融大模型评测报告将以每年1-2次频率公开发布,以助力金融科技在智能化、专业化、精细化方向上的进一步突破与发展持续拓展以金融业务为核心的评测框架。

在此框架下,上海财经大学重点推进了两项重点工作:一是推出国内首个金融多模态评估基准VisFinEval;二是开发面向复杂金融推理任务的大模型Fin-R1。

VisFinEval 作为评测体系的重要组成部分,聚焦金融多模态场景的深度评估需求。该基准基于财报、研报及财经网站中的八类通用金融图表(如K线图、财报、金融关系图谱等),构建了覆盖基础场景、复杂场景与极端挑战场景的三级评估标准,总题量达1.5万+。其创新性在于提出“图文一致性”检测机制,以量化多模态大模型的文本信息丢失问题,并延伸至极限推理能力测试(如多模态长指令评估、复杂计算等),为大模型在金融图表解读、多模态决策等场景的应用能力提供了系统性评估依据。Fin-R1 是上海财经大学基于DeepSeek技术路线开发的垂直领域大模型。

在前期实验中,Fin-R1-Zero已展现出初步的推理能力,然而,该版本存在中英文混杂输出及效果未达预期的局限性。为此,团队提出数据合成管道与两阶段训练方法:基于高质量金融数据和多模型蒸馏技术构建中英文混合数据集,并通过监督微调(SFT)增强长思维链能力,结合强化学习(RL)提升自发推理能力。训练初期,模型已能生成包含多步骤复杂逻辑的“Aha Moment”输出,初步验证技术可行性。

未来计划中,团队将聚焦自动化数据构建、模型训练与评测的一体化生态建设,并开源代码与数据集;同时,也会持续探索优化金融推理效果,逐步拓展至风险评估、投资策略生成等场景,推动技术向产业应用的深度转化。

对于大模型在金融业的落地思考,张立文认为,高质量的语料体系十分关键,大模型专业能力依赖于海量、高质量、高时效训练数据。金融领域的数据具有高度的专业性和复杂性,包括大量的专业术语、复杂的交易记录、政策法规文本等。强大的AI中台为整个组织提供标准化、模块化的AI服务,从而加快AI技术的应用和创新。

张立文称,虽然积极探索生成式大模型金融应用,但距离规模应用仍较遥远,需要持续增强模型的可控生成、专业性。“金融大模型的开发和应用需在保障数据安全、用户隐私和满足监管要求的同时,实现金融数据的高效处理和分析。”

1885特别声明:文章内容仅供参考,不构成投资建议。投资者据此操作风险自担。