资讯配图
在社交平台上,「AI 帮我选基金,结果赚了 8%」、「AI 自动炒股,秒杀巴菲特?」之类的帖子不时刷屏,炒股机器人、对话式理财助手有关的 Agent 也不断涌现。
AI 仿佛成了新时代的理财顾问。 但当你真的准备把自己的钱交给它时,一个更现实的问题摆在眼前:
它真的懂金融吗?
炒股、风控、合规,这些任务不是「回答问题」那么简单,而是要理解业务逻辑、完成任务链条,还不能出错。
7 月 28 日,在世界人工智能大会上,蚂蚁集团旗下的科技子公司蚂蚁数科给出了新的答案:正式发布金融推理大模型 Agentar-Fin-R1
这不仅仅是一个新模型,更是一个为银行、证券、保险等金融场景量身打造的「专业中枢」,主打「可靠、可控、可优化」 。
资讯配图
Agentar-Fin-R1 基于 Qwen3 研发,在 FinEval1.0、FinanceIQ 等权威金融大模型评测基准上超越 Deepseek-R1 等同尺寸开源通用大模型以及金融大模型。
在通用大模型已高度同质化的今天,为什么还要再造一个金融大模型?
蚂蚁的回答是:要解决真实金融任务,需要更强的金融专业性、推理能力以及安全合规能力
业内最系统、最真实的真实数据集
过去一年,随着大模型向各行各业渗透,金融成为少数对模型能力提出复杂要求的行业,既要专业知识深、也要逻辑推理强,同时还必须合规、安全、低幻觉。
「通用大模型和产业之间仍存在知识鸿沟,尤其在金融领域。」蚂蚁数科 CEO 赵闻飙在大会上表示,构建专业金融大模型,是推动金融智能体真正落地的必由之路。这不仅是科技挑战,更直接关系金融机构在未来的智能竞争中是否拥有核心抓手。
资讯配图
为了填补这一鸿沟,Agentar-Fin-R1 从「出生」开始就沉浸在金融世界里。
研发团队为其构建了一套业内极为全面和专业的金融数据语料。一个覆盖了银行、证券、保险、基金、信托等全场景的金融任务体系,包含 6 大类、66 个细分场景,构成了业内最系统、最真实的金融数据集。
更特别的是,训练中还引入「原则类合成数据」,让模型天然遵守金融监管红线,比如数据合规、身份校验、反洗钱等细节。
资讯配图
Agentar-Fin-R1 数据合成流程
基于这套框架,模型在千亿级的金融专业数据语料中进行训练,并通过可信数据合成技术及专家标注的金融长思维链(CoT)来打磨处理复杂任务的能力,真正做到「天生懂金融,出厂即专家」 。
具备「金融环境感知能力」的模型结构
但对于想要应用 AI 的金融机构来说,成本和效率是两大核心关切。
Agentar-Fin-R1 采用了创新的加权训练算法,这就像一个聪明的学习方法,能够动态地发现模型的薄弱环节并针对性地进行强化。
这样做的好处是,在后续的业务应用中,可以显著减少二次微调所需的数据和算力,有效降低了企业部署大模型的门槛和成本。
资讯配图
Agentar-Fin-R1 开发流程
更重要的是,它还是一个能够自主进化的大模型。金融市场瞬息万变,新的政策、产品层出不穷。
依靠动态更新的金融任务体系和加权训练机制,Agentar-Fin-R1 可以不断吸收最新的金融政策、监管条例和市场变化,发现自身盲点并补齐能力短板,确保其知识和能力始终跟上行业变化的脚步,在真实业务中不断变强。
32B 参数的模型超过了 671B
首先,Agentar-Fin-R1 在通用能力上就表现出较高水准。如 32B 版本在MATH上获得93.80分,在GPQA上获得68.18分,这些性能水平与具有相当参数量的通用推理模型相匹配或超越。
资讯配图
Agentar-Fin-R1 和 Qwen3 模型(8B 和 32B 版本)在金融基准测试和一般推理基准测试(MATH:MATH-500,GPQA:GPQA-diamond)上的性能比较。
而金融能力表现则更是突出,在两大金融基准测试 FinEval1.0 和 FinanceIQ 上,32B 模型全面超越 DeepSeek-R1、GPT-o1 等高参数通用模型,不仅准确率高、稳定性强,在合规与幻觉抑制能力上也明显更稳。
资讯配图
Agentar-Fin-R1-32B 在多个专业评估测试集上表现均是最佳
不仅如此,蚂蚁数科还牵头打造了一个专门为金融智能体评测的新基准,Finova,涵盖智能体能力、复杂推理能力和安全合规三大维度。这个评测由蚂蚁与工行、宁波银行、北金所、上海人工智能行业协会等共同制定,并已在 GitHub 上开源。
在 Finova 的评测中,Agentar-Fin-R1-32B 拿下了最高分,甚至超越了参数规模达 671B 的 DeepSeek-R1。这不仅说明专业模型在特定行业的巨大优势,也意味着未来金融模型的竞争,将转向「谁能把推理做得更专业」。
资讯配图
Finova 基准的全面概览图,由三个组成部分构成:代理能力、复杂推理以及安全与合规。
目前,Agentar-Fin-R1 推出了 32B 和 8B 两种参数版本,此外还有基于百灵大模型的 MOE 架构模型以及 14B 和 72B 的非推理版本,以满足不同机构和场景的部署需求。
从为上海某银行打造「对话即服务」的 AI 手机银行,推动老年客户满意度显著提升,月活用户同比增长 25%;到累计服务 100% 的国有和股份制银行,蚂蚁数科正加速将大模型技术落地到真实的金融场景中。
正如赵闻飙所说,未来,金融大模型的应用深度将成为金融机构竞争力的关键要素。而 Agentar-Fin-R1 的出现,无疑为这场竞赛增添了一个重量级的专业选手。
资讯配图
WAIC 2025 APPSO 在现场,欢迎加入社群一起畅聊 AI 产品,获取#AI有用功,解锁更多 AI 新知👇
资讯配图
资讯配图