对话蚂蚁数科CTO王维:在复杂的金融领域,推理模型是数科必然的选择
- 2025-07-30 18:15:40

作者 | 常博硕
编辑 | 杨锦
在哲学家眼中,人类的思想边界总是受限于人类的语言,路德维希·维特根斯坦曾说:“思想的边界就是语言的边界。”在人工智能时代,大模型正逐步演化为AI世界的大脑,它的边界又源自哪里?
2025 世界人工智能大会(WAIC)期间,蚂蚁数科发布了金融推理大模型Agentar-Fin-R1。发布会后,蚂蚁数科CTO王维对搜狐科技等媒体说:“模型是什么样子,取决于它看过什么、学过什么。”
语言是思想的镜子,也是思想的围墙。对于大模型来说,语料,决定了它的认知边界与能力边界。
相比于通用模型,金融大模型对于训练数据有着非常严苛的要求。不但涉及法规、风险和实时数据,而且金融决策通常经不起严重错误,由于总是关乎重大利益,金融场景中出错的代价也相当高。因此,这就要求模型每一个推理步骤都必须透明可审计,同时也必须具备快速学习和适应的能力。
就在模型正式发布前,蚂蚁数科公布了他们的训练秘籍——Deep Finance 100K,这是一份开源的高质量思维链精标数据集,也可以理解成Agentar-Fin-R1的金融教科书。
王维和蚂蚁数科AI技术负责人章鹏共同认为,称得上一份高质量的金融思维链数据必须包含以下几点:首先必须来源于真实的业务问题;第二,问题几乎能覆盖所有的金融场景,保证数据的多样性;第三,数据本身足够精炼,金融专家知识作为支撑且符合金融规范和专业的金融推理框架,同时还能够保证CoT推理的准确性;最后,人也很重要,我们有非常厉害的金融领域的专家来做标注。
王维表示:“本质上,大语言模型就是对过去几十年互联网上的语料进行压缩,形成一个函数,用来预测下一个Token出现的概率。当我们的语言中还没有充分渗透各类专家经验,或者那些关键的数字和知识仍被封闭地保存在某些人脑中、尚未数字化时,可以说,模型从公开数据中所学到的知识天然就不够专业。”
同时,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构,推出大模型金融应用评测基准Finova。
从能力上来看,Agentar-Fin-R1基于Qwen3开发,在包括Fineva、FinEval、FinanceIQ和蚂蚁数科全新提出的Finova等金融评测基准上均达到业界最优水平,除了超越业界开源金融大模型外,对比GPT-o1、DeepSeek-R1等超大尺寸通用推理模型在金融推理上的效果也有显著提升。

从训练上看,模型采用了更高效的加权训练算法,通过动态分配训练资源,极大提高了大模型对于复杂金融任务的性能与学习效率。除此之外模型采用了两阶段训练策略,在第一阶段将知识全面注入,先让模型完全理解金融知识,然后进行第二阶段,选择最难和最弱的题目用强化学习结合目标微调的方式来强化模型复杂推理能力。
正如王维表示:“做金融大模型需要人才、算力,场景和具体的问题驱动确保迭代的速度足够快,这几个方面都有一些,是蚂蚁做金融大模型的优势所在。”
以下为此次对话精编:
媒体:我们提到了两个开源的数据集,比较好奇我们和银行等金融机构是怎么合作的?各自会负责哪些部分?
王维:目前都是来自于数科自己的实践为主,我们本身也有来自于蚂蚁集团的大模型团队支持,包括合成的数据、真实场景沉淀的数据,其实也都是融入到了数据集中。
(蚂蚁数科AI技术负责人)章鹏:首先我们开源第一个是评测集Finova,市面上有一些金融大模型的评测集,但我们发现现有的金融评测集它在智能体落地场景中的评测,比如说起草、生成、策划以及金融复杂思维推理以及合规在这一块依然不够强。我们发布的DeepFinance金融复杂思维链数据,同时有在数据合成、清洗上的技术创新,在算法之外,由我们聘请金融方面专家进行标注和校验。
媒体:蚂蚁集团中的科技板块其实有好几家,您刚才提到了有一些也会协同,可以举几个例子吗?
王维:数科作为蚂蚁集团科技商业化板块的“排头兵”,是蚂蚁集团里最应该把这个事情做好的板块,智能体相关的技术,我们应该是第一梯队的,在产业AI某个垂直领域数科做得还是比较深的。蚂蚁本身有一个AGI大的研究团队,我可以在那里得到强化学习、迁移学习等研究性最新的成果和思考。同时蚂蚁本身有基模团队,我们今天要做垂直的模型,所以他们可以给我们底层工程能力、算力和数据加工层面上的经验,我们也会联合发布一些论文。在场景侧,我们也跟财富保险蚂蚁集团板块的架构师和负责人做很多的互动,这样我们就可以更好了解今天产业难题在哪里,我们应该怎么做。
媒体:想问一下蚂蚁选择千问训练的原因,下一个阶段是否依然基于千问的模型做训练?
王维:本身千问现在是成熟度比较好的基础模型,但我们知道我们今天做产业AI,其实我们不应该局限于某个基础模型,所以我们后面也会出蚂蚁百灵模型板块,甚至我们客户需要用DeepSeek板块或者其他某个开源模型我们也会考虑。
媒体:今年市场上是否出现了哪些新的变化,使得金融的推理模型成为必须?
王维:金融推理模型越来越被需要有很重要的原因是,金融类复杂场景的业务需要模型推理的链条和推理的逻辑要很清晰,才能真正解决问题。一个好的垂直大模型,特别是推理能力很强的推理大模型,才能成为一个可控、可靠、可优化的智能中枢。不同的机构有不同的需求,需要通过推理模型把行内的偏好、特定的知识学习起来。其次我们今天出推理大模型,是因为我们踩过很多的坑,要把这些坑避开,让模型效果变得更好,这是我们必然的选择。
媒体:金融行业的AI应用存在着高投入、低渗透的特性,能否举几个例子,告诉我们市场有哪些直观的表现?
(蚂蚁数科金融AI产品总经理)曹刚:我们的应用需要非常理解客户的场景到底有什么样的问题,比如银行里有很多零售业务包含十几个场景,存款、贷款、信用卡等,每个场景都有不同的问题以及细的分类,每个场景都需要一个一个攻克,实际上它对专业领域的要求和数据非常高,并不是每个行业都具备这样的条件,所以应用层面要有更深的深度。整个大模型本身还是成本比较高的东西,所以怎么平衡好技术投入成本以及商业产生的价值,是非常关键的问题。这个过程中通用的东西,蚂蚁数科会逐步覆盖,但我们更多是在金融业务场景深化帮助我们的客户解决业务场景的难题,所以这个一定是大的方向。
媒体:对金融推理大模型所需要的金融COT数据,相比非推理模型在采集和合成上面有什么区别?我们反复提到我们有高质量的BenchMark和训练数据集,我们对于高质量定义是什么?
章鹏:第一,要来自真实的问题,因为过往很多的数据集,它来自不一定是真实的线上业务问题,虽然我们会对真实线上问题做一定的改写,但是来源本身要真实。第二,我们要保证问题的多样性,这种多样性可以从几个方面来说:首先我们需要一个多元化的金融体系标签,它包含了不同的场景,也就是我们做的哪些业务以及我们在业务里做什么,当你用这样一个框架拉下来之后,就能覆盖金融所有场景。二是问法的多样性,需要一定的算法来支撑,具体细节在我们论文里有披露。第三,COT数据本身高质量,如果你仔细去看DeepSeek的推理你会发现它跟金融专家推理相比非常啰嗦、繁琐,不够精练,而且它的推理不一定能够得到准确的结论,所以你要做很多的算法优化。比如说你需要对它整个推理的思维链做精简,让它更加简炼。需要注入专家的知识,你还要校验COT推理的正确性。最后,我们高质量的来源是人,因为我们要让大模型去学习人类的金融知识,这个金融体系是人类创造的,所以我们需要非常好的专家做标注。
媒体:针对金融一些场景,比如说质检,通用大模型是多少准确率?如果是用我们的金融推理大模型大概能提升百分之多少的准确率呢?
王维:如果不能确定很具象的场景,数字很难表达。我们早上发布的推理模型也做了金融的测试,我在不同尺度模型上,我们的推理模型能够有更好在金融任务中的表现,它的原因不难理解,就是我们有高质量的训练集,我们通过高质量的评测体系去做反馈,我们又做了评测跟训练的一体化联动。
媒体:了解到我们已经与100%国股银行和超60%的地方性银行都有合作,不同类型的银行对于垂类大模型的应用有没有场景倾向上的差异或者共性。现在你们看来金融垂类大模型的迭代主要是以技术驱动还是需求驱动?对于银行机构来说他们在引入大模型时,你们期待他们需要具备怎样的潜在条件?
王维:如果非要说答案,我会选择今天还是技术驱动为主。对于银行客户来说,我们没有资格选择客户,客户就是上帝。
曹刚:从我接触的客户来看,国股行是相对更保守一些,他们在需求层面会对基础性的应用多一些,比如说基建搭建和上层通用服务的需求,反而城商行特别是股份行,他们有更强的意愿做更大规模的AI战略级的改变,这是我观察到的现象。
运营编辑|李阳



- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊