资讯配图

作为2025世界人工智能大会(WAIC)的重要组成部分,青年菁英交流会之"下一代大模型架构演进"于7月27日下午在上海世博中心607会议室隆重举行。本次活动由上海人工智能行业协会主办,是WAIC青年菁英交流会系列活动的核心环节之一,旨在汇聚人工智能领域的青年学者,深入探讨大模型架构演进的前沿理论与技术突破。活动遵循"学术引领、前沿思辨、范式创新"理念,聚焦大模型发展的理论根基与未来方向,构建兼具理论深度与实践价值的学术对话平台。

 

会议由上海交通大学严峻池教授主持,西安电子科技大学徐偲副教授、上海交通大学林洲汉副教授、复旦大学熊昊助理教授作为特邀嘉宾进行了专题分享,并与现场观众进行了深度交流。


模型不确定性量化

从传统模型到大模型的跨越


从贝叶斯统计到深度学习,不确定性量化始终是机器学习领域的核心挑战。传统机器学习模型通过概率分布、置信区间等方法量化预测不确定性,但在大模型时代,亟需量化大模型输出的置信度,避免过度自信的回答产生严重后果。

 

西安电子科技大学徐偲副教授深入探讨了这一转变的核心矛盾:如何在保持大模型性能的同时,准确评估其预测的置信度?随着大模型在自动驾驶、医疗诊断等零容错率场景的应用,不确定性量化已从学术问题转变为安全底线。徐教授分享了其在可信多模态深度学习方面的最新研究成果,探讨如何通过证据理论、动态证据融合等技术,在大模型规模下实现可靠的不确定性估计。

 

“如何让智能系统具备一定的自知能力”这句看似简单的话语,道出了徐教授对可信人工智能的终极追求。在人工智能日益渗透人类生活的今天,"自知能力"承载着比技术指标更为深层的价值内涵——它关乎智能系统的自我认知、决策透明,以及人机协作的和谐共生。

 

徐教授的这句金句,实际上是对其开创性研究成果《Reliable Conflictive Multi-view Learning》的哲学升华。当传统多视图学习假设不同视图严格对齐时,现实世界中的冲突数据往往被简单消除或替换。徐教授敏锐地意识到,真正的"自知能力"不是回避冲突,而是直面冲突并给出可靠的决策结果和不确定性度量。

 

在医疗诊断场景中,当MRI模态与指标模态出现冲突时,传统方法可能直接删除冲突数据,但徐教授提出的证据冲突多视图学习(ECML)方法却能够为冲突数据提供决策结果和附加可靠性。这种方法通过狄利克雷分布建模视图特定的不确定性,通过冲突意见聚合策略精确模拟多视图的公共和特定可靠性关系,让智能系统具备了"自知能力"——不仅能够给出预测结果,更能量化表达自己的置信程度。

 

徐教授深入研究了不确定性产生的三个阶段:在数据标注阶段,多模态数据本身存在内在随机性,收集与表示过程中可能出现信息丢失;在模型的构建与训练阶段,模型本身存在缺陷,对某些输入或情况缺乏充分的知识与信息;在模型应用阶段,训练数据分布与实际应用分布之间存在差异。这种系统性的不确定性分析为构建真正可信的人工智能系统提供了理论基础。

 

徐教授的研究涵盖了可信多模态深度学习的多个关键方面:从《Trusted Multi-View Classification with Dynamic Evidential Fusion》到《Uncertainty-aware Multi-view Deep Learning for Internet of Things Applications》,再到《Dynamic Evidence Decoupling for Trusted Multi-view Learning》,他系统地解决了多模态学习中模态区分能力不同、证据融合复杂、冲突数据处理等核心问题。这些工作为构建真正可信的人工智能系统提供了理论基础和技术路径,让AI从"黑盒"走向"透明盒",从"盲目自信"走向"理性谦逊"。


自注意力机制及其衍生方法

突破计算瓶颈的探索


自注意力机制自2017年提出以来,已成为大模型成功的关键技术。然而,其O(n²)的计算复杂度成为制约模型规模扩展的瓶颈。当序列长度达到数万甚至数十万时,传统注意力机制的内存需求呈平方级增长,这直接限制了模型处理长文本的能力。

 

上海交通大学林洲汉副教授聚焦这一技术难题:如何在保持注意力机制核心优势的同时,显著降低计算复杂度?林教授享其在关系感知的自注意力机制、用于图的核化自注意力机制、用于检索重排的自注意力机制等方面的突破性进展。这些方法从不同角度扩展了自注意力机制的应用边界,为处理复杂结构化数据、图数据、检索任务等应用场景开辟新路径。

 

如何让大模型既懂图的结构,又保持生成能力?道出了林教授对AI技术融合创新的深刻洞察。在自然语言到SQL转换等关键任务中,传统方法面临着根本性挑战:基于图神经网络的方法对数据库结构化信息建模好但代码生成能力弱,基于大语言模型微调的方法代码生成能力强但丢失数据库结构信息。林教授敏锐地意识到,真正的突破不是选择其中一条路径,而是通过RASAT技术实现"怎样把两条路线的好处都利用上?"的目标。林教授的这句金句,实际上是对其开创性研究成果RASAT(Relation-Aware Self-Attention)的哲学升华。从在Mila实验室师从Yoshua Bengio教授,到如今在上海交通大学John Hopcroft中心担任副教授,林教授始终保持着对前沿技术的敏锐嗅觉。他长期从事机器学习与自然语言处理领域的研究,专注于自监督学习、大语言模型预训练方法、模型记忆能力等方面,目前累计发表论文70余篇,Google Scholar引用量过万。

 

林教授提出的解决方案,体现了其深厚的理论基础和工程实践能力。通过关系感知的自注意力机制(RASAT),他解决了自然语言到SQL转换中数据库结构信息丢失的问题,通过向自注意力机制的key和value中引入关系向量,涵盖schema encoding、schema linking、question dependency structure、coreference between questions、database content mentions五大类关系,显著提升了SQL代码与实际数据库的贴合度。

 

通过Cluster-wise Graph Transformer,他提出了Node-to-Cluster注意力机制,解决了图分类任务中传统Graph Coarsening过程导致的节点信息丢失和聚类表征同质化问题。通过保留原始节点参与运算而保护节点信息,并通过核化方法保持线性复杂度,实现了更高效的图结构处理。

 

通过Gumbel Reranking,他实现了可微的检索重排过程,解决了RAG系统中检索器和LLM分立导致中间步骤不可微的问题。通过将reranking过程看做hard attention(0/1分类),使用Gumbel Softmax使不可微操作变得可微,实现了端到端优化reranker,在BGE、RankT5等标准设定下显著超越传统方法。

 

这种"关系向量"的创新理念,实际上是对AI技术融合本质的深刻践行。它超越了简单的技术优化,触及了智能系统设计的根本问题——如何在保持大模型强大生成能力的同时,增强其对结构化信息的理解?如何通过架构创新实现不同技术范式的优势互补?林教授的研究为构建更高效、更可扩展的大模型架构提供了理论基础和技术路径,让AI从"单一能力"走向"融合智能",从"技术割裂"走向"优势互补"。


物理启发的大模型

从经验主义到理论驱动的范式转换


无人机从地点A到地点B的最优控制问题,涉及控制量、飞行时间、耗电量等多个维度的复杂约束,如何做到最优控制?

 

当前大模型的发展主要依赖经验主义和工程优化,但随着技术发展进入深水区,这种方法的边际效益急剧下降。与此同时,物理学中的对称性原理、守恒定律、变分原理等深刻洞察,为构建更高效、更可解释的智能系统提供了理论指导。

 

复旦大学熊昊助理教授探讨了这一前沿方向:如何将物理学原理有效融入大模型架构设计?物理启发的方法有望解决当前大模型在泛化能力、计算效率、可解释性等方面的根本挑战。熊教授分享了其在智能科学计算方面的创新成果,展示如何通过物理先验知识指导模型设计,实现从数据驱动到理论驱动的范式转换。


熊教授的这个设问,道出了他对物理启发AI方法本质的深刻洞察。在传统最优控制理论面临根本性挑战的今天,物理启发的AI方法为求解复杂动态系统提供了全新的思路。当传统最优控制方法面临三个根本性挑战时——动力系统的不确定性、迭代式求解复杂度高、求解器只能解决一类问题且随环境变化会出现覆盖不到的问题,熊教授敏锐地意识到,真正的突破不是回避这些挑战,而是直面它们并给出基于物理启发的AI求解方案。

 

"AI for Science"方面,熊教授专注于高维PDE演化算子学习和最优控制问题算子学习。他提出的SINGER方法通过神经网络代理解满足三个关键性质,在热方程和HJB方程等8组5-20维方程仿真数据上实现了精度提升约1个数量级的突破性成果。

 

在最优控制问题算子学习方面,熊教授提出了基于自适应谱方法+神经算子的AI求解器。该方法通过NASM架构,在7组仿真数据和1组真实数据上实现了求解速度相对传统算法加快1000倍的突破性进展,同时保持了优异的泛化性能。

 

"Science for AI"方面,熊教授探索了分子动理学启发的网络架构、优化器,以及量子启发的高阶算子等前沿方向。这些物理启发的方法不仅能够提升模型的泛化能力和计算效率,更重要的是为AI系统提供了可解释的理论基础。

 

在分子动理学启发的网络架构方面,熊教授提出了KITINet方法。与传统神经网络中简单的加法操作不同,KITINet引入了基于碰撞理论的交互机制,通过碰撞机制产生新的速度和位置,这种基于PDE仿真方法的网络架构显著提升了模型的表达能力。

 

在分子动理学启发的优化器方面,熊教授提出了KO优化器。该优化器通过"碰撞(熵增)抵消凝聚"的机制,有效防止了模型训练过程中的模式崩塌问题。在ImageNet-1K数据集上,ResNet50+KO相比传统优化器在Top-1准确率上实现了显著提升。

 

在量子启发的高阶算子方面,熊教授提出了HOLinear高阶线性映射算子。该方法通过构建高阶嵌入表征,将传统的1阶表示扩展为包含0阶、1阶、2阶直至K阶的完整表示体系。在LLaMA2 7B模型的微调实验中,C2Q-SFT方法在多个下游任务上均实现了相对于标准SFT的正向改进,特别是在数学推理任务GSM8k上实现了+5.61%的显著提升。

 

这种从具体问题到通用求解器的发展路径,实际上是对AI技术演进规律的深刻洞察。正如熊教授所探索的无人机最优控制问题,通过将具体的工程问题抽象为数学优化问题,再通过物理启发的AI方法求解,可以构建出在特定任务上表现卓越的"特长生"系统。

 

这种物理启发的研究范式,实际上是对科学交叉融合的深刻践行。它超越了简单的技术优化,触及了智能计算的本质问题——如何从具体的工程问题中抽象出数学本质?如何构建能够适应环境变化的智能求解器?熊教授的研究为构建更高效、更可持续的智能系统提供了理论基础和技术路径,让AI从"经验主义"走向"理论驱动",从"暴力堆参"走向"精妙设计"。


圆桌思辨

大模型架构演进的未来路径


在三个专题分享后,严峻池教授主持了圆桌思辨环节,四位教授与现场青年菁英进行了深度交流。严峻池教授抛砖引玉,围绕大模型架构演进的核心议题提出了系列问题,带动与会嘉宾积极讨论。

 

与会专家首先深入探讨了强化学习思维链的改进与泛化能力提升问题。专家们认为强化学习本身在泛化性方面比注意力机制更具优势,通过模型自我认知、自我反省机制,结合检索知识对问题进行补充,能够有效提升模型性能。针对如何克服模型高幻觉、低泛化的问题,专家们分享了各自的实践经验,检索器在针对不同模型时的重要性也得到了充分讨论。

 

针对SFT存在的两重约束——非真实环境交互和标注数据限制,专家们分享了通过交互形式学习提高模型准确性的实践经验。基于思维链的冷启动学习能够实现更好的泛化性,利用较少的标注数据改进强化学习算法成为讨论焦点。与会专家一致认为,交互式学习与数据效率的平衡是当前大模型发展面临的重要挑战。

 

在多模态融合的架构挑战方面,与会专家探讨了视觉数据和人造眼技术对改进多模态能力的贡献。专家们强调训练方法的改进比技术本身更为重要,多模态在训练困难、对齐困难等方面的挑战需要系统性解决方案。尽管应用前景广阔,但多模态技术面临的根本性挑战不容忽视,需要从架构设计层面进行根本性突破。

 

专家们还分析了多模态在本地端侧云测异构环境中的高效部署问题。多系统协同是大模型落地的现实情况,涉及分布式计算、西电东算等国家战略。与会专家讨论了异构大模型的未来发展方向,以及如何设计适应异构环境的优化算法,包括手机NPU等新型架构的应用前景。

 

随着国产AI芯片的快速发展,与会专家讨论了其在大型模型训练中的应用潜力。专家们分析了国产芯片在算力、能效比、生态适配等方面面临的挑战和机遇,探讨了如何通过架构优化和算法适配,充分发挥国产芯片在大模型训练中的优势。国产芯片生态的完善对大模型技术自主可控的重要意义得到了充分认可。

 

在可解释性方面,专家们深入讨论了如何通过架构设计提升模型的推理透明度和决策可追溯性。徐教授从不确定性量化的角度指出,可解释性不仅需要模型能够解释其决策过程,更需要量化表达决策的置信度。物理启发的方法为构建可解释的AI系统提供了新的思路,与会专家探讨了如何平衡模型性能与可解释性之间的关系,评估了可解释性技术在实际应用中的价值和局限性。


后记


当前,大模型技术正处于从"工程化应用""理论根基重构"的关键拐点。传统基于经验的调参方法已接近极限,理论突破成为推动技术发展的核心动力。在这一历史性时刻,青年专家的创新思维和理论突破将决定AI技术的未来走向。

 

青年菁英交流会作为WAIC的重要组成部分,由上海人工智能行业协会承办,致力于构建"人才-成果-产业"的良性循环生态。通过学术资源整合、国际合作对接、成果转化支持等多维举措,为青年专家提供持续发展的学术平台。优秀成果将编入《青年菁英交流会论文精粹集》,并有机会通过大会与Nature正刊及人工智能子刊等国际顶级期刊建立的合作通道快速发表。

 

从不确定性量化到注意力机制优化,从物理启发方法到跨学科融合,这场汇聚青年智慧的学术盛宴,成为了观察大模型架构演进方向的重要窗口。7月27日下午,与会嘉宾共同见证了这场聚焦未来的思辨之约,见证了大模型技术从理论根基到架构创新的历史性跨越。青年专家们用他们的创新思维和理论突破,正在为AI技术的未来发展开辟新的道路,引领着人工智能技术迈向更加辉煌的新纪元。

 



资讯配图
资讯配图
资讯配图
资讯配图
资讯配图

资讯配图

点击阅读原文查看WAIC 2025精彩!