LLM是死路一条?但Sutton可能也高估了RL作为终极通用智能框架的完备性
作者 | gwave@知乎 编辑 | 大模型之心Tech原文链接:https://www.zhihu.com/question/1959222181658628381/answer/1959242840891687621点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,也欢迎添加小助理微信AIDriver004做进一步咨询谢邀。我大体上 (>90%)同意 Rich Sutton 的观点 —— 单...
2025-10-17 11:00:00
开发LLM强化学习框架的心得
作者 | 谭三爷@知乎 转自 | 原文链接:https://zhuanlan.zhihu.com/p/1959094134032830632点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,欢迎添加小助理微信AIDriver004做进一步咨询在过去的几个月里Simon[1]和我一起开发了一套LLM后训练框架[2]。这对infra同学大概很trivial,但作为一...
2025-10-17 11:00:00
最新综述!从静态模型到终身进化:自进化AI Agent如何重塑未来AI系统?
当你在使用AI代码助手时,是否遇到过它无法适配新开发工具的窘境?当医疗AI面对突发公共卫生事件的新型症状数据时,是否因模型固化而难以快速响应?这些问题的核心症结在于:当前主流AI智能体多依赖人工配置,部署后便陷入“一劳永逸”的静态困境,无法随环境动态演进。而近日挂在arXiv上的综述论文《A Comprehensive Survey...
2025-10-16 11:30:00
国内20家公司大模型岗位面试经验汇总
作者 | 林夕@知乎 编辑 | 青稞AI原文链接:https://zhuanlan.zhihu.com/p/690801254面试情况投过的公司:淘天,字节,蚂蚁,商汤,美团,夸克,腾讯,minimax,零一万物,阿里控股,潞晨科技,阿里巴巴国际,网易实验室,Momenta。Offer:淘天,字节AML,商汤,蚂蚁,美团,夸克,腾讯混元,天翼云。以下是面经分享淘天【of...
2025-10-15 18:00:00
强化学习在LLM训练中的作用的思考:强调探索的RL才能让大模型真正泛化?
作者 | 纪牛牛@知乎 编辑 | 大模型之心Tech原文链接:https://zhuanlan.zhihu.com/p/1892911327959291306点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询在LLM火热之前,我一直从事强化学习相关的算法工作...
2025-10-15 11:30:00
RL凭什么比SFT遗忘的更少?
作者 | 大家好我是爱因 转自 | 原文链接:https://zhuanlan.zhihu.com/p/1948475982827750403点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询论文名称:RL’s Razor: Why Online Reinforcement Learning Fo...
2025-10-14 19:00:04
风雨飘摇中Meta发了篇重量级论文:Agent learning让AI智能体无师自通!
在人工智能的不断进化中,我们始终在探索机器学习与适应的边界。尽管强化学习已经取得了显著成果,但在许多环境中,缺乏可靠的奖励信号仍然是其面临的一大挑战。如果智能体能够通过自己的行为和结果进行学习,而不依赖于事先设定的奖励,是否能开辟新的可能性?处在风口浪尖的Meta,最近的一项研究提出了‘早期经验’这一创新...
2025-10-14 11:30:00
蚂蚁开源Ling-1T,又是一个1T参数?!
作者 | 刘聪NLP 编辑 | 大模型之心Tech原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询又来了一个的开源模型,Ling-1T,上个月的在做的时候,有人留言,说蚂蚁也开源了Ring-1T-preview模型,就...
2025-10-14 11:30:00
首个原生MoE扩散语言模型!人大&蚂蚁LLaDA-MoE:语言模型未必需要自回归?
在大语言模型(LLM) 领域,自回归(AR) 架构长期占据主导地位,但以掩码扩散模型(MDM) 为代表的扩散语言模型(DLLM) 凭借独特的迭代生成机制,正成为极具潜力的替代范式。然而,现有MDMs多依赖密集Transformer backbone,面临参数规模与推理效率难以平衡的困境——要提升性能往往需要堆砌参数,这无疑增加了部署成本。最...
2025-10-13 12:00:00
聊聊 AI Agent 到底有多大创新?
作者 | sunnyzhao 编辑 | 大模型之心Tech原文链接:https://www.zhihu.com/question/657739588/answer/1959347964674809996点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询目前各个大厂都相继推出了AI age...
2025-10-12 15:11:00
如何迈向超级人工智能之路?首篇智能体自进化综述!
当我们将视野从提升静态模型的规模,转向构建能够实时学习和适应的动态智能体时,一个全新的范式--自进化智能体(Self-evolving Agents)--正引领着人工智能领域的变革。然而,尽管学术界与工业界对自进化智能体的兴趣与日俱增,但整个领域仍缺乏一个系统性的梳理与顶层设计。多数研究将「演化」作为智能体整体框架的一个子集...
2025-10-11 12:00:00
4K超分打工仔!4KAgent:AI驱动的图像修复专家,横扫26项SOTA
试想一下:那些陈旧泛黄的照片,AI能够自动修复,复原其中的细节与色彩;而低分辨率的自拍照,也能瞬间变得清晰如初。无论你是摄影爱好者,还是从事医疗、科研工作的专业人士,4KAgent都能帮助你将任何图像从模糊转变为清晰,并提升至4K分辨率,带来前所未有的视觉效果。由德州A&M大学、斯坦福大学、加州理工大学、斯纳普公...
2025-10-10 08:00:00
最近高产的苹果!RL4HS:精准定位LLM幻觉,超越GPT-5及o3!
原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询苹果这几天真是进入了论文高产期,时不时就有新的研究发布出来。就在近日,苹果又发布了一篇引发学界与业界关注的重磅论文。这篇论文非常有意思...
2025-10-09 14:00:00
新国立最新成果!Agent记忆的第三种可能:生成式隐式记忆
作者 | Guibin Zhang 编辑 | 大模型之心Tech原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询由大型语言模型(LLM)驱动的智能体(Agent)的进化路径,其核心在于记忆机制的构建。现有范式主要分...
2025-10-08 17:37:26
NeurIPS'25!AutoPrune:即插即用的自适应大模型剪枝框架,轻松适配基座大模型
点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文先前大模型轻量化的token pruning论文主要集中在token的重要性度量metric上,但是实验发现其实还是最基础简单的几个算法更加通用,所以本文从另一个维度考虑这个问题:在设定的budget下,如何给网络每一层分配pruning的比例。现有方法通常是...
2025-10-07 14:12:16
新加坡国立!Agent记忆的第三种可能:生成式隐式记忆
作者 | Guibin Zhang 编辑 | 大模型之心Tech原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询由大型语言模型(LLM)驱动的智能体(Agent)的进化路径,其核心在于记忆机制的构建。现有范式主要分...
2025-10-07 14:12:16
腾讯混元图像3.0登顶了!全球AI生图新王诞生
作者 | 时令 编辑 | 大模型之心Tech原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询全球文生图大模型王座,易主了。就在刚刚,LMArena竞技场发布了最新的文生图榜单,第一名来自中国,属于腾讯...
2025-10-05 19:30:00
Qwen3-VL再开源30B-A3B,附实测!
作者 | 刘聪NLP 编辑 | 大模型之心Tech原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询十一,AI圈想放假是不可能的!千问,刚刚又开源了Qwen3-VL-30B-A3B模型,依旧两个版本Instruct和Thinking...
2025-10-04 12:00:00
智谱GLM-4.6开源,带你们看看怎么回事!
作者 | 刘聪NLP 编辑 | 大模型之心Tech原文链接:点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询DeepSeek-V3.2也上了,Claude 4.5也更新了,昨天晚上Sora2也出了,那么十一卷起来吧!体验了一下Sora2有点...
2025-10-03 12:00:00
盘点9月开源大模型,看完才能十一放假!
作者 | 刘聪NLP 编辑 | 大模型之心Tech点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询到了9月的最后一天,时间过的太快了,7、8两月都做了开源大模型盘点,咱们9月继续!整个9月,大模型开源社区依旧很卷...
2025-10-01 12:00:00
挑战scaling laws!上交提出LIMI:Agent未必需要大数据?
当业界还在为大模型训练堆数据、堆参数争论不休时,来自上海交通大学、商汤科技、香港理工大学等机构的团队抛出了一颗重磅炸弹——他们提出的LIMI(Less is More for Intelligent Agency) 方案,仅用78个精心筛选的训练样本,就在衡量AI自主能力的AgencyBench基准测试中斩获73.5% 的高分,不仅远超GLM-4.5(45.1%)、Kimi-K2...
2025-09-30 16:20:34
上海AI Lab最新开源!SciReasoner:跨学科科学数据推理的统一基座模型
面对多模态、跨尺度、强约束的科研问题,通用 LLM 正从“工具”升级为“合作者”。我们带来了一款为科学数据“读—思—设”而生的统一科学基座模型:以更完整的科学数据基座、更系统的训练日程与更可验证的推理机制,直击科学计算与设计痛点。它有三点最值得关注——覆盖更广:统一 I/O 与“任务分组奖励”让单一骨干跨化学/生命/材料等...
2025-09-29 08:00:00
撞墙的不是Scale Laws,是AGI。
作者 | Trisimo崔思莫 编辑 | 大模型之心Tech原文链接:https://zhuanlan.zhihu.com/p/1938174154500215724点击下方卡片,关注“大模型之心Tech”公众号本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询前言:Scaling Laws成立,不必然导向AGI,甚至会...
2025-09-28 09:29:41
这波大模型的浪潮不是选择题,是你我的必答题
这个时代,头部效应越来越明显,没分到赛道红利,又被时代越甩越远。周末柱哥和行业里面的几位技术专家好友线下小聚,大家毕业后投身不同的赛道:大模型、自动驾驶、具身智能。高薪的岗位基本都集中在这几个赛道,3-5年达到百万的package,有些毕业5年的交大校友走向P8的岗位,向200W的总包迈进。大家都在感慨这绝非是个人...
2025-09-27 15:09:36
迈向超级人工智能之路!大模型时序推理和Agentic系统的全面综述(UCLA最新)
当城市早高峰的车流数据实时涌入交通管控系统,当医院的心电图仪持续记录患者的心脏电活动,当股票交易所的行情面板每秒刷新数十次股价波动——这些伴随时间流逝不断产生的“时间序列数据”,早已成为现代社会运转的“数字脉搏”。从金融风控、医疗诊断到能源调度、交通管理,几乎所有关键领域的决策,都依赖于对这些时序数据的深...
2025-09-26 08:00:00
复旦OpenMOSS最新研究:大模型在预训练期间究竟如何进化?
语言模型通过预训练获得了广泛的能力,但预训练过程仍是一个黑箱。因此复旦的OpenMOSS团队通过一种名为跨编码器(crosscoders) 的稀疏字典学习方法,跟踪预训练期间的可线性解释的特征演化。研究发现,大多数特征会在某个特定阶段开始形成,而更复杂的模式则在训练后期出现。特征分析揭示了特征演化与下游性能之间的因果关...
2025-09-25 08:00:00
从现有主流 RL 库来聊聊RL Infra架构演进
作者 | Lancer 编辑 | 大模型之心Tech原文链接:https://zhuanlan.zhihu.com/p/1951435056154386911点击下方卡片,关注“大模型之心Tech”公众号在大模型的发展进程中,强化学习(RL)已从一项辅助技术,跃升为驱动模型能力跃迁的核心动力。当前,RL发展正经历一场关键范式转移:从单轮、静态任务(如独立的数学题求解等),...
2025-09-25 08:00:00
国内外自动驾驶编年史
导语1989年,卡内基·梅隆大学的 Dean Pomerleau 把三层神经网络塞进一辆军用悍马,并取名 ALVINN(Autonomous Land Vehicle In A Neural Network)。它虽然只在卡耐基·梅陇大学校园实现了自主行驶, 却点燃了全球工程师对“让机器自己驾驶”的集体想象。 36 年过去,自动驾驶技术正在重塑我们的出行方式,我们已能把更高的算...
2025-09-24 11:45:00
混元这是咋了?补作业的腾讯,正在狂追大模型领域...
作者 | 刘聪NLP 编辑 | 大模型之心Tech周末在家整理9月份开源模型,发现腾讯又开了不少模型,不知道咋了,腾讯混元最近的腹泻式开源,让我有点不认识了。PS:7月开源模型汇总、8月开源模型汇总有一说一,感觉最近混元的开源势头,紧追千问呀,开源模型的质量也是稳步提高。不过,实话实说,相比于其他一些厂来说,在23年和2...
2025-09-24 08:00:00
刚刚!DeepSeek V3.1终极版本发布!性能最大提升超36%,期待V4~
作者 | 鱼羊 编辑 | 量子位“极你太美”bug,果然在DeepSeek V3.1最新版本中被修复了。DeepSeek-V3.1刚刚更新至DeepSeek-V3.1-Terminus版本。新版本主要是在保持原有模型能力的基础上,针对此前用户反馈的问题进行改进,比如模型莫名其妙随机吐出“极”字。比较因崔斯汀的是,这个版本名中带“Terminus”——终点。好家伙,这是说下...
2025-09-23 14:11:12