广东湛江小镇走出的“做题家”,到用算法在量化投资领域掀起风浪的“幻方”掌门人,再到如今凭借DeepSeek模型,让硅谷侧目的AI创新者,梁文锋的每一次转身,都踩在了时代的鼓点上。而就在不久前,DeepSeek的一次“小更新”,再次证明了属于梁文锋的商业传奇,仍将继续,远未到终章。
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              
 - 文章信息 - 


本文作者:Mr.K,黄哲铿,知名数字商业顾问,「顿悟山丘」创始人,科技博主,曾担任海尔、中通快递、1药网技术高管,著有《技术人修炼之道》《技术管理之巅》。分享:个体成长、科技趋势、数字化转型、商业洞察。由「技术领导力」原创首发, 数字化企业经授权发布。


前段时间,新财富500创富榜发布DeepSeek创始人梁文锋晋级前10同是也是十大富豪中最年轻的一位。众所知周,他的财富密码正是那个在AI圈引发全球震动的名字DeepSeek。

从广东湛江小镇走出的“做题家”,到用算法在量化投资领域掀起风浪的“幻方”掌门人,再到如今凭借DeepSeek模型让硅谷侧目的AI创新者,梁文锋的每一次转身,都踩在了时代的鼓点上。而就在不久前,DeepSeek的一次“小更新”,再次证明了属于梁文锋的商业传奇,仍将继续,远未到终章。









DeepSeek小更新,模型大升级


5月底,DeepSeek团队在Hugging Face上悄然发布了名为“DeepSeek-R1-0528”的新版本。从命名上看,这似乎只是一次常规的“小版本升级”,但在AI圈内,却引发了全球开发者的热议和深度测评。在很多人看来,这次更新并非简单的参数微调或问题修复,而是一次深入核心能力、极具系统性的质变。通过梳理大量的实测案例,笔者简单归纳了三个维度的突破性升级

1、跃升至顶尖梯队的硬核编码与逻辑能力

这是本次更新中最直观、最可量化的亮点,就是在LiveCodeBench测评中,R1-0528版本以73.4分的成绩,一举冲到全球第四,其表现已经几乎与OpenAI的闭源顶流模型o3-high(75.4分)相当。这不仅仅是分数的逼近,更是对“开源模型在顶级编程能力上与闭源巨头存在代差”这一固有观念的有力冲击。

这种能力并非空洞的跑分,而是体现在了实际的开发任务中。当用户给出“用Three.js模拟太阳系,鼠标悬停在星球上时显示星球名称”这样一条笼统的指令时,R1-0528展现出的已非简单的“代码生成器”角色。

它在短短24秒内,迅速构建了一个完整的解决方案架构:从创建Three.js场景、实现行星公转动画,到添加鼠标悬停交互逻辑,再到设计美观的星空背景和光影效果……最终一个带动画、光影效果、且能实时交互的太阳系模型呈现在用户眼前。种从理解意图到架构设计,再到高质量代码实现的全链路能力,标志着其在工程实用性上迈上了一个新台阶。

2、堪比人类专家的深度多层推理能力

如果说编码能力是其“硬实力”的体现,那么深度推理能力则是其“软实力”的跃升,也是通往AGI的关键。这一点在处理开放性难题“如何让7米长的甘蔗通过2米高、1米宽的门”时,展现得淋漓尽致。

R1-0528回答过程中,进行了如下逻辑缜密的方案推演:
界定问题边界:它首先进行物理学分析,计算出门的对角线长度(约2.236米),从根本上否定了“直接通过”的可能性,展现了其严谨的科学素养。

系统性生成方案:它没有给出单一答案,而是围绕“改变物体”和“改变环境”两个核心思路,系统性地提出了“弯曲甘蔗”、“切割甘蔗”、“修改门”等一系列方案。

多维度评估利弊:它对每种方案都进行了现实层面的评估,如弯曲方案需要考虑甘蔗的柔韧性,切割方案会破坏其完整性,而修改门则可能需要额外的许可

元认知与情境感知:这是最令人惊叹的地方。模型在思考中会自我反思:“我认为我需要考虑脑筋急转弯的答案……但用户可能期待一个聪明答案。”这种“思考自己的思考过程”(元认知)并揣测用户真实意图的能力,让它超越了机械的问答,表现出一种接近人类的“同理心”和智慧。

这个长达151秒的思考过程,恰恰不是效率低下的表现,而是这一深度、穷尽式推理过程的外在体现,证明了其为追求高质量答案愿意付出更大的力成本意愿和“责任感”

3、高度实用化的成品级交付能力

无论是生成可直接运行的太阳系模型,还是根据论文附件设计出结构清晰、布局美观的介绍网页,R1-0528都展现出一个核心特质:它致力于交付“成品”,而非“半成品”。它不仅能理解指令的字面意思,更能洞察用户背后对质量、美观、易用性的隐性需求,并将这些需求融入到最终的交付物中。

这种从“能用”到“好用”的跨越,让DeepSeek不再仅仅是技术爱好者的“玩具”,而真正成为了能够嵌入工作流、提升生产力的实用工具。








梁文锋的主场时间又来了


梁文锋的创业史本身就是一部技术颠覆史。2015 年创立幻方量化时,他带领 7 名浙大校友用 AI 重构投资逻辑,2019 年自建的 “萤火一号” 超算比沪深交易所系统快 300 倍;2020年主力产品“九章幻方”年化收益达47.3%,远超行业均值;2021 年管理规模突破千亿,成为亚洲最大量化私募……

但真正让他跻身全球科技舞台中央的,是 2023 年押注 AGI 的战略抉择。当 OpenAI 用天价算力筑起技术壁垒时,梁文锋选择 “极致性价比 + 开源生态” 破局。2025年,DeepSeek R1 的发布直接将 AI 行业带入 “推理模型时代”,其开源策略和极致性价比更是震撼全球。

5月份这次“小更新”的亮眼成绩,也让行业对DeepSeek的未来版本——V4或R2充满了期待。目前来看,今年国内AI大概率还是梁文锋主场、DeepSeek控场。当然,能做到持续创新、持续突破,是与DeepSeek自身特殊基因分不开的。

1、技术路径:从 “弯道超车” 到 “换道超车”

DeepSeek 的崛起,本质上是技术路径的胜利。不同于其他大模型 “暴力堆料”的模式,梁文锋团队在架构优化上另辟蹊径:FP8 混合精度训练将算力成本降低 40%,MoE 架构减少 30% 的 Flops 开销,Context Caching 技术使推理效率提升 5 倍。这种 “小力出奇迹” 的方法论,在 2025 年 2 月的开源周中得到验证 ——FlashMLA、DeepEP 通信库等技术的开源,让开发者得以一窥 DeepSeek 的底层优化逻辑。

2、生态构建:从 “单点突破” 到 “系统碾压”

当多数大模型公司陷入商业化焦虑时,DeepSeek 选择了一条 “反共识” 路径:暂不融资、不做应用,专注于基础模型研发。这种战略定力,使其在生态构建上形成独特优势。腾讯、百度、移动、电信等巨头纷纷接入 DeepSeek,推动 AI 技术普惠化;其估值区间已达 10 亿至 1500 亿美元,中间值 20 亿至 300 亿美元,远超国内同行。

更值得关注的是,DeepSeek 正在构建 “模型 - 芯片 - 应用” 的闭环生态:与家芯片厂商合作优化训练效率,与三一重工、理想汽车等企业探索垂直场景落地,这种全产业链协同效应,将形成难以复制的竞争壁垒。

3、人才战略:从 “工程师红利” 到 “科学家红利”

DeepSeek 的人才突围,走的是一条扎根本土的务实路径。其核心团队几乎全由国内顶尖高校培养的人才构成,清华、北大、浙大等院校的优秀毕业生占比约 90%,没有海外名校背景的 “光环加持”,却凭借扎实的学术积累与工程能力,撑起了技术突破的大梁。

这支年轻的研发队伍,打破了 “工程师主导” 的行业惯性。公司通过 “学术直通工程” 机制,让北大计算语言学、清华 AI 实验室等高校力量深度参与研发,比如主导 R1 模型推理优化的核心成员,均为本土高校博士,在校期间就深耕大模型架构研究。

此外,为激活本土人才潜力,DeepSeek 提供超常规支持:研发人员可自由调用 5 万块 GPU 进行实验,核心成员能参与技术成果收益分成。这种 “资源倾斜 + 利益绑定” 的模式,让本土人才从 “执行者” 转向 “创造者”—— 正是这样的团队,用不到行业 1/5 的人力成本,实现了 R1 模型对标国际顶尖水平的突破。这种聚焦本土、深耕培育的策略,也为中国 AI 人才战略提供了简明有效的范本。








中国需要更多DeepSeek


除了DeepSeek 在全球掀起波澜外,国内大模型第一梯队的竞争也进入白热化。从阿里 Qwen 到字节豆包,从百度文心到腾讯混元,每一个玩家都在使出浑身解数,互相竞争又共同促进中国 AI 的发展

1. 技术先锋:从单点突破到全栈创新

🔷 阿里 Qwen3:2025 年 4 月发布的 Qwen3 系列,通过混合专家(MoE)架构实现 “高性能 + 低成本” 的双重突破。旗舰模型 Qwen3-235B-A22B 部署成本仅为 DeepSeek R1 的 1/3,支持 119 种语言和 128K 长上下文,在代码生成、数学推理等任务中对标国际顶尖水平。其开源策略(Apache 2.0 协议)已吸引超 1.5 万家企业接入,成为开发者生态的重要基石。

🔷 字节豆包 1.5:基于 MoE 架构的豆包 1.5 深度思考模型,在通用任务中人类评估表现优异,推理成本降低 50%。截至 2025 年 3 月底,其日均 12.7 万亿 tokens 调用量,在企业流程图表分析(准确率 92.3%)、航拍图可行性评估(误差率 < 3%)等场景实现规模化落地。

2. 产业赋能:从工具替代到价值创造

🔷 百度文心大模型:作为企业级应用标杆,截至2025 年 2 月,日均调用量已增长至 16.5 亿次,智能 PPT 市场份额超 80%。2025 年 1 月,百度已中标多个政府项目,在金融、能源等领域构建 “AI + 行业” 解决方案。其文心智能体平台通过知识图谱与流程自动化,帮助企业实现从数据到决策的闭环。

🔷 腾讯混元大模型:在多模态赛道持续领跑,混元 Turbo S 在 Chatbot Arena 全球排名前八,代码能力进入全球前十。2025 年 5 月发布的混元 T1-Vision 支持视觉深度推理,已应用于微信、腾讯会议等产品。其开源策略(0.5B-32B 全尺寸模型)推动行业技术共享,混元 3D 模型 Hugging Face 下载量突破 160 万次。

3. 创新突围:从跟随模仿到引领范式

🔷 智谱 AI:作为首家启动 IPO 的大模型公司,截至2025年7月,智谱已累计融资超125 亿元。其推出的GLM-4-9B 模型以 1.3% 的幻觉率全球领先;AutoGLM 沉思 Agent,更是通过 “研究 + 执行” 一体化设计,在金融风控、医疗诊断等场景实现精准决策。这也让OpenAI 在《Chinese Progress at the Front》报告中,将智谱列为重要竞争对手。

🔷 商汤日日新 V6:凭借多模态长思维链训练,日日新 V6 在数学推理、视频理解等核心指标上超越 OpenAI o1,支持 10 分钟视频全帧率解析推理成本仅为国际同类模型的 1/5。其与具身智能结合的文旅导游、智慧教育等解决方案,已在多个城市落地,成为 “AI + 实体经济” 的典型范式。

4. 生态重构:从单打独斗到协同共生

🔷 月之暗面:2025 年 6 月开源的 Kimi-VL-A3B-Thinking-2506 多模态模型,在数学推理(MathVision 得分 56.9)和视频理解(VideoMMMU 得分 65.2)上刷新开源纪录。其轻量化设计(激活参数 2.8B)与高效性能,为边缘计算和端侧应用提供新可能。

🔷 MiniMax:发布混合架构推理模型 M1 和视频生成模型 Hailuo 02,探索 “基座模型 + 垂直场景” 的商业化路径。同时,MiniMax也在积极探索商业化路径,计划通过资本运作推动业务发展。

这些国内头部AI企业既互相竞争又互相鞭策,其实是好事,中国AI确实需要更强的内部驱动和外部刺激,也需要出现更多的DeepSeek。

面对爆火后的DeepSeek,有人问DeepSeek红利,梁文锋还能吃多久?”回答这个问题,就要先搞清楚这个“红利”来自哪里。绝不是市场幸运的馈赠,而是对其坚持原创、敢于颠覆的奖励。只要这种创新的精神内核不灭,只要DeepSeek能持续拿出像R1-0528这样令人震撼的技术成果,那么它的红利期就远未结束。其他AI企业亦是如此。


▼ 点击下方阅读原文快速在线报名专业实训!