【深度】多模态大模型“奇点”将至：一场算力、商业与中国的三重博弈（免费下载） - 科技区角

企业入驻

登录丨注册

【深度】多模态大模型“奇点”将至：一场算力、商业与中国的三重博弈（免费下载）

水木人工智能学堂
2025-07-17 12:19:58

前言
7 月 9 日，华泰证券以 38 页、近 3 万字的篇幅，发布《多模态大模型和应用奇点将至》。这份报告用一句话总结：
“原生多模态模型即将成为主流，中国厂商在视频生成赛道已率先跑出 1 亿美金 ARR”。
本文用 3000 字带你拆解这份报告的 10 个关键洞察，既保真，又保“爆”。

01｜为什么说“奇点”真的来了？

技术 + 商业双拐点

技术拐点：OpenAI 4o、Google Gemini 2.0 Flash 已用「原生多模态」架构，把文本/图像/音频/视频一次性端到端训练，延迟从5.4 秒降到 320 ms。
商业拐点：全球 26 个 ARR≥1 亿美金的 AI 产品里，46% 是多模态；中国 3 个破亿产品（美图秀秀、快手可灵、PictureThis）全是视频或图像。

一句话总结：当技术延迟低于人类反应时间，当商业收入跨过 1 亿美金生死线，奇点已至。

02｜“原生” vs “非原生”：一场 10 倍效率差

结论：原生架构训练成本更高，但推理效率提升 5~10 倍，是头部大厂的护城河。

03｜中国厂商的“暗线”：原生多模态 2025 H2 爆发

阿里 25 年 3 月开源 Qwen2.5-Omni，7B 参数，跑通 Thinker-Talker 原生架构。
字节 Seedance 1.0、MiniMax Hailuo 02 已用端到端 DiT + RLHF，10 秒 1080p 视频 40 秒出片。
预测：2025 年下半年，阿里、字节、腾讯将发布 100B 级原生 MLLM，直接对标 GPT-4o。

04｜视频生成：中国唯一能打全球的 AI 赛道

商业化细节：可灵 2025 Q1 月收入破 1 亿人民币，70% 来自 C 端订阅、30% 来自 API。

05｜全球 AI 收入地图：多模态 > 文本

10 亿美金俱乐部：OpenAI（100 亿）、Anthropic（30 亿）——全是文本聊天。
1~10 亿美金区间：Midjourney（6 亿）、Cursor（5 亿）、可灵（1 亿）——清一色多模态。

数据启示：文本聊天在中国难收费，多模态内容付费心智已养成。

06｜中国商业化的“三堵墙”与“一个突破口”

结论：视频、图像、数字人，是中国厂商绕过“三堵墙”的唯一捷径。

07｜算力需求测算：视频 Agent 或带来 100 倍 token 增量

文本：1k token/Query
1080p 视频：单帧 256×256 patch ≈ 1k token，10 秒 30fps ≈ 300k token
Agent 多轮迭代：一次任务可达 3M token

启示：ASIC、HBM、先进封装、边缘推理，四条链全面受益。

彩蛋｜一句话总结

当 GPT-4o 能 320ms 内“看懂+说+画”一张梗图，当可灵 10 个月赚到 1 亿美金，“多模态”不再是概念，而是 2025 年最硬的科技主线。

……

声明：本文内容及配图由入驻作者撰写或合作网站授权转载。文章观点仅代表作者本人，不代表科技区角网立场。仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。点击这里

点赞 0
分享
微信扫一扫
加入群聊
扫码加入群聊

作者相关

更多

水木人工智能学堂
水木人工智能学堂专注分享和普及AI知识，由清华大学、天津大学、深圳大学等AI团队创建，内容涵盖机器学习、深度学习、图像分析、语音及语义分析、AI求职及职业规划、行业报告等，汇集云知声、奥比中光、极视角等AI专家分享干货，欢迎关注。

与TA相关