前言
7 月 9 日,华泰证券以 38 页、近 3 万字的篇幅,发布《多模态大模型和应用奇点将至》。这份报告用一句话总结:
“原生多模态模型即将成为主流,中国厂商在视频生成赛道已率先跑出 1 亿美金 ARR”。
本文用 3000 字带你拆解这份报告的 10 个关键洞察,既保真,又保“爆”。


01|为什么说“奇点”真的来了?

技术 + 商业双拐点

  • 技术拐点:OpenAI 4o、Google Gemini 2.0 Flash 已用「原生多模态」架构,把文本/图像/音频/视频一次性端到端训练,延迟从5.4 秒降到 320 ms。

  • 商业拐点:全球 26 个 ARR≥1 亿美金的 AI 产品里,46% 是多模态;中国 3 个破亿产品(美图秀秀、快手可灵、PictureThis)全是视频或图像。

一句话总结:当技术延迟低于人类反应时间,当商业收入跨过 1 亿美金生死线,奇点已至


02|“原生” vs “非原生”:一场 10 倍效率差

结论:原生架构训练成本更高,但推理效率提升 5~10 倍,是头部大厂的护城河


03|中国厂商的“暗线”:原生多模态 2025 H2 爆发

  • 阿里 25 年 3 月开源 Qwen2.5-Omni,7B 参数,跑通 Thinker-Talker 原生架构。

  • 字节 Seedance 1.0、MiniMax Hailuo 02 已用端到端 DiT + RLHF,10 秒 1080p 视频 40 秒出片

  • 预测:2025 年下半年,阿里、字节、腾讯将发布 100B 级原生 MLLM,直接对标 GPT-4o。


04|视频生成:中国唯一能打全球的 AI 赛道

商业化细节:可灵 2025 Q1 月收入破 1 亿人民币,70% 来自 C 端订阅、30% 来自 API

05|全球 AI 收入地图:多模态 > 文本

  • 10 亿美金俱乐部:OpenAI(100 亿)、Anthropic(30 亿)——全是文本聊天。

  • 1~10 亿美金区间:Midjourney(6 亿)、Cursor(5 亿)、可灵(1 亿)——清一色多模态

数据启示文本聊天在中国难收费,多模态内容付费心智已养成


06|中国商业化的“三堵墙”与“一个突破口”

结论:视频、图像、数字人,是中国厂商绕过“三堵墙”的唯一捷径


07|算力需求测算:视频 Agent 或带来 100 倍 token 增量

  • 文本:1k token/Query

  • 1080p 视频:单帧 256×256 patch ≈ 1k token,10 秒 30fps ≈ 300k token

  • Agent 多轮迭代:一次任务可达 3M token

启示ASIC、HBM、先进封装、边缘推理,四条链全面受益


    彩蛋|一句话总结

    当 GPT-4o 能 320ms 内“看懂+说+画”一张梗图,当可灵 10 个月赚到 1 亿美金,“多模态”不再是概念,而是 2025 年最硬的科技主线

    ……