「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
- 2025-07-20 09:30:00
机器之心PRO · 会员通讯 Week 29
--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---
1. 「CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
Meta 的挖人策略有何深意?「CV 铁三角」的五项工作如何印证多模态 AI 的关键进展?多模态 AI 发展还有哪些里程碑?实现全模态的 Omni-LLM 还有哪些坎要过?...
2. Multi-Agent 协作兴起,RAG 注定只是过渡方案?
检索增强生成(RAG)与持续状态 memory 机制之间有哪些异同,如何实现互补?多层级 memory 架构如何有效支持短期与长期上下文的动态迁移与压缩?多模态和多智能体环境下,memory 系统如何避免语义漂移与上下文「污染」?面对海量 memory 数据,如何设计高效的多级语义检索与上下文优先级管理机制?...
3. Perplexity 如何用 AI 原生浏览器对抗谷歌的「流量受限型 AI」?
Perplexity 近期为何热度飙升?为什么谷歌只能推出流量受限的 AI 产品?Aravind Srinivas 如何设计公司的产品「护城河」?Perplexity将如何用有限的资源突破巨头「围剿」?...

要事解读① CV 铁三角」落定Meta,视觉 AI 如何向多模态演进?
引言:Meta 近期频繁高薪挖人的动作引起了大量热议。在一众被聘用 AI 研究员中,来自 OpenAI 苏黎世办公室的「CV 铁三角」因从业经历和研究方向的特点引起了广泛关注。在业界梳理下,他们的研究成果和视觉 AI 往多模态演进的关键路径高度贴合,为未来的「全模态模型」打下了基础。
「CV 铁三角」的成果≈现代多模态 AI 基础框架?
1、从 OpenAI 苏黎世办公室被挖走的 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai 此前均在 GoogleBrain(后并入 DeepMind)共事,被称为谷歌的「CV 铁三角」,而后在 2024 年加入 OpenAI 并创办苏黎世办公室。
2、三人在过往十年几乎始终作为一个团队协作,包含最为人熟知的「ViT」在内,其研究项目具有高度连续性,研究轨迹几乎等同于视觉 AI 的发展路径,因为有业界尝试从 Meta 招聘三人的动作分析背后的战略意图。[1-1]
① 在 AI 社区中,有文章梳理了「CV 铁三角」的近年来主导的五项代表性工作,包含 S4L,到 BiT 、ViT、MLP-Mixer,以及 PaLI 系列,涵盖从图像预训练到多模态融合的发展路径。
② 按照成果发布数据顺序,2019 年 5 月提出的「S4L」针对图像分类器的半监督学习问题,结合自监督和半监督学习,通过辅助任务让模型在无标签样本上「制造」可学习目标,减少对人工标注的依赖,从而提升整体训练效果。
③ 2019 年 12 月提出的「BiT」视觉表方案验证了「大规模有监督预训练 → 下游任务微调」经典迁移学习范式在视觉领域的可行性。这也是后续包含 CLIP 和 SAM 在内的视觉基础模型所采用的基础范式。
④ 2020 年 10 月提出的「ViT」尝试将纯 Transformer 应用于视觉任务,将图像转换为向量,使其能够与文本等其他模态在共享的特征空间中进行比较和关联 。ViT 证明了「CNN 不是训练通用能力的唯一选择」,其全局理解图像的能力也是实现图像与文本等模态深度融合的基础。
⑤ 2021 年 5 月提出的「MLP-Mixer」是 Transformer 在 CV 任务中开始流行后对性能和架构复杂度关联的重新思考。该工作通过 token-mixing 和 channel-mixing 两层 MLP 实现空间位置和特征通道的信息交流,在没有卷积和自注意力机制的情况下,用最简单的 MLP 架构训练出能力优越的模型。
⑥ 2022 年 9 月提出的「PALI」是谷歌在「多模态大一统」的早期尝试。PALI 结合了图像理解和语言生成,将所有图片+问题的输入变成文本生成任务,并通过此界面以多种语言执行视觉、语言和多模态任务。在这一路径下,谷歌后续衍生出了 PALI 3,PaliGemma 等工作。
3、从图像分类任务到基于图像的多语言对话,「CV 铁三角」的研究在加强和完善 AI 视觉能力的路线下逐步迭代改善,和同期一系列工作构建起现代多模态 AI 的基础框架,进而解锁后续 AI 模型在模态融合与理解的能力,使终极的多模态「大一统」成为可能。
视觉 AI 到多模态还有哪些「里程碑」?

- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊