今天分享一个多模态研究的核心方向:注意力机制+CLIP。这种结合可以通过动态对齐、上下文感知和并行计算,显著提升多模态任务的性能。在多模态爆火的当下,算是热点赛道。

得益于其创新可快速迁移到多个高需求领域,且轻量改动即可实现突破,这方向现处创新爆发期,可参考成果丰富。比如CVPR 2025的DiTCtrl、AAAI 2025的Clip-cid、STDD、IJCV的WeakCLIP...高产盛况可见一斑。

如果感兴趣的同学想上车,可以先看我整理的10篇注意力机制+CLIP最新论文了解前沿,代码基本有。创新的话建议大家侧重“小改动大提升”,优先选择差分注意力扩展、医疗/工业细粒度适配、生成式协同框架等方向切入,快速产出成果。

扫码添加小享,回复“注意C

免费获取全部论文+开源代码

资讯配图

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

方法:论文提出DiTCtrl方法,基于MM-DiT架构,通过分析其注意力机制,利用3D全注意力实现跨提示语义控制,结合CLIP评估语义一致性,无需额外训练即可生成长视频,还引入MPVBench基准评估性能。

资讯配图

创新点:

  • 提出无训练多提示视频生成法DiTCtrl,用3D全注意力实现跨提示语义控制以生成长视频。
  • 引入含多样过渡类型及CSCV等评估指标的MPVBench基准,评估多提示视频生成性能。
  • 分析MM-DiT注意力机制,发现其与UNet类扩散模型交叉/自注意力块行为相似,为语义控制提供理论支撑。
资讯配图

CLIP-driven rain perception: Adaptive deraining with pattern-aware network routing and mask-guided cross-attention

方法:论文提出CLIP-RPN图像去雨法,借CLIP感知雨型并路由至对应子网络,用掩码引导交叉注意力增强特征交互,还采用动态损失调度优化训练,在多数据集上去雨性能优越。

资讯配图

创新点:

  • 利用CLIP模型自动感知雨型,通过视觉-语言匹配分数适应性路由到不同子网络处理。
  • 引入掩码引导的交叉注意力机制,增强雨区与非雨区特征交互,提升去雨效果。
  • 提出动态损失调度策略,根据训练进度调整损失函数,优化网络训练过程。
资讯配图

扫码添加小享,回复“注意C

免费获取全部论文+开源代码

资讯配图

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

方法:论文推出GenCLIP零样本异常检测框架,靠多层提示用CLIP各层视觉特征强化文本提示、更稳健,借双分支推理平衡类别特性与泛化能力,还引入自适应过滤机制剔除无关类别名,保证文本输入有效。

资讯配图

创新点:

  • 提出多层提示策略,整合CLIP不同层的视觉特征来增强文本提示,使其更全面和鲁棒。
  • 设计双分支推理策略,通过视觉增强分支和查询分支的互补输出,平衡特定性与泛化能力,提升异常检测的稳定性和可靠性。
  • 引入自适应文本提示过滤机制,移除不相关或非典型的类别名称,确保文本输入对异常检测的有效性。
资讯配图

WeakCLIP: Adapting CLIP for Weakly-supervised Semantic Segmentation

方法:论文提出了WeakCLIP,它通过文本到像素的匹配范式,利用CLIP的预训练知识来提升弱监督语义分割(WSSS)的性能。该方法通过模块建模关系、增强细节改进类别激活图,在两数据集上达最佳性能。

资讯配图

创新点:

  • 提出文本到像素的匹配范式,将CLIP的预训练知识应用于弱监督语义分割(WSSS)任务。
  • 设计共注意力匹配模块,建模文本与像素的关系,提升文本到像素的表示能力。
  • 引入金字塔适配器和文本引导解码器,增强多级视觉特征的细节信息,并进行层次化整合。
资讯配图

扫码添加小享,回复“注意C

免费获取全部论文+开源代码

资讯配图