48块GPU训练对标千亿参数SOTA!达摩院等发布基于LLM的自回归视频生成Lumos-1

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者:Hangjie Yuan等解读:AI生成未来文章链接:https://arxiv.org/pdf/2507.08801 项目链接:https://github.com/alibaba-damo-academy/LumosLumos-1 生成的示例可视化。Lumos-1 支持文本到图像、图像到视频和文本到视频任务亮点直击MM-RoPE...
2025-07-17 00:01:23
一键实现PPT演讲自由!「解说音频+视频」同步生成,效果逼近真人

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future转载自:新智元如有侵权,联系删稿演示是一种广泛使用且行之有效的信息传达方式。通过结合视觉元素、结构化的讲解和口头解释,它能够使信息逐步展开,从而让不同受众更容易理解。尽管效果显著,但将长篇文档(如商业报告、技术手册、政策简报或...
2025-07-17 00:01:23
历史性机遇!全国首部AI大模型私有化部署标准起草单位/专家征集令!20家单位已加入

来源 | 智合标准化建设作者 | 智合标准中心由中国电子商会归口管理,智合标准中心(北京之合网络科技有限公司)组织起草的《人工智能大模型私有化部署技术实施与评价指南》团体标准(以下简称《标准》)现已正式立项。这是国内首部针对AI大模型私有化部署的标准,目前该标准正在征集起草单位、起草人。【扫码了解更多信息】...
2025-07-16 00:01:00
单目视频→4D场景仅需1秒!颠覆性框架MoVieS实现动态三体统一建模 | 北大&字节等

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者:Chenguo Lin等解读:AI生成未来文章链接:https://arxiv.org/pdf/2507.10065 项目链接:https://chenguolin.github.io/projects/MoVieS/ Git链接:https://github.com/chenguolin/MoVieS 亮点直击MoVieS,首个前馈式框架,可从单目视频联...
2025-07-16 00:01:00
借着Kimi K2的小爆发,吐露一些近期对Model as Agent的小思考

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future上周五(711),月之暗面蛰伏半年,憋了个大的,正式发布Kimi K2模型,总参数1T,同步开源。具体模型效果就不过多赘述了,网上已经有很多实测。看到月之暗面仍在追求极致的AGI上一路奔袭,很是欣慰,正如那位来自暗面的小哥感言:“追求AGI是极...
2025-07-16 00:01:00
AGI世界模拟迎来统一框架!首篇综述打通2D→视频→3D→4D生成全链路!

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者:Yuqi Hu等解读:AI生成未来文章链接: https://arxiv.org/pdf/2503.04641亮点直击首次统一2D、视频、3D和4D生成研究的综述,为该研究领域提供了结构化和全面的概述。从数据维度增长的角度,通过多模态生成模型的视角,系统性地回顾了现实...
2025-07-15 00:01:32
具身智能大脑+首个SaaS开源框架,智源刷新10项测评基准!

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future转载自:量子位如有侵权,联系删稿具身智能大脑+全球首个具身智能SaaS开源框架,智源研究院在具身智能领域发力了——“通用具身大脑”RoboBrain 2.0,面向真实物理环境,集感知、推理与规划于一体。全新32B版本凭借时空认知能力的突破,在多项权威...
2025-07-15 00:01:32
ICCV 2025 | 清华&腾讯发现「视觉头」机制:仅5%注意力头负责多模态视觉理解

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future转载自:机器之心如有侵权,联系删稿本文的主要作者来自清华大学智能视觉实验室(i-Vision Group)、腾讯混元 X 组。本文的共同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎,本文的通讯作者为清华大学自动化系鲁继文教授。多模态大...
2025-07-15 00:01:32
长视频AI推理的“圣杯”!英伟达、MIT、港大、UC伯克利等重磅开源Long-RL

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者:Yukang Chen等解读:AI生成未来论文链接:https://arxiv.org/pdf/2507.07966Git链接:https://github.com/NVlabs/Long-RL亮点直击LongVILA-R1,一个面向长视频理解推理能力的综合性框架。构建了一个高质量长视频推理数据集LongVideo-Reas...
2025-07-14 00:14:16
ImageNet FID 从14干掉到4!ARFlow:自回归嵌入流式图像生成,混合线性注意力破解长程依赖难题

点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者丨科技猛兽编辑丨极市平台本文目录1 ARFlow:混合线性注意力的 Autoregressive Flow(来自 UC Santa Cruz,MIT 等)1.1 ARFlow 研究背景1.2 Flow-based Model 和 Chunkwise 线性注意力简介1.3 ARFlow 机制介绍1.4 混合线性注意力1.5 实验结果...
2025-07-14 00:14:16