北大&银河通用发布UrbanVLA:首个城市微出行VLA模型,让它像老司机一样认路、避障
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Anqi Li等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.23576 项目链接:https://pku-epic.github.io/UrbanVLA-Web/图1:UrbanVLA 的实际部署展示了在具有未知布局、动态障碍物和不同光照的各种环境中...
2025-10-29 08:01:00
导演之魂,端到端电影制作更进一步!港科大&蚂蚁等最新HoloCine一键生成完整电影场景
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Yihao Meng等解读:AI生成未来论文链接:https://arxiv.org/pdf/2510.20822项目链接:https://holo-cine.github.io/图 1.仅凭文字提示,HoloCine 就能整体生成连贯的电影多镜头视频叙事。图中展示了我们模型的多...
2025-10-28 08:01:00
Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:UniWorld团队解读:AI生成未来论文链接:https://arxiv.org/pdf/2510.16888Git 链接:https://github.com/PKU-YuanGroup/Edit-R1亮点直击Edit-R1框架:结合DiffusionNFT技术与预训练多模态大模型(MLLM)构建免...
2025-10-27 08:01:00
具身智能的“盗梦空间”!GigaAI最新重磅发布GigaBrain-0:世界模型驱动的VLA模型
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:GigaAI解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.19430 主页链接:https://gigabrain0.github.io/亮点直击以世界模型为核心的数据引擎: 提出并利用一个名为 GigaWorld 的世界模型框架,作为强大的...
2025-10-26 13:12:07
颠覆视频编辑!浙大腾讯等发布IVEBench:首个全面支持指令驱动视频编辑的评测基准套件
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Yinan Chen等解读:AI生成未来项目主页: https://ryanchenyn.github.io/projects/IVEBench论文: https://arxiv.org/abs/2510.11647代码: https://github.com/RyanChenYN/IVEBench数据集: https://huggingfac...
2025-10-25 00:01:00
图像编辑的ChatGPT时刻来了?苹果40万真实图像训练,AI现在能听懂你的‘精修指令’了
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Yusu Qian等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.19808 代码链接:https://github.com/apple/pico-banana-400k 亮点直击大规模且真实:包含约 40 万个基于真实世界照片生成的图像编辑样本,克...
2025-10-24 07:31:00
速度狂飙12倍!清华FlashVSR:首次实现超高清视频实时超分辨率,超越所有扩散VSR模型
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Junhao Zhuang等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.12747 项目链接:https://zhuang2002.github.io/FlashVSR 代码链接:https://github.com/OpenImagingLab/FlashVSR 模型链接:https://hug...
2025-10-23 07:31:00
破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Ruyi Xu等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.09608Git链接:https://github.com/mit-han-lab/streaming-vlm Demo链接:https://streamingvlm.hanlab.ai/亮点直击训练与推理统一的流式架构:...
2025-10-22 07:30:53
英伟达发布“平民版”Sora,720P分钟级视频,一块显卡就能跑!
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Junsong Chen等解读:AI生成未来论文链接:https://arxiv.org/pdf/2509.24695 项目链接:https://nvlabs.github.io/Sana/Video/ 亮点直击SANA-Video,一种小型扩散模型,旨在实现高效训练和快速推理,同时不影响...
2025-10-21 07:30:00
视频生成实时拖拽一切!南洋理工DragStream实现拖一下就能改大片,告别从头渲染!
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Junbao Zhou等解读:AI生成未来论文链接:https://arxiv.org/pdf/2510.03550REVEL 任务示例上图所示的流式视频处理结果包括编辑和动画,并带有对象平移("Trans")、变形("Defor")和旋转("Rot")等拖动效果,...
2025-10-18 07:30:00
李飞飞全新「世界模型」问世!效率单张H100实时生成3D永恒世界
点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future转载自:新智元如有侵权,联系删稿就在刚刚,李飞飞World Labs重磅发布全新实时生成式世界模型——RTFM(Real-Time Frame Model,实时帧模型)!这是一款效率极高的,在大型视频数据上进行端到端训练的自回归扩散Transformer模型。仅需一块H100 G...
2025-10-18 07:30:00
视频生成首次注入“物理灵魂”!港大&快手新模型PhysMaster让虚拟世界遵从真实定律
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Sihui Ji等解读:AI生成未来论文链接:https://arxiv.org/pdf/2510.13809项目链接:https://sihuiji.github.io/PhysMaster-Page/git链接:https://github.com/KwaiVGI/PhysMaster【亮点直击】将物理知识捕捉为一...
2025-10-17 07:30:00
身份保持超越Nano Banana!获多项SOTA!浙大ContextGen实现布局控制+身份保真双突破
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Ruihang Xu等编辑:AI生成未来文章链接: https://arxiv.org/abs/2510.11000项目主页: https://nenhang.github.io/ContextGen/【导语】 AI作图正在从“自由创作”走向“精确工程”。面对商业应用中对多主体身份一致性...
2025-10-16 07:30:00
速度质量我全都要!中科大&美团找到自回归生图“熵”密码,聪明采样提速15%且画质无损!
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Xiaoxiao Ma等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.09012 Git链接:https://github.com/krennic999/ARsample图 1:顶行:我们的方法生成的图像具有更精细的细节和更好的结构。下一行:我们的...
2025-10-15 07:30:00
国产之光!快手可灵发布统一理解/生成/编辑视频框架UniVideo:让AI视频创作“大一统”
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Cong Wei等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.08377 项目链接:https://congwei1230.github.io/UniVideo/ Hugging Face链接:https://huggingface.co/papers/2510.08377亮点直击UniVideo——...
2025-10-14 07:30:00
史诗级突破!一个模型让你秒变PS大神,字节最新InstructX仅用“看图”就学会了剪视频
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Chong Mou等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.08485 项目链接:https://mc-e.github.io/project/InstructX/ Git链接:https://github.com/MC-E/InstructX?tab=readme-ov-fileInstructX 的...
2025-10-13 07:30:00
图文双指令开智能创作新纪元!DreamOmni2实现“意念级”P图,文字图片都是你的画笔!
点击下方卡片,关注“AI生成未来”扫码免费加入知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Bin Xia等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.06679Git链接:https://github.com/dvlab-research/DreamOmni2亮点直击两个非常实用的任务:基于多模态指令的编辑和由任何具体或抽象概念引导的生...
2025-10-12 00:00:34
不止补帧,更能补世界!港中文&快手可灵最新VideoCanvas实现真正任意时空视频补全
点击下方卡片,关注“AI生成未来”扫码免费加入AI知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Minghong Cai等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.08555 项目链接:https://onevfall.github.io/project_page/videocanvas/ Git链接:https://onevfall.github.io/project_page/videocanvas...
2025-10-11 00:00:00
通用具身智能要来了!卡内基梅隆&Meta发布效率之王MetaVLA:训练步数降3倍,GPU时间少76%
点击下方卡片,关注“AI生成未来”扫码免费加入知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Chen Li等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.05580 项目链接:https://stellar-neuron.github.io/metavla/ 亮点直击探索了一个尚未充分研究的方向:通过引入多样的辅助任务,以可忽略的优化开...
2025-10-10 07:30:00
告别“无脑”生成!VChain视频推理链:仅靠几个关键帧,自动拍出因果清晰的“电影级”短片
点击下方卡片,关注“AI生成未来”扫码免费加入知识星球,如您有工作需要分享,欢迎联系:aigc_to_future作者:Ziqi Huang,Ning Yu等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.05094 项目链接:https://eyeline-labs.github.io/VChain git链接:https://github.com/Eyeline-Labs/VChain 亮点直击VChain,一种利...
2025-10-09 07:30:00
世界知识赋能文生图模型!港科大开源World-To-Image:自己上网搜图学习,准确率飙升8%!
点击下方卡片,关注“AI生成未来”扫码免费加入AI交流群,如您有工作需要分享,欢迎联系:aigc_to_future作者:Moo Hyun Son等解读:AI生成未来文章链接:https://arxiv.org/pdf/2510.04201 Git链接:https://github.com/mhson-kyle/World-To-Image效果展示亮点直击智能体式优化框架。提出了一种诊断与选择智能体,它在语义分...
2025-10-08 00:00:00
4分15秒!高质量超长视频生成取得颠覆突破!字节Self-Forcing++超基线50倍,效果炸裂!
点击下方卡片,关注“AI生成未来”扫码免费加入交流群,如您有工作需要分享,欢迎联系:aigc_to_future作者:Justin Cui、Jie Wu等解读:AI生成未来论文链接:https://arxiv.org/pdf/2510.02283项目链接:https://self-forcing-plus-plus.github.io/亮点直击揭示了自回归模型在扩展生成视野时的主要障碍,即训练与推理过程中...
2025-10-07 12:16:18
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!
点击下方卡片,关注“AI生成未来”扫码免费加入交流群,如您有工作需要分享,欢迎联系:aigc_to_future作者:Kunhao Liu等解读:AI生成未来论文链接:https://arxiv.org/pdf/2509.25161项目链接:https://kunhao-liu.github.io/Rolling_Forcing_Webpage/图 1:Rolling Forcing 可在单个 GPU 上以 16 fps 的速度实时生成从文本...
2025-10-06 07:30:00
革新视频生成速度的秘密武器!英伟达最新DC-VideoGen:超高清生成实现近15倍加速
点击下方卡片,关注“AI生成未来”扫码免费加入交流群,如您有工作需要分享,欢迎联系:aigc_to_future作者:Junyu Chen等解读:AI生成未来论文链接:https://arxiv.org/pdf/2509.25182Git链接:https://github.com/dc-ai-projects/DC-VideoGen亮点直击DC-VideoGen,一个用于加速视频扩散模型的通用框架。通过低成本的后训练...
2025-10-04 22:26:46
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型
点击下方卡片,关注“AI生成未来”扫码免费加入交流群,如您有工作需要分享,欢迎联系:aigc_to_future作者:Yuxin Song等解读:AI生成未来论文链接:https://arxiv.org/pdf/2509.26641亮点直击Query-Kontext,一种经济型集成多模态模型(UMM),能够将视觉语言模型(VLMs)中的多模态生成推理与扩散模型执行的高保真视觉渲染...
2025-10-03 22:23:05
LucidFlux-14B | 最新通用图形修复大模型:效果超越闭源付费商业模型!
点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者:Song Fei†, Tian Ye†, Lujia Wang, Lei Zhu* 机构:香港科技大学(广州)、香港科技大学 论文链接:https://github.com/W2GenAI-Lab/LucidFlux/blob/main/Technical_Report.pdf 项目主页:https://w2genai-lab.github.io/LucidFlux 代...
2025-10-02 00:01:00
刚刚,Sora 2 重磅发布!视频生成的"GPT-3.5时刻"来临
点击下方卡片,关注“AI生成未来”扫下方二维码免费加入交流群,有问题欢迎联系:aigc_to_future作者:Sora团队今日,OpenAI正式推出旗舰级视频与音频生成模型Sora 2!2024年2月发布的初代Sora模型堪称视频生成领域的"GPT-1时刻"——这是视频生成技术首次展现出可用性,通过扩大预训练算力使物体持续性等基础行为规律自然涌现。此...
2025-10-01 07:45:01
这个交流群人数暴涨25倍!
第一天有近50名小伙伴加入这个免费学习交流群,人数壮大了,我分享的动力也来了,积木成林,积小流而成江海,坚持分享10天,100天,365天,2年,3年。。。相信时间的力量,一起成长!【Who is AI技术开放社区】为了更好的服务大家,让技术交流更加便捷,AI生成未来正式启动 「AI生成未来·AI技术开放社区」 知识星球!这是一...
2025-10-01 00:01:00
一张照片,秒变专属电影!字节最新Lynx黑魔法护航高保真个性化视频生成
点击下方卡片,关注“AI生成未来”如您有工作需要分享,欢迎联系:aigc_to_future作者:Shen Sang等解读:AI生成未来论文链接:https://arxiv.org/pdf/2509.15496Git链接:https://byteaigc.github.io/Lynx/亮点直击介绍了 Lynx,一个高保真的个性化视频生成框架,旨在从单个输入图像中保留身份。Lynx 采用基于适配器的设计,...
2025-09-30 07:30:00
AI技术开放交流群成立!AIGC、大模型、自动驾驶、具身智能。。。
大家好,为了更好的服务大家,让技术交流更加便捷,AI生成未来正式启动 「AI生成未来·AI技术开放社区」 知识星球!这是一个完全免费的高质量AIGC技术社群。这个社群更加适合记录和积累,方便回溯和复盘。愿景是联结数十万AIGC开发者、研究者和爱好者,解决从理论到实战中遇到的具体问题。倡导深度讨论,确保每个提问都能得...
2025-09-30 07:30:00