AI 视频生成,从来不缺工具,缺的是靠谱的输出。角色形象前后对不上、画风时不时跳戏、动作充满塑料油腻感,几乎成了行业默认的 bug。
但这次,快手可灵盯上了最难啃的一块骨头。
今天,快手可灵 AI 在 WAIC 期间举办「生成式 AI 应用元年」论坛上,正式发布两项重磅更新:一是全新创意工作台「灵动画布」,二是全面升级的「多图参考」功能。
前者支持最多 5 人在同一画布内协同创作,素材共享、实时联动、一键导出,打造出更流畅的创作闭环。而后者的多图参考功能则是我更关心的事项。
资讯配图
不得不说,AI 视频工具不缺,但能把一致性做到自然流畅的,还真不多。经过盲测,新模型的效果比之前提升了整整 102%,尤其是在角色、主体和场景一致性、动态质量、画风保持等维度,几乎打通了日常创作最容易翻车的几道关口。
先说说什么是多图参考。简单来说,就是你扔几张图片给 AI,它能理解并整合不同图片里的角色、主体、场景,然后根据你的描述,生成一个融合了这些元素的视频。
这个功能,主打的就是解决 AI 视频生成中最头疼的问题——一致性。
具体怎么玩?操作其实挺简单:上传 1-4 张参考图、框选需要的元素(人物、动物、物品、场景都行)、输入提示词描述它们的互动、点击生成,就能坐等视频生成。
资讯配图
早在今年 1 月,可灵 AI 就已经推出了这功能时,算是开了个好头,而经过半年的打磨,不吹不黑,这次迭代升级后确实有点东西。那么此次功能升级后到底强在哪?
以前最头疼的就是角色一致性,换个角度、换个动作,角色的脸和衣服就像换了个「人」。现在功能升级后,生成视频时,人物角色更自然、主体一致性大幅提升。
资讯配图
拿这个案例来说吧,在舞台上,身穿时尚衣服的女孩,带着水晶冠,镇定看向镜头——整个视频从头到尾,女孩的脸部特征、服装细节都保持得相当稳定。
资讯配图
再复杂一点的场景也能稳住:镜头特写角色大眼睛,缓慢拉远,角色双手翻动古书,眼神专注微微眨眼,耳朵和帽子微微抖动,这种连贯的动态细节,都是老版本难以比肩的。
资讯配图
Prompt: 镜头特写角色大眼睛,缓慢拉远,角色双手翻动古书,眼神专注微微眨眼,耳朵和帽子微微抖动,鼻子偶尔轻微抽动,背景火光闪烁营造温暖氛围,木桌上的光影有层次变化,氛围治愈温馨 |由可灵超创 @海瞳 创作
再比如,以前两个角色互动,偶尔出现穿模、动作僵硬的问题,现在动态质量也有了显著的提升。有个企鹅推快递盒的案例特别有意思——动作自然,推箱子的力度感都出来了,不再是那种「滑行」的感觉。
资讯配图
一只企鹅在小路上推着快递盒走向家门口
光影、色彩、细节都有明显改善,整体效果更精致。画风保持也更稳定了,不会出现前后画风突变的情况。
比如棕熊穿西装从汽车走出来的镜头,镜头质感堪比电影海报,甚至有几分《泰坦尼克号》味了。
资讯配图
画面右侧停泊着泰坦尼克号的港口,上半身特写,棕熊身穿灰色套装西服和长裤,头戴黑色圆顶礼帽,从一辆黑色汽车里走出来,站在车门口张望环境,镜头向熊脸部不断推进,它脸上欣喜的表情,背景各种动物穿着欧洲1912年服装走动,动物界的泰坦尼克号,詹姆斯卡梅隆电影光影 | 由可灵超创 @Liguo 创作
更重要的是,此次升级还新增了局部参考功能。
这个功能解决了一个老大难问题:以前参考图片时,AI 会把整张图的所有元素都考虑进去,不想要的背景反而抢戏。
资讯配图
现在你可以自己圈定参考范围——只要脸、只要衣服、只要某个特定道具,统统可以指定。生成结果更可控,也更符合创作者预期。
当然,话说回来,咱也得实事求是。
复杂的剧情编排、细腻的情感表达、专业级的镜头调度,这些还是得靠人类创作者。指望 AI 一键生成还远远做不到。
但放在日常创作场景里,比如产品展示、创意短视频、教学演示动画——可灵这波升级,已经相当能打了。
换句话说,它不是要取代导演,而是让每个人都能当上自己的「小导演」。在 AI 的加持下,创意的门槛正在快速降低,这或许才是最让人兴奋的地方。