Vidu上线“参考生”功能,可让诸葛亮和拿破仑同屏对话
- 2025-07-09 18:10:17
系统最多可输入七个主体图像,让人物不“变脸”、场景不混乱,多角色同框和跨场景复用成为可能。
该功能运行于Vidu Q1模型之上,支持1080P输出,无需用户手动控制每一帧画面,也不依赖首尾帧设定,整体生成过程全部基于图像设定自动完成。
目前,参考生已在 Vidu 网页端与移动端同步上线。
01.

除了画面内容,Vidu此次也上线了AI音效功能,用户只需输入简单描述,即可生成与画面匹配的音效片段。
目前支持多个音效同时叠加,例如“雨声+脚步声+背景音乐”,并可自动适配画面节奏。这一功能降低了创作者在后期配音、寻找素材库等环节的操作成本,进一步向“全流程自动生成”方向靠近。
02.
系统最多支持七个主体图像同时输入,包括主角、配角、场景、道具等多个元素。在生成过程中,系统会自动识别每个角色的空间位置与相对动作,确保互动关系自然、画面结构稳定,且各角色在镜头切换中保持外观、造型和细节的一致性。
比如让来自不同朝代、国家、地域的三个人诸葛亮、丘吉尔和拿破仑出现在同一个会议室交流。用户只需输入三个人物图片素材和相应提示词(“[@诸葛亮]与[@丘吉尔]、[@拿破仑]在会议室面对面坐着讨论”),即可生成一段三人对话的视频。


03.
相比Vidu早期版本,Q1参考生在画质、稳定性和生成效率上均有明显提升,当前版本生成一条5秒的1080P视频,所需时间约为1至2分钟。
在成本方面,该平台当前定价为5秒视频约0.895元,按照基础套餐估算,1000元可生成约48分钟的视频内容。
智东西第一时间对该功能进行了体验。用户登录Vidu平台后,可通过上传图片创建“主体角色”,系统将自动生成风格与描述文本,用户可根据需要进行修改或自定义设定。

此外,还支持上传背景图片构建自定义场景,平台提供基础裁剪功能辅助画面适配。

在本次体验中,智东西选择了两张图像作为输入,并设定生成指令为“[@安陵容]在[@图2]奔跑”。上传完成后,系统自动识别人物姿态与背景结构,几分钟内即生成视频成片。

输出画面中,人物造型、服饰细节、动作流畅度均较为稳定,背景融合自然,整体视觉效果贴近设定图像所构建的情境。
04.


- 点赞 0
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊