Vidu视频大模型
中国
AI大模型

Vidu视频大模型

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型

标签:
讯飞星火大模型
讯飞星火

Vidu是什么?

Vidu是北京生数科技有限公司联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型,于2024年4月27日在中关村论坛未来人工智能先锋论坛上发布。
该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率达1080P的高清视频内容。

生数科技还发布了AI绘画和视频生成平台PixWeaver,和3D模型生成平台VoxCraft AI,支持在线使用。Vidu在B站发布的视频演示:

  • 功能综述
Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-VT,支持一键生成长达16秒、分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。
  • 现场演示
根据现场演示的效果,Vidu能够模拟真实的物理世界,够生成细节复杂,并且符合真实物理规律的场景。例如合理的光影效果、细腻的人物表情等;它还具有丰富的想象力,能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的,超现实主义内容。例如:“画室里的一艘船正在海浪中驶向镜头”。
清华大学人工智能研究院副院长、生数科技首席科学家朱军表示,“作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。”
此外,Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等镜头,而是能够围绕统一主体,在一段画面里实现远景、近景、中景、特写等,不同镜头的切换。包括能直接生成,长镜头、追焦、转场等效果,给视频注入镜头语言。

相关导航

暂无评论

暂无评论...