钛媒体AGI独家｜“中国版Sora”视频大模型Vidu重大更新：时长延至32秒，首次支持音视频合成

Original 林志佳钛媒体AGI

2024-09-05

时隔40天，全面对标Sora的中国首个自研视频大模型Vidu重大进展低调曝光。

6月6日消息，钛媒体AGI独家获悉，生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型Vidu，近期完成三个最新、重大技术迭代，实现国内视频模型更大一步技术跨越。

1、目前Vidu可以一键生成32s视频；
2、支持音视频合成，即Vidu视频生成有声音了（Text-2-Audio）
3、支持4D生成，可以从单一视频生成时空一致的4D内容。

下面，话不多说，直接看演示：

这是一个图书馆书架放着的地球仪，它轻轻地旋转着，表面描绘的是地球的地图，相机逐渐拉近，地球仪表面剥开后，有一颗类似地球的蓝色星球，效果十分逼真。

此外，现场展示了三段此前Vidu发布的Demo，但这次是“有声版”。

首先是“画室里的一艘船驶向镜头”的片段，在强表现力、丰富想象力的画面之上，同步生成了背景音，包括海浪声、船的撞击声，声音自然，与画面高度匹配。

另一段“汽车在陡峭山坡上行驶”的片段。现场放出的配音版，能直观听到汽车发动机声音，以及轮胎在地面摩擦的声音，音画同步，包括能感受到森林环境的背景音。

还有一段，是镜头围绕一大堆老式电视旋转，所有电视都显示不同的节目，20世纪50 年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等，背景设置在纽约一家大型博物馆画廊内。在声音效果上，该片段能够生成出嘈杂的环境和电视播放的声音内容，非常符合实际效果。

整体来看，Vidu的视频生成技术实力确实很强，效果也十分逼真。

目前，生数科技官方还暂未放出正式的发布消息。但从现场效果来看，国产视频生成模型的时长天花板，在短短一个月后，再度被拉高至32秒。

另外值得关注的是，Vidu正朝着“更长时长”和“更多模态”的方向进化，并在短期内已快速取得了较好的阶段性效果。在视频生成之后，音频生成或将成为Vidu迭代的重点方向。

Vidu4D方面，据介绍，Vidu4D支持从单个生成的视频中精确重构出4D（即序列3D）。据朱军表示，该项工作能有效提升视频生成模型效果，通过提升3D一致性，来增强视频生成对世界的真实模拟。

目前该论文已挂arXiv。论文地址：https://arxiv.org/abs/2405.16822

据悉，今年4月27日2024中关村论坛年会“未来人工智能先锋论坛”上，生数科技联合清华大学正式发布原创自研视频大模型Vidu，采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。

清华大学人工智能研究院副院长、生数科技首席科学家朱军当时表示，“作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。”

实际上，早在2021年，也就是Sora还未发布之前，朱军团队就率先开始了扩散模型研究，是国内最早研究深度生成模型的团队之一。期间提出的免训练推断算法 Analytic-DPM、全球最快采样算法 DPM-Solver，被 Stable Diffusion、DALL·E 2 等图像模型采用，直接推动了全球图像生成浪潮的兴起。

2022年，朱军团队提出全球首个 Diffusion 与 Transformer 融合架构 U-ViT，短短半年后再次取得重大突破，开源全球首个基于此融合架构的多模态扩散模型 UniDiffuser，成功验证了大规模训练融合架构的可行性与涌现能力，并且入选了NeurIPS 2023。

在今年2月OpenAI发布Sora之后，Vidu团队基于对U-ViT架构的深入理解以及长期积累的工程与数据经验，仅仅2个月的时间，突破长视频表示与处理关键技术，研发出Vidu视频大模型，显著提升视频的连贯性与动态性。

值得注意的是，与Sora一致，Vidu在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。

“今年2月文生视频大模型Sora发布后，我们发现其刚好和我们的技术路线是高度一致的，这也让我们坚定地进一步推进了自己的研究。”朱军表示。所以，Vidu是自Sora发布之后，全球率先取得重大突破的视频大模型，也是国内唯一能够性能全面对标Sora的视频模型。此次，时隔一个多月，Vidu模型再次实现重大技术迭代。

“今年2月文生视频大模型Sora发布后，我们发现其刚好和我们的技术路线是高度一致的，这也让我们坚定地进一步推进了自己的研究。”朱军表示。

所以，Vidu是自Sora发布之后，全球率先取得重大突破的视频大模型，也是国内唯一能够性能全面对标国际顶尖水平的视频生成模型，并且仍在加速迭代提升中。

此次，时隔一个多月，Vidu模型实现重大技术迭代。

另外，6月5日，Vidu背后的研发公司，生数科技宣布完成数亿元 Pre-A 轮融资，由北京市人工智能产业投资基金、百度联合领投，中关村科学城公司等跟投，BV百度风投、启明创投等数位老股东继续支持。

据了解，生数科技拥有全链路自主研发、从零开始自主训练的“产业级”自研多模态大模型能力，提供图像生成、3D生成、视频生成的多模态生成能力，商业化方面布局MaaS（模型即服务）与应用级产品。

朱军曾表示，大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。因此，生数科技还公布的“Vidu大模型合作伙伴计划”，共同构建合作生态。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

继续滑动看下一个

钛媒体AGI

向上滑动看下一个

一把短刀，怎么就让他连捅18人？！

向不容妄议的杨市长道歉

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

钛媒体AGI独家｜“中国版Sora”视频大模型Vidu重大更新：时长延至32秒，首次支持音视频合成

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向不容妄议的杨市长道歉

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

海南省拟任干部人选公

生成图片，分享到微信朋友圈

钛媒体AGI独家｜“中国版Sora”视频大模型Vidu重大更新：时长延至32秒，首次支持音视频合成

您可能也对以下帖子感兴趣