LOADING STUFF...

AI视频中看不用?百度不做视频模型的原因很简单

自打ChatGPT让人工智能这个概念迎来第二春,百度创始人李彦宏也重新活跃了起来,成为了几乎是最爱发声的互联网大佬。在此前先后发表AI终结程序员、开源模型会越来越落后等言论之后,有消息称在最近举行的百度2024年第三季度总监会上他又放话,“百度不碰Sora类的视频生成。”

AI视频中看不用?百度不做视频模型的原因很简单

那么他对Sora这种文生视频模型泼冷水,到底是因为百度有力未逮,还是认为文生视频模型做不出商业价值呢?尽管目前百度方面并没有推出视频模型,国内市场也基本是快手可灵与抖音即梦在打擂台,但尚未涉及文生视频赛道的百度也并不属于“吃不到葡萄就说葡萄酸”。毕竟作为国内率先押注AI的厂商,百度的技术实力无需多言。

AI视频中看不用?百度不做视频模型的原因很简单

况且类似Sora这样文生视频模型的技术原理并不晦涩,OpenAI都已经把Transformer架构+扩散模型的组合摆在了台面上。除了抖音和快手拥有大量可用于训练的短视频资源之外,与爱奇艺关系匪浅的百度显然也不会缺少训练这类模型的语料。所以问题的关键,很可能在于视频模型本身的盈利能力存疑。对此李彦宏表示,Sora这种视频生成模型的投入周期太长,10年、20年可能都拿不到业务收益。

AI视频中看不用?百度不做视频模型的原因很简单

此前在今年年初,OpenAI放出的Sora确实给了外界巨大的震撼。毕竟在Sora亮相之前,业界最好的文生视频产品Runway、Pika,也都只能做到生成一段不到十秒的视频,与其说它们生成的是视频、还不如说是一段GIF,而Sora当时就做到了生成连贯的一分钟视频,且展现出了在多角度多镜头切换中保持一致性,以及遵循现实世界物理规律的能力。

在短视频席卷全球的情况下,当时Sora的出现曾被外界认为是实现“技术普惠”的曙光。Sora的横空出世也直接开启了视频模型的“大跃进”,包括海外的Runway、Pika先后进行迭代,开始逐步追上了Sora的水平,而国内市场的快手可灵、抖音即梦两大最成熟的产品则实现了“青出于蓝而胜于蓝”。只是各方针对视频模型的军备竞赛似乎真的只是为了秀技术,业界也不约而同地选择性了忽略成本问题。

AI视频中看不用?百度不做视频模型的原因很简单

此前,风险投资机构Factorial Funds曾以Sora的理论基础Diffusion Transformers为基准,对Sora的成本进行过相关测算。根据他们的说法,训练视频模型比常规大语言模型的成本高出了数倍,OpenAI训练Sora是用4211至10528片英伟达H100 GPU训练了1个月。并且一旦Sora推出后,在Tiktok和Youtube上得到广泛的应用,那么OpenAI需要的算力就相当于72万张H100。

AI视频中看不用?百度不做视频模型的原因很简单

到目前为止,OpenAI手里的H100 GPU可能也不会超过10万片,就算使用“潮汐资源”也覆盖不了如此巨大的算力缺口。事实上,算力卡还仅仅只是硬件成本中的一部分,运行这些GPU所需的电力同样也是天文数字,以每片H100的功耗为700W计算,72万片的总功耗就将达到50.4万千瓦,而‌大亚湾核电站的总装机容量为612万千瓦,所以这也是为什么微软、谷歌等大厂会盯上核电的原因。

更为致命的一点,是目前的视频模型可用性远低于大家的想象。Sora这种生成具有连贯性的1分钟长视频还仅存在于理论中,现实情况是视频片段的一致性问题到现在都没能得到解决,生成视频的时间一长、AI就会放飞自我。以快手基于可灵打造的短剧《山海奇镜之劈波斩浪》为例,它实际上并不是由多个一分钟视频拼接起来,而是由可灵生成了海量5秒时长的分镜头,再由后期剪辑团队剪辑而成。

AI视频中看不用?百度不做视频模型的原因很简单

同理,使用Sora生成的短片《气球人》也不是纯粹使用AI生成,同样也是人类团队后期加工的结果。此外,所有的AI生成视频模型都说要做世界模拟器(world simulators),但现实是AI对于物理规律的理解还是伪命题,如果不进行后期调整,AI直出的视频会相当之呆板。

由于AI文生视频只能在数秒内实现内容的一致性,所以对于创作者的价值确实不算大。按照目前快手可灵、Runway视频模型的收费标准,平均生成一段5s的视频收费在0.5—2元不等,再加上比一般视频更高的后期成本,算下来还真不如全人工拍摄。这也就能解释OpenAI的Sora为何雷声大雨点小,AI视频生成产品Luma AI在9月的总访问量环比下跌38.49%、Pika总访问量环比下跌9.78%了。

AI视频中看不用?百度不做视频模型的原因很简单

其实抖音、快手押注视频模型是有迹可循的,毕竟这也是短视频平台实现“人人皆是创作者”的机会。用户不需要懂得任何视频拍摄、剪辑的知识,足不出户就能把文字变成视频,这对一个强调内容供给,主打无时无刻满足用户的平台来说,他们对于创作者的渴求显然是无穷无尽的。所以即梦、可灵的存在,代表平台可以为每一位用户插上创造的翅膀,因此就算再烧钱,快手和抖音也会做下去。

AI视频中看不用?百度不做视频模型的原因很简单

可百度完全不一样,尽管他们确实有短视频业务,但之于百度还能算得上是“甜点”。再加上百度从来都不是一个以内容见长的互联网厂商,也没有自己的短视频平台,所以如果贸然去做Sora类的视频生成模型,又要从哪里收回成本呢?因此这样看来,百度确实不该做Sora,真正应该去做的反而是腾讯。

本文来自微信公众号“三易生活”,作者:三易菌,aigpt6经授权发布。

© 版权声明

相关文章

暂无评论

暂无评论...