全网刷屏的Sora有多“可怕”
作者 王一鹏
发表于 2024年3月

2月16日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora,大幅刷新行业多个指标,重新定义了 AI 文生视频在现阶段的技术极限,颠覆了生成式 AI 在视频领域的全球市场格局。

Sora 使用 Transformer 架构,建立在 DALL·E 3 和 GPT 模型之上,可以生成长达一分钟的有运动、多机位视频。相比业界水平,Sora 将视频生成的时长一次性提升了 15 倍,直接迈过了市面上所有短视频的时长要求。

同时,Sora 也带有世界模型的特质。世界模型不是 AI 视频生成的必需要素,却是这个领域较为高端的一个研究方向。所谓世界模型,简单点说,是要对真实的物理世界进行建模,让机器像人类一样,对世界有一个全面而准确的认知。视频与文字不同,大多数是在描绘一个主体,在一个真实或虚构的物理世界中的动作,因此,世界模型会让 AI 视频生成更流畅、更符合逻辑,降低视频模型的训练成本,提升训练效率。同时,世界模型也为生成式 AI 真正进入自动驾驶行业铺好了路。

此次,Sora 的世界模型,已经能帮助它还原一辆越野车在山区小路上的行驶情况,在视频中添加逼近真实的倾斜和颠簸感。

但 Sora 的世界模型仍有非常多的问题,比如,一块饼干被咬过之后,却没有留下咬痕。OpenAI 非常实在,把这些问题都写在了官网上。

目前,Sora 仅开放给了少部分人进行内测,据称是一些视觉艺术家、设计师和电影制作人。同时,OpenAI 内部仍在进行模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容,至于色情暴力,则会在文本输入时,就被拒绝掉。

对于 Sora,今天的我们,必须注意到几个显而易见的推论:

1.OpenAI 一拳打在了所有人的肝上:全球的 AI 视频生成赛道投资逻辑,乃至相关企业的生存逻辑,在此刻都已经改变了。未来一个季度内,如果该企业的视频生成能力,仍然停留在 4s,或导致直接出局。

2.AI 已经快速迈过文生文、Chatbot时期,大步进军视频生成领域:当下最火的短视频、短剧,将迎接 AI 的到来;那些卡在瓶颈上的领域,比如自动驾驶、智慧城市,或将迎来突破。

3.不要过度神话 Sora 或其他 AI 视频生成工具,当下仍有巨量的技术、产品、商业问题等待解决;但也不要低估 AI 技术的进步速度,那个凝固在未来时光中、让人看不清面貌的 AGI(通用人工智能),正在向我们迈步。

Sora到底牛在哪儿?

就在年前,2024年 1月27 日,虎嗅举办了一场关于 AI 视频生成的开放沙龙,会上有一个有趣的互动:AI 视频生成多快迎来 Midjourney 时刻?

选项分别是半年内、一年内、一至两年或更长。

本文刊登于《科学大观园》2024年6期
龙源期刊网正版版权
更多文章来自
订阅