全网刷屏的Sora有多“可怕”-葫芦时刻

全网刷屏的Sora有多“可怕”

作者王一鹏

发表于 2024年3月

2月16日凌晨，在没有任何预兆和消息透露的情况下，OpenAI 突然发布了自己的首个文生视频模型：Sora，大幅刷新行业多个指标，重新定义了 AI 文生视频在现阶段的技术极限，颠覆了生成式 AI 在视频领域的全球市场格局。

Sora 使用 Transformer 架构，建立在 DALL·E 3 和 GPT 模型之上，可以生成长达一分钟的有运动、多机位视频。相比业界水平，Sora 将视频生成的时长一次性提升了 15 倍，直接迈过了市面上所有短视频的时长要求。

同时，Sora 也带有世界模型的特质。世界模型不是 AI 视频生成的必需要素，却是这个领域较为高端的一个研究方向。所谓世界模型，简单点说，是要对真实的物理世界进行建模，让机器像人类一样，对世界有一个全面而准确的认知。视频与文字不同，大多数是在描绘一个主体，在一个真实或虚构的物理世界中的动作，因此，世界模型会让 AI 视频生成更流畅、更符合逻辑，降低视频模型的训练成本，提升训练效率。同时，世界模型也为生成式 AI 真正进入自动驾驶行业铺好了路。

此次，Sora 的世界模型，已经能帮助它还原一辆越野车在山区小路上的行驶情况，在视频中添加逼近真实的倾斜和颠簸感。

但 Sora 的世界模型仍有非常多的问题，比如，一块饼干被咬过之后，却没有留下咬痕。OpenAI 非常实在，把这些问题都写在了官网上。

目前，Sora 仅开放给了少部分人进行内测，据称是一些视觉艺术家、设计师和电影制作人。同时，OpenAI 内部仍在进行模型伦理侧的对抗性测试，比如错误信息、仇恨内容、偏见内容，至于色情暴力，则会在文本输入时，就被拒绝掉。

对于 Sora，今天的我们，必须注意到几个显而易见的推论：

1.OpenAI 一拳打在了所有人的肝上：全球的 AI 视频生成赛道投资逻辑，乃至相关企业的生存逻辑，在此刻都已经改变了。未来一个季度内，如果该企业的视频生成能力，仍然停留在 4s，或导致直接出局。

2.AI 已经快速迈过文生文、Chatbot时期，大步进军视频生成领域：当下最火的短视频、短剧，将迎接 AI 的到来；那些卡在瓶颈上的领域，比如自动驾驶、智慧城市，或将迎来突破。

3.不要过度神话 Sora 或其他 AI 视频生成工具，当下仍有巨量的技术、产品、商业问题等待解决；但也不要低估 AI 技术的进步速度，那个凝固在未来时光中、让人看不清面貌的 AGI（通用人工智能），正在向我们迈步。

Sora到底牛在哪儿？

就在年前，2024年 1月27 日，虎嗅举办了一场关于 AI 视频生成的开放沙龙，会上有一个有趣的互动：AI 视频生成多快迎来 Midjourney 时刻？

选项分别是半年内、一年内、一至两年或更长。

本文刊登于《科学大观园》2024年6期

龙源期刊网正版版权

科学大观园

2024年6期

查看本期目录

更多文章来自