Sora背后的“王炸”团队-葫芦时刻

Sora背后的“王炸”团队

作者冯璐　梁钰诚

发表于 2024年3月

霓虹闪烁的东京街头，一名红裙黑靴、戴太阳镜的时髦女子款款走来。她身后广告牌出现的位置，潮湿街道的镜面效果，墨镜中的光影，还有其脸部的肌理、雀斑，都完全符合真实的世界。

这是近日“横空出世”的文生视频模型Sora输出的一部作品——仅凭几句描述，它立马能生成60秒的连贯视频，大片质感，镜头百变，如梦似幻。人山人海的龙年春节、火车窗外的倒影、戴红头盔的宇航员在沙漠中冒险……模拟真实场景的超强能力，使得Sora一问世就立即引爆全球，甚至连在人工智能领域一向野心勃勃的特斯拉CEO埃隆·马斯克也“坐不住”了。他很快在社交媒体上对此评价说：“人类愿赌服输。”

时代变革的钟声，似乎已经敲响。“Sora的最大意义，并非只是文生视频，而是意味着大模型可以认知世界，例如在智能驾驶领域从‘感知’升级到‘认知’，并且这还不是全部。”太和智库大数据研发首席专家、车车科技董事长张磊对《环球人物》记者说。不少业内人士认为，Sora可以被看作是通往通用人工智能的一座里程碑。

“世界模拟器”

Sora是美国人工智能巨头OpenAI的新产品。此前，OpenAI旗下已经有自动语音识别系统Whisper、图像生成模型DALL-E等产品。

正是在以往的技术范式之上，OpenAI做出了新产品Sora。以2021年推出的DALL-E模型为例，其可根据用户输入的描述生成图像。据官方说法，他们利用DALL-E的数据集重描述功能，给训练Sora用的视频素材加上了高质量文本描述，以提高输出视频的质量。目前的Sora，不仅可以理解用户在提示中提出的要求，还能理解它们在物理世界中的存在方式。官方称之为“世界模拟器”。

OpenAI的CEO山姆·奥特曼甚至直接在社交媒体上根据网友评论为大家制作Sora视频。有人提出想要“一段海上自行车比赛的视频，让各种动物作为运动员骑自行车”。奥特曼在回复中发布了视频，里面有企鹅、海豚和其他水生生物骑自行车。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程，背景是一个质朴的乡村厨房，并配有电影级的灯光”，之后Sora生成了另一段视频：一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。

在 Sora 官方介绍页里，无数纸飞机在丛林中翩翩起舞、自由飞翔，如同正在穿梭的候鸟。在日语中，Sora 的引申义是“自由”。这或许意味着，每个人都可以通过Sora自由展示想象空间。

精准贴合文字指令和极致真实是Sora作品给人的第一印象。咖啡杯里浮沉的海盗船，符合流体力学；都市内虚空巡游的鲸鱼，遵从无形潮汐……这些作品意味着，Sora不是在虚构世界，而是在生成世界。

360创始人周鸿祎在社交媒体上表示，Sora的诞生意味着通用人工智能实现可能从10年缩短至一两年。通用人工智能是指能在复杂动态环境中，学习并完成多样任务的人工智能。

Sora并非首个文生视频大模型。2023年，Pika Labs发布首个产品Pika 1.0，能生成和编辑3D动画、动漫、卡通和电影，被视为零门槛“视频生成神器”。Runway、谷歌Lumiere视频AI生成模型、Stability AI的SVD1.1也相继问世。

不过，之前的AI 生成视频时间短，且易卡顿。Sora则弯道超车，单次能生成60秒的连贯视频。“之前的类似产品能生成10秒钟的视频，这次的Sora是1分钟，算是比较突出的量变。”智源研究院理事长、北京大学教授黄铁军说。

此外，Sora用户还可以输入图片转成视频，或更换视频中的元素，甚至把两个不相关的视频自然拼接起来，自主为视频补帧。这说明Sora能够模拟物理世界，并有一些预测能力。

据中信证券研报，如果后续持续扩大模型及训练集的规模，以Sora为基础的模型可能做到模拟世界，成为真正的“世界模型”。“通用人工智能要拥有世界模型，然后基于自己对世界模型的理解描述来行动。”黄铁军说，“Sora内部的这种世界模型的表达，在接近真实的程度方面有较大提高，可以说是走向通用人工智能的重要台阶。”

黄铁军指出，包括OpenAI在内的科研企业或机构，目的都是研究智能越来越强的基础大模型，运行起来会对各行各业产生影响，智能会成为越来越强的社会要素。

应届生领衔，“00后”入列

Sora“技惊四座”之后，其背后的团队也来到了聚光灯中心。

事实上，该研发团队成立时间还不到一年，成员背景多元，大多行事低调。这支集技术和艺术，博士和本科生，美国人、印度人和华人等为一体的团队，为Sora这一变革性AI模型的诞生提供了无限可能性。

本文刊登于《环球人物》2024年5期

龙源期刊网正版版权

环球人物

2024年5期

查看本期目录

更多文章来自