Sora背后的“王炸”团队
作者 冯璐 梁钰诚
发表于 2024年3月

霓虹闪烁的东京街头,一名红裙黑靴、戴太阳镜的时髦女子款款走来。她身后广告牌出现的位置,潮湿街道的镜面效果,墨镜中的光影,还有其脸部的肌理、雀斑,都完全符合真实的世界。

这是近日“横空出世”的文生视频模型Sora输出的一部作品——仅凭几句描述,它立马能生成60秒的连贯视频,大片质感,镜头百变,如梦似幻。人山人海的龙年春节、火车窗外的倒影、戴红头盔的宇航员在沙漠中冒险……模拟真实场景的超强能力,使得Sora一问世就立即引爆全球,甚至连在人工智能领域一向野心勃勃的特斯拉CEO埃隆·马斯克也“坐不住”了。他很快在社交媒体上对此评价说:“人类愿赌服输。”

时代变革的钟声,似乎已经敲响。“Sora的最大意义,并非只是文生视频,而是意味着大模型可以认知世界,例如在智能驾驶领域从‘感知’升级到‘认知’,并且这还不是全部。”太和智库大数据研发首席专家、车车科技董事长张磊对《环球人物》记者说。不少业内人士认为,Sora可以被看作是通往通用人工智能的一座里程碑。

“世界模拟器”

Sora是美国人工智能巨头OpenAI的新产品。此前,OpenAI旗下已经有自动语音识别系统Whisper、图像生成模型DALL-E等产品。

正是在以往的技术范式之上,OpenAI做出了新产品Sora。以2021年推出的DALL-E模型为例,其可根据用户输入的描述生成图像。据官方说法,他们利用DALL-E的数据集重描述功能,给训练Sora用的视频素材加上了高质量文本描述,以提高输出视频的质量。目前的Sora,不仅可以理解用户在提示中提出的要求,还能理解它们在物理世界中的存在方式。官方称之为“世界模拟器”。

OpenAI的CEO山姆·奥特曼甚至直接在社交媒体上根据网友评论为大家制作Sora视频。有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车”。奥特曼在回复中发布了视频,里面有企鹅、海豚和其他水生生物骑自行车。有人向奥特曼要一段“由一名祖母辈的网红主持的自制团子烹饪课程,背景是一个质朴的乡村厨房,并配有电影级的灯光”,之后Sora生成了另一段视频:一位身穿围裙、面带微笑的白发女士邀请观众进入她的厨房。

Sora生成作品:女子漫步在霓虹闪烁的东京街头。

在 Sora 官方介绍页里,无数纸飞机在丛林中翩翩起舞、自由飞翔,如同正在穿梭的候鸟。在日语中,Sora 的引申义是“自由”。这或许意味着,每个人都可以通过Sora自由展示想象空间。

精准贴合文字指令和极致真实是Sora作品给人的第一印象。咖啡杯里浮沉的海盗船,符合流体力学;都市内虚空巡游的鲸鱼,遵从无形潮汐……这些作品意味着,Sora不是在虚构世界,而是在生成世界。

360创始人周鸿祎在社交媒体上表示,Sora的诞生意味着通用人工智能实现可能从10年缩短至一两年。通用人工智能是指能在复杂动态环境中,学习并完成多样任务的人工智能。

Sora并非首个文生视频大模型。2023年,Pika Labs发布首个产品Pika 1.0,能生成和编辑3D动画、动漫、卡通和电影,被视为零门槛“视频生成神器”。Runway、谷歌Lumiere视频AI生成模型、Stability AI的SVD1.1也相继问世。

不过,之前的AI 生成视频时间短,且易卡顿。Sora则弯道超车,单次能生成60秒的连贯视频。“之前的类似产品能生成10秒钟的视频,这次的Sora是1分钟,算是比较突出的量变。”智源研究院理事长、北京大学教授黄铁军说。

此外,Sora用户还可以输入图片转成视频,或更换视频中的元素,甚至把两个不相关的视频自然拼接起来,自主为视频补帧。这说明Sora能够模拟物理世界,并有一些预测能力。

据中信证券研报,如果后续持续扩大模型及训练集的规模,以Sora为基础的模型可能做到模拟世界,成为真正的“世界模型”。“通用人工智能要拥有世界模型,然后基于自己对世界模型的理解描述来行动。”黄铁军说,“Sora内部的这种世界模型的表达,在接近真实的程度方面有较大提高,可以说是走向通用人工智能的重要台阶。”

黄铁军指出,包括OpenAI在内的科研企业或机构,目的都是研究智能越来越强的基础大模型,运行起来会对各行各业产生影响,智能会成为越来越强的社会要素。

应届生领衔,“00后”入列

Sora“技惊四座”之后,其背后的团队也来到了聚光灯中心。

事实上,该研发团队成立时间还不到一年,成员背景多元,大多行事低调。这支集技术和艺术,博士和本科生,美国人、印度人和华人等为一体的团队,为Sora这一变革性AI模型的诞生提供了无限可能性。

本文刊登于《环球人物》2024年5期
龙源期刊网正版版权
更多文章来自
订阅