Sora神话:迄今最具破坏性的网络威胁?
作者 胡泳
发表于 2024年3月

近期,美国人工智能研究公司OpenAI开发的Sora横空出世,引发全球广泛关注。人们一边惊讶于它强大的文本转视频功能,一边忧心于真实与虚假的界限是否会变得更加难以辨别。Sora到底是什么,是一支马良“神笔”,还是一个超级怪物?

Sora的技术成就和局限性

Sora是OpenAI开发的一种先进的文本转视频转换模型,它的功能和应用范围展示了现代人工智能技术的新视野。该模型不仅限于生成几秒钟的视频,还能制作长达一分钟的视频,在保持高视觉质量的同时忠实再现用户指令。对于使用者来说,它仿佛将梦想变为现实。

目前,Sora正处于独家测试阶段,只有部分红队人员(专门负责从对抗的角度对某一计划、战略、政策或产品提出质疑的专家组)、视觉艺术家、设计师和电影制片人可以使用。这一战略举措可确保技术在广泛发布之前,不仅达到而且超过创意和安全的最高标准。一旦Sora可以公开并为更多人所使用,势将在全球范围内产生更加重大的影响。

Sora的技术实力证明了人工智能领域取得的长足进步。Sora代表着从静态图像生成到动态视频创作的飞跃,这是一个复杂的过程,不仅涉及视觉渲染,还涉及对运动和时间进程的理解。这一进步标志着人工智能在解释和可视化时间叙事方面的能力发生了巨大转变,使Sora不仅仅是一个创建视觉效果的工具,更仿佛成为一个讲故事的人。

该突破所带来的冲击波预计将横跨视频创作的各个方面,但它也很可能会从视频发展到三维建模。从目前的演示来看,Sora可以理解提示中描述的元素是如何在物理世界中存在和运行的。这使得该模型能够在视频中准确呈现用户意图的动作和行为。例如,它可以逼真地再现人奔跑的景象或自然现象的运动。此外,它还能精确呈现多个角色的细节、动作类型以及主题和背景的细微之处。

在发布Sora的同时,OpenAI公布了一份相应的技术文档,名为《作为世界模拟器的视频生成模型》。这篇技术论文写道:“我们发现,视频模型在经过大规模训练后,会表现出许多有趣的涌现能力。这些能力使Sora能够模拟物理世界中的人、动物和环境的某些方面。”对Sora如何在内部建立世界模型,英伟达高级研究员Jim Fan博士进行了更深层次的猜测。“如果你认为Sora是一个像DALL-E一样的创意玩具……那就想错了。Sora 是一个数据驱动的物理引擎。”

也就是说,虽然目前Sora被认为仅仅是一个视频生成模型,但像英伟达高级科学家Jim Fan这样的计算机科学家相信,Sora实质上是一个可学习的模拟器(simulator)或世界模型(world model)。这表明,人工智能有可能从大量真实世界的视频和那些考量物理行为的视频(如游戏引擎Unreal Engine中的视频,虽然OpenAI并没有明确提到这一点)中理解物理规律和现象。

果真如此的话,在不久的将来出现文本到3D的可能性非常大。届时,不仅是多角度拍摄的视频,就连虚拟空间(如元宇宙)中的视觉效果制作也能很快由人工智能轻松生成。

从OpenAI目前公布的视频看,制作质量相当高。许多视频都是电影级的;所有视频都有着高分辨率,大多数视频看起来都像是真实的——除非你用慢动作观看。摄影镜头会平移和变焦,人物和场景在3D空间中的移动具备一致性,初看起来,你甚至意识不到自己观看的是合成影像。

为了达到更高的逼真度,Sora 结合了两种不同的人工智能方法。第一种是扩散模型(diffusion model),类似于DALL-E等图像生成器中使用的那种。这类模型通过学习将随机化的图像像素逐渐转换成连贯的图像。第二种是转换器架构(transformer architecture),用于对连续数据进行上下文分析和拼接。例如,大型语言模型即使用转换器架构将单词组合成一般可理解的句子。在视频生成过程中,OpenAI将视频片段分解成视觉的“时空补丁”(spacetime patches),Sora的转换器架构可以对其进行处理。

然而,与任何突破性技术一样,Sora也有自己的局限性。尽管该模型具有先进的功能,但有时仍难以准确模拟更为复杂的场景的物理特性。这可能导致视觉效果虽给人留下深刻印象,但偶尔也会违背物理定律或无法准确呈现因果场景。例如,视频中的角色与物体的交互方式在物理上或许并不可行,也做不到随着时间的推移而保持一致。

所以,虽然Sora号称是在学习物理,但还并不能准确地建立物理模型。OpenAI的官方博客指出,它在模拟物理、理解因果关系和其他简单细节方面遇到了困难。

本文刊登于《中国新闻周刊》2024年9期
龙源期刊网正版版权
更多文章来自
订阅