Sora开启AI投资新时代
作者 李壮
发表于 2024年3月

编者按

  红唇长发美女在东京街头漫步、猫咪犹疑不定尝试叫醒晨睡的主人、一位时尚青年在云端读书……这些看起来像大片一样的视频,是Sora的文生视频的片段。

  自2月16日问世以来,关于Sora文生视频的话题仍持续在国内外社交平台发酵。与Sora相关的公司如微软、英伟达也登上了舆论关注顶点乃至市值顶峰。

  春节后的A股市场,AI概念也持续活跃。此外,在本周三,苹果也表示,今年将在生成式人工智能领域开辟新天地。

文生视频大模型由用户提供关键词然后自动生成而来。事实上,文生视频领域竞争激烈,国内文生视频大模型领域在3—15秒文生视频方面持续调优。但Sora直接把文生视频的时间长度放大到60秒,而且具备高清晰度、人物表情丰富、情感细腻等特征。对此,腾讯TVP智慧零售行业大使、中国信通院低代码/无代码推进中心技术专家、广东数字经济专委会副主任委员沈欣向本刊表示,Sora让许多大模型的调优工作归零,这是为何Sora的出现引起全球关注。

Sora的运营公司OpenAI称,视频生成模型是有希望向构建通用物理世界模拟器迈进的路径。这一句豪言壮语同样引起业界的关注,许多观点认为Sora将改变世界,促进AI推动的新一轮产业革命提前到来。对OpenAI的“声名”,OpenAI大模型用户、中国科协国促会数字科技发展委员会执行会长、世界紧急救援组织全球尖端科技专家委员会首席科学家万家乐向本刊介绍表示,OpenAI的说法“并不夸张”。

事实是否如此虽然还是未知数,但二级市场的反应却极为活跃。对国内文生视频领域以及受影响的行业而言,万家乐指出,无论Sora多么先进,它必须以更多的社会知识(包括经验)来不断“喂养”,而中国改革开放40多年来的知识和经验积累会是其必须学习的内容,那么垂直行业和领域就充满了机会,该领域被统称为代理(Agent)。沈欣则认为,大模型领域应该集中投入而不是百家混战,从AI体系而言,未来半年到一年半,系统应用、培训、集成硬件、硬件研发等领域将看到积极的利润回馈。

Sora是一场意外?

[“Sora的运行逻辑已经发生根本改变。可能已经能够有一定思考地自主完成工作,这种能力可以归结为‘涌现’。”]

据万家乐介绍,Sora研发团队共13人,其中有两名华裔、一名华人和一名印度人。该团队原本是在大模型基础上开发应用引擎。这支团队在技术原理上相比传统方法做了一些修改,即“将各类视觉数据转化为统一表示的方法,以实现生成式模型的大规模训练。但带来了意想不到的效果,生成出跨越不同时长、宽高比和分辨率的视频和图像,生成长达一分钟的高清视频。”

Sora推出的幾十段视频显示,无论用户是以十几个字的关键词还是以300-400字小段话的形式提示,Sora都能生成完整、高质量视频,这似乎显示其具备了一定的理解能力。有分析认为,Sora带来了更长时间、更高分辨率和更能理解用户意图的文生视频呈现,朝着通用人工智能(AGI)迈出重要一步。

OpenAI在推出Sora视频片段后表示,视频生成模型是通向“物理世界模拟器”的一条路,并指出Sora掌握了许多关于真实世界的物理规律。

对此,万家乐指出,“说Sora掌握了一些真实物理世界的规律,没有夸张。传统的文生视频是一帧一帧地连接,所以只能做15秒以内视频,做长一点的视频就会有难以克服的工作量出现。Sora有两个跨时代的性能实现,一是,效果逼真。电影特效全部建立在物理建模基础上,一个电影片花过去需要花费100万美元,发展多年的数字建模一直想取代物理建模,但仍远远不能满足应用需要。如今Sora有可能突破物理建模瓶颈。二是,Sora生成视频时长轻松突破60秒。如果传统的文生视频做同样长度的视频,包括Pikal、Runway这些文生视频公司,不仅工作量可能无法克服,甚至成本也无法承担,因为大模型训练一次就需要500万美元,从15秒跨到60秒,这个训练成本就会阻挡很多公司跟进。”

Sora为什么能做到以上两大突破?在万家乐看来,Sora的运行逻辑已经发生根本改变。所有传统文生视频都以正向建模、人为控制向前演进,而Sora可能已经能够有一定思考地自主完成工作,这种能力可以归结为“涌现”。

按照百度解释,涌现是一种从低层次到高层次的过渡,是在微观主体进化的基础上,宏观系统在性能和机构上的突变,在这一过程中从旧质中可以产生新质。与涌现相对的是熵增,一个孤立系统的总混乱度(即熵)只能增加不会减小。

万家乐指出,Sora最核心的能力就是涌现。“传统文生视频大模型是数据仓库、数据建模、数据分析最后算法的一个结果,是没有捷径可走的。举例说,1+1=2,那么大模型必须是1+1才等于2。Sora则是逆向工程,2=1+1,甚至以其他无数可能得到2,这就是涌现。这种能力即便是OpenAI,也不知道Sora为何拥有涌现能力。我甚至认为,Sora已经‘out of control’,‘失控了’,我们在看到精美的视频的时候是完全不知道它是如何做到的。”

当理解了Sora的不同之处,或许能理解在其发布之时,OpenAI首席执行官萨姆·奥特曼为何一天内发了15条推文,之前他很少发推文,几乎不发。

打通元宇宙瓶颈

[“尽管OpenAI称Sora会带来迭代创新,但我们还是应该关注整个数字科技体系的价值,而不仅仅是看某一项技术的价值。”]

不过,正向建模支持者——图灵奖获得者、Meta首席科学家杨立昆(Yann LeCun)认为,仅仅根据prompt(提示)生成“逼真”视频,并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

对此,沈欣指出,“从Sora目前公开出来的技术来看,就像图灵获得者说的,是做不到仿真物理世界的。举个例子,有一个人一直站在这儿观察苹果从树上掉落到地上,那么他就能从中总结出牛顿定律吗?这不太可能,因为这里面还差了一个层次,这个层次不是用数据的堆积、算力的堆积能够解决的,这是一个认知或者说哲学上的问题,目前的AI在这个地方还差一点。”

Sora生成视频的质量主要由其训练的素材质量和数量决定,微软就提供了千亿级的原始视频资料。比如,Sora生成的一段《我的世界》游戏场景的视频,生成的质量极高,这就是因为其拥有这方面足够多的高质量的视频类素材去训练它。沈欣指出,“Sora在定性方面做得很好,比如说它可以生成一个男性,生成一个女性,生成一个小孩,生成一个穿着红颜色衣服的人,这种定性它已经能做得很好。但如果让它生成一个50%透明度的蒙层效果,就做不到,这种定量上面是有问题的。我说Sora更像一个梦境,就是指它如果要模拟真实的物理世界的话,方向上是錯误的,无论视频训练资料多丰富都不等于真实的物理世界本身。当然它可能还有其他没有公开出来的技术,等到公开的时候我们可以再跟进分析。”

从已公开的Sora视频缺陷看,OpenAI在官网上展示出Sora无法准确模拟如玻璃破碎、吃东西并非每次都能留下咬痕等缺陷。从全网“找不同”来看,Sora视频的小毛病还很多,比如,沈欣发现,最著名的美女东京街头漫步的视频,就存在主人翁两个脚迈步走的动作不对的情况。还有一个画家画画的视频,在个别帧中画家的笔还没碰到就已经出现了颜色。Sora为什么会出现这种瑕疵呢?本质上就是它是大量视频素材、大量芯片堆积的一个结果,所谓的“力大砖飞”,而不是真的懂了物理世界。“就像猴子,它不需要懂牛顿力学就能在树林间蹿跳。”

但万家乐并不认为微软发挥了太大作用,“微软在Sora出现的过程中发挥作用有限,每一个使用者是最伟大的,而不是微软伟大。就是说,大模型真正的力量是开源和共识,用的人越多越强大。或许正是用得多,才有涌现的产生。”他说。

没人能断言Sora是否懂得或正在懂得真实的物理世界,但不影响它对经济的改造,比如元宇宙。因为元宇宙承载的内容不需要遵循真实的物理世界,同时元宇宙当前发展的一个瓶颈就是内容生成问题,从这个角度来讲,Sora可以把元宇宙的内容生成瓶颈给快速突破。

同时,Sora还将让OpenAI获得更多的关注和投资。据悉,OpenAI最近完成一笔交易,其估值达到800亿美元,相比10个月前的估值增长近两倍。也是Sora发布之后,奥特曼公开表示,要拿7万亿美元重构整个AI芯片体系,这些资金也将向社会募集。

如果从数字科技和数字经济的角度来看Sora,中国资深投资银行家、太和智库高级研究员王世渝向本刊表示,“从数字科技的角度看,Sora是人工智能领域的一个里程碑。

本文刊登于《证券市场周刊》2024年8期
龙源期刊网正版版权
更多文章来自
订阅