当2023年12月新皮层团队策划AI特刊时,围绕生成式AI的创业在经历了一年的竞赛后似乎有了阶段性结果—美国形成了OpenAI和Anthropic两个寡头,中国则是M i n i Ma x和智谱。那时资本市场甚至有声音称,围绕基础模型的竞争格局已定,创业游戏已经结束。不过这一根据经验得出的结论在生成式AI技术浪潮中下得有点过早了。进入202 4年以来的种种迹象表明,游戏远未结束,无论软件还是硬件。
在软件领域,OpenAI推出的Sora暴击了视频生成领域。此前,该领域的模型都只能生成10秒左右的视频,而且帧与帧之间的差异小到容易让人认为那不过是一张gif格式的图片,而非富有运动感的视频。但Sora生成的视频时长能达到一分钟,而且视频中充满运动和视角变化,几乎就像用摄像机拍出来的一样。
Sora发布后,Meta首席AI科学家杨立昆(Yann LeCun)照例在其社交账号上评论称,Sora并没有真的懂物理规律,用专业术语说就是模型内部没有一个根据真实世界模拟出来的“世界模型”,目前的AI仍不能像人一樣根据眼前的状况预测下一步如何行动。而生成式技术也不是通用人工智能(AGI)的最终解决方案。
无论生成式AI已经吸引了多少用户和资本入场,或许杨立昆的说法才是对的。目前已在文、图、视频、代码等多个领域大获胜利的生成式AI,最终可能并不能兑现和人一样的智能。不过,Sora带来的启示和杨立昆的立场一致,那就是人工智能的游戏并未结束。
Runway、Pika等公司都是2023年视频生成领域的明星,估值分别达到15亿美元和2.5亿美元。这两家公司的模型都基于一种叫“扩散模型”的算法,简单说就是通过将高清图像压缩成像素数量有限的模糊图像,再反过来将模糊图像还原成高清图像,让神经网络学习其压缩和还原(即扩散)规律,从而学会图像的生成。

