
2023年4月,Twitter(现已改名为X)上出现了一个轰动性的广告。配合富有动感韵律的背景音乐,一个中年男性声音在向人们推销名为“PepperoniHugSpot”的比萨店,卖点是芝士够多,并且提供外卖服务。
整个广告片长30秒,内容没什么新奇的,引人点击的是制作方法。名为PizzaLater的Twitter用户创作了这个视频,所用工具从脚本到镜头、从旁白声音到音乐,全是AI:餐厅的名字和广告脚本都来自于GPT-4,包括那句“(这家店的比萨)像家人一样,但有更多芝士”;视频中的静止帧来自于Midjourney,它负责生成了“有1980年代比萨店外观、画面有颗粒感”的照片;接着,他打开了文生视频工具Gen-2,让它根据脚本生成了30多个视频片段,Later选择了其中最好的16个片段用于最终剪辑;他还使用了另一项AI服务ElevenLabs,将GPT-4编写的脚本输入到一系列预设的AI声音中,修改音调直到满意为止;最后,他用Adobe的剪辑工具AfterEffects把以上所有AI生成的东西组装到一起,一部完全由AI创作的广告片就完成了。
这部广告片在品质上远称不上优秀,甚至有点怪异,画面中顾客的下巴有时候会不受控地抽搐,还有顾客的嘴巴并不能真的把比萨吃进去,反而会因进食动作导致嘴巴本身变形。不过,数以万计的人积极地想要观看这部广告,光是在Twitter上它就有35万点击,YouTube上的点击则达到116万,超过不少比萨品牌聘请大型广告公司精心制作的作品。
整个广告制作涉及文字生成、图片生成、声音生成和视频生成,其中最难的是视频。为上述广告片生成视频片段的AI工具Gen-2,来自于美国纽约的人工智能公司RunwayML(以下简称“Runway”)。
面向创意人士开发AI图像编辑工具
Runway公司的创立有点像好莱坞电影鼓吹的“美国梦”创业故事。
克里斯托瓦尔·瓦伦苏埃拉(CristóbalValenzuela)在智利工作期间发现了美国新媒体艺术家金·高根(GeneKogan)关于神经风格迁移的工作成果,开始对神经网络产生兴趣,而后辞掉工作,于2016年去纽约大学学习交互通讯(InteractiveTelecommunicationsProgram,ITP)课程。也就是在学习ITP课程期间,他遇到了智利人亚历杭德罗·马塔马拉-奥尔蒂斯(AlejandroMatamala-Ortiz)、希腊人安娜斯塔西娅·杰曼尼蒂斯(AnastasisGermanidis),与他们组成了创业团队。
瓦伦苏埃拉本身没有技术背景,他本科学的是经济和商业管理,而后又获得了设计专业的硕士学位,曾经在智利圣地亚哥的阿道夫·伊瓦涅斯大学教授设计。

相比之下,另两位联合创始人都在技术和产品领域有工作经验。杰曼尼蒂斯曾經在卫斯理大学学习计算机科学,做过产品工程,还曾在IBM担任计算机视觉研究员。奥尔蒂斯有产品设计和前端开发经验,还在智利创立过牙医在线预约平台Deenty。
瓦伦苏埃拉的创业项目来自于ITP项目的研究成果。在纽约大学学习期间,他花了两年学习AI技术和知识,包括李飞飞的图像数据库ImageNET、卷积神经网络AlexNET。

