大模型+手机,安卓与苹果的分歧
作者 荣智慧
发表于 2024年1月

把ChatGPT放进口袋需要几步?

在手机上运行生成式人工智能,而不是靠巨头的服务器,是最热门的科技潮流之一。

安卓手机率先抢占潮头。

2023年年初,高通展示了第一款运行Stable Diffusion“文生图”模型的安卓手机,该模型具有约10亿个参数。当年年底,谷歌公布Gemini的Nano版本可以直接嵌入安卓系统。据称,三星Galaxy手机将于2024年具备AI功能,运行大模型LLM2的微缩版。

中国手机商小米、荣耀、vivo和OPPO,先后宣布新一代旗舰机型包含“生成式人工智能”功能。

热潮之下,苹果公司显得分外沉默。

无论是手机制造商,还是芯片制造商,都希望AI重振智能手机市场。智能手机刚刚经历了十年来最糟糕的一年,出货量下降5%。

AI手机不上云

高通先亮出了“无损”运行Stable Diffusion的配置。

Stable Diffusion是利用生成式人工智能来完成“文生图”的火爆应用之一,和Dall-E 2、Midjourney齐名。

Stable Diffusion属于深度学习家族,工作人员会逐步给图像添加“噪点”,通过模型记录添加噪点的过程,再进行逆转,供AI学习。

噪点,也叫噪声,是指数码摄影器材拍摄的图像中,存在的粗糙点,一般受电子干扰产生。

从AI的角度,先看到的是一幅布满噪点的画面,再看到画面一点点变清晰,最后成为画作。AI学的是整个去噪点的过程,特别是如何处理高斯噪声(概率密度函数服从正态分布的噪声),最后生成画作。

Stable Diffusion的功能是,可以在几秒内将文本转换为512x512像素的图像;图像可以转换、放大、修改和替换;使用GFP-GAN建模,允许用户上传模糊的面部图像,进行放大或恢复原貌。

用手机玩这类应用,人人都能随时当毕加索。

其实,“AI手机”具体能运行哪些模型和应用,目前评估为时过早。今年上市的第一批AI手机中,可能会包含一些“相对基础”的应用,比如语音控制照片编辑、简单问答等,模型参数在10亿到100亿之间。

像荣耀展示的下一代旗舰机Magic,用户通过自然语言发出指令,能让AI自动查询相册里的拍摄素材,并寻找合适的部分整合成一段视频。

号称“超越GPT-4”的谷歌Gemini的Nano版,也将落户谷歌自家手机Pixle。

Gemini为“原生”多模态大模型,可以泛化理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。届时用户可以在手机感受“具有Bard体验的高质量智能助手能力”。

本文刊登于《南风窗》2024年2期
龙源期刊网正版版权
更多文章来自
订阅