生成式AI迎来中国独角兽
作者 王姗姗
发表于 2024年1月
智谱是目前获得外部投资最多(25亿元人民币)的中国初创AI公司,与搜狗创始人王小川创立的百川智能融资规模(3.5亿美元)相当。同时,它也是国内少数估值达到10亿美元的AI初创公司,另外两家是百川智能和MiniMax。

自ChatGPT发布以来,“大模型”一词也跟着陷入通胀,国内的大模型竞争被描述为“百模大战”,各种新概念被不断抛出—金融大模型、工业大模型、天气大模型甚至政务大模型……这种语言上的通胀困扰的不只是用户,还有上游开发大模型的公司和CEO们。

但是,中国到底有多少家做基础大模型(Foundation Model)的初创公司?智谱AI的CEO张鹏给出的答案是“一只手就数得过 来”。

智谱是目前国内少数估值达到10亿美元的AI初创公司之一,另外两家是百川智能和MiniMax。2023年10月27日,这家公司刚刚发布对标GPT-4的多模态模型ChatGLM3。但是,令张鹏困扰的问题,除了美国的AI芯片禁令,还有如何让公司的模型在混乱的市场中被看到并找到客户。

如果用L0层和L1层来区分,那么市面上大部分模型都是L1层的行业模型,只有少数才是L0层的基础模型,前者需要基于后者做针对某个行业的继续训练。这是华为提出来的概念,张鹏认同这种区分,不过整个市场的意见并不统一,尤其是从面向终端用户的角度。

没有人知道这種混沌状况会持续多久,与此同时,生成式AI高昂的研发成本和用户增长瓶颈等问题又冒了出来—每家公司都需要在多重挑战中选择自己做什么不做什么、跟随或者不跟随,以及如何投入资源去跟上自己认为重要的目标。

以下是我们与智谱CEO张鹏的对话,他谈到了智谱通过对标OpenAI提升模型水平的过程、生成式AI的成本问题、要不要从L0往上做L1的抉择、B端市场的挑战以及做C端应用的逻 辑。

Yi:YiMagazine

Zh:张鹏

从清华实验室到独立公司

Yi:智谱的背景是清华的实验室,后来你们出于什么原因认为有必要成立一家创业公司?

Zh:我们实验室(注:指清华大学知识工程研究室)1996年就成立了。19 98年我进清华计算机系念书,2005年硕士毕业后就一直留在实验室工作。我们20 0 6年开始做的一个项目叫AMiner,它是一个技术情报挖掘系统,系统本身倒不是很特别,最有价值的部分还是底层的A I算法,包括传统的机器学习算法、数据挖掘方法,还有知识图谱 等。

2017年,我们已经开始服务很多客户,于是就想做一些研究成果转化和产业化落地的事。我们想了各种办法,到2019年才把这条路走通。

Yi:你们在2022年8月推出的第一个大模型GLM-130B是1300亿参数,2023年推出的ChatGLM与之相比,最大的迭代是什么?

Zh:就像GPT-3迭代到ChatGPT这样的关系,它是一个不同阶段的迭代,并不是在同一个模型的基础上。最大的差异不是参数规模,而是训练采用的数据以及训练方法的迭代。

早期无论是我们的GLM-130B,还是OpenAI的GP T-3,都不能识别人类的意图到底是什么,后来加上有监督的指令微调(Supervised FineTuning,SFT),再加上一些基于人类反馈的强化学习(Reinforcement Learningwith Human Feedback,RLHF)才达到现在ChatGPT和ChatGLM的效果。

Yi:现在大家都在比拼参数大小,参数可以说明模型能力 吗?

Zh:参数大小构成模型能力的天花板。参数越大,一般来说潜力越大,它能够学习更多的东西,不产生灾难性的遗忘,不产生太多幻觉,学习更多的东西时也很稳定。但是千亿参数的模型如果不加入SFT、RLHF这些步骤,它也会胡说八道,也会有很多幻觉。

Yi:从资源投入的角度,大公司和初创公司的做法有何区别?

Zh:大公司有比较丰厚的资源,选择面也更宽,创业公司就需要更聚焦。我们是国内第一家做大语言模型的创业公司,正因为我们比较聚焦,所以在大语言模型的效果上才会有一个比较领先的身位。

本文刊登于《第一财经杂志》2024年1期
龙源期刊网正版版权
更多文章来自
订阅