中国大模型,什么水平?
作者 荣智慧
发表于 2023年9月
2023年7月6日,上海,2023世界人工智能大会,观众参观科大讯飞的讯飞星火认知大模型

半年多以前,ChatGPT横空出世,热钱奔涌。如今,当时的押注迎来了第一批收获。

8月的最后一天,中国多家人工智能大语言模型拿到许可备案,包括百度的文心一言、抖音的云雀、智谱AI的智谱清言、中科院的紫东太初等。此前,这些大模型一直处于内测阶段,即使下载应用也没法注册使用;备案后,它们真正面向社会开放,经受用户的花样考验。

同一天,阿联酋人工智能公司G42推出了Jais大模型,以阿拉伯语和英语数据为基础,供全球4亿多名操阿拉伯语者使用。Jais名字源自阿联酋海拔最高的山峰。G42的投资伙伴包括阿布扎比国家石油公司、财富基金穆巴达拉和阿提哈德航空公司。

全球各个语言文化圈,都为“自己的”大语言模型苦心经营。

更不消说大模型的发源地—硅谷,Meta正在憋一个据说足以挑战ChatGPT的“大招”、比LLAMA-2还“强大几倍”;苹果每个月在人工智能研发上砸下数百万美元;谷歌和微软各自为旗下“王牌”Anthropic和OpenAI招兵买马。

大模型之战,呈现出国家、地区以及内部竞争的火热局面—毕竟肩负着带领全球经济走出低迷的浪漫期待。因此,它是什么,如何运作,以及怎样变现,成为人们最关心的问题。

“注意力是必需”

人工智能时代,本质是大模型时代。

大模型,也叫大语言模型(Large Language Model,LLM)、多模态模型(multimodal model)。最火爆的GPT,是大模型的一种形态,G代表生成性的(generative),P代表预训练(pre-trained),T代表变换器(transformer)。

大模型的“大”,是指模型参数至少达到1亿以上。像GPT-3的参数规模是1750亿。大模型之外,还有“超大模型”,通常拥有数万亿到数千万亿参数。大模型和超大模型的主要区别,就在于模型参数数量的多寡、计算资源的需求和性能表现。

如今绝大多数大模型,都算得上“超大模型”,比如1.6万亿参数的谷歌switch transformer,1.9万亿参数的快手推荐精排模型,1萬亿参数的阿里达摩院M6等等。

因为参数规模膨胀得比较厉害,“超大模型”都不大有人叫了,一律都用“大模型”概括。

模型,通常是一个函数或者一组函数,以线性函数、非线性函数、决策树、神经网络等各种形式呈现。模型的实质,就是对这个/组函数映射的描述和抽象。训练和优化各种模型,就能够得到更加准确和有效的函数映射。模型的目的,是为了从数据中找出一些规律和模式,好预测未来。

而且参数越多,模型就越“高端”,就可以处理更丰富的信息,具备更高的准确性。大模型一般用来解决自然语言处理、电脑视觉和语音辨识等复杂任务。

大模型是人工智能领域“联结学派”的“胜利”。

七十年来,人工智能研究者大概分为三个派别:符号学派、联结学派和行为学派。符号学派,也叫逻辑主义学派,主张通过电脑符号操作来类比人的认知过程和大脑抽象逻辑思维。联结学派,又称仿生学派,强调对人类大脑的直接类比,认为神经网络间的连接机制与学习方法能够产生人工智能。

本文刊登于《南风窗》2023年20期
龙源期刊网正版版权
更多文章来自
订阅