中国大模型，什么水平？-葫芦时刻

依法合规经营，保障用户权益是我们的生命线，对于部分广告发布者为牟取高收益侵犯用户权益行为，我司将通过法律途径追责到底！

中国大模型，什么水平？

作者荣智慧

发表于 2023年9月

半年多以前，ChatGPT横空出世，热钱奔涌。如今，当时的押注迎来了第一批收获。

8月的最后一天，中国多家人工智能大语言模型拿到许可备案，包括百度的文心一言、抖音的云雀、智谱AI的智谱清言、中科院的紫东太初等。此前，这些大模型一直处于内测阶段，即使下载应用也没法注册使用；备案后，它们真正面向社会开放，经受用户的花样考验。

同一天，阿联酋人工智能公司G42推出了Jais大模型，以阿拉伯语和英语数据为基础，供全球4亿多名操阿拉伯语者使用。Jais名字源自阿联酋海拔最高的山峰。G42的投资伙伴包括阿布扎比国家石油公司、财富基金穆巴达拉和阿提哈德航空公司。

全球各个语言文化圈，都为“自己的”大语言模型苦心经营。

更不消说大模型的发源地—硅谷，Meta正在憋一个据说足以挑战ChatGPT的“大招”、比LLAMA-2还“强大几倍”；苹果每个月在人工智能研发上砸下数百万美元；谷歌和微软各自为旗下“王牌”Anthropic和OpenAI招兵买马。

大模型之战，呈现出国家、地区以及内部竞争的火热局面—毕竟肩负着带领全球经济走出低迷的浪漫期待。因此，它是什么，如何运作，以及怎样变现，成为人们最关心的问题。

人工智能时代，本质是大模型时代。

大模型，也叫大语言模型（Large Language Model，LLM）、多模态模型（multimodal model）。最火爆的GPT，是大模型的一种形态，G代表生成性的（generative），P代表预训练（pre-trained），T代表变换器（transformer）。

大模型的“大”，是指模型参数至少达到1亿以上。像GPT-3的参数规模是1750亿。大模型之外，还有“超大模型”，通常拥有数万亿到数千万亿参数。大模型和超大模型的主要区别，就在于模型参数数量的多寡、计算资源的需求和性能表现。

如今绝大多数大模型，都算得上“超大模型”，比如1.6万亿参数的谷歌switch transformer，1.9万亿参数的快手推荐精排模型，1萬亿参数的阿里达摩院M6等等。

因为参数规模膨胀得比较厉害，“超大模型”都不大有人叫了，一律都用“大模型”概括。

模型，通常是一个函数或者一组函数，以线性函数、非线性函数、决策树、神经网络等各种形式呈现。模型的实质，就是对这个/组函数映射的描述和抽象。训练和优化各种模型，就能够得到更加准确和有效的函数映射。模型的目的，是为了从数据中找出一些规律和模式，好预测未来。

而且参数越多，模型就越“高端”，就可以处理更丰富的信息，具备更高的准确性。大模型一般用来解决自然语言处理、电脑视觉和语音辨识等复杂任务。

大模型是人工智能领域“联结学派”的“胜利”。

七十年来，人工智能研究者大概分为三个派别：符号学派、联结学派和行为学派。符号学派，也叫逻辑主义学派，主张通过电脑符号操作来类比人的认知过程和大脑抽象逻辑思维。联结学派，又称仿生学派，强调对人类大脑的直接类比，认为神经网络间的连接机制与学习方法能够产生人工智能。

本文刊登于《南风窗》2023年20期

龙源期刊网正版版权

更多文章来自