无痛AI记典
发表于 2024年1月

人工智能(Artificial Intelligence,AI)

按字面意思,人工智能就是由人制造出来的机器所表现出来的智能,其最终目标是创造与人类差不多甚至高于人类智能的机器。

就像人有名字一样,创造这些人工智能机器(目前主要是软件形式的模型)的公司们也常常会给它们的模型起名字,比如OpenAI的人工智能机器(模型)叫GPT,它的最终产品叫ChatGPT,而Google的模型叫Gemini,最终与人聊天的产品叫Bard……这些不同维度的产物常常会被笼统地、拟人化地叫作一个个AI。

深度学习(Deep Learning)

简单说,深度学习就是让计算机通过深度神经网络来学习—哈,这句话中又有两个新概念,神经网络和学习。

理解神经网络相对容易,你把它想象成人脑中的神经网络就可以了,它有很多个节点(就像人脑的神经细胞),节点的层与层之间相互连接(就像大脑神经细胞之间的连接)。所谓“深度”,是指这个网络有很多层。

在人工神经网络中,知识以权重的形式存在。而学习,就是根据训练数据来调整神经网络链接上的权重,最终,神经网络的学习成果就是权重。

生成式AI(Generative Artificial Intelligence,GAI)

這个词是最近两年才被创造出来的,与判定式AI相对,提出者不详。2022年之前,你在市面上见过的AI基本都是判定式的,比如人脸识别的主要工作就是判断镜头前的人是不是你、一封邮件是不是垃圾邮件,即当时AI只能以回答yes or no的方式来工作。

现在,ChatGPT能大段大段地回答问题,“生成”一连串的字,还有些AI可以“生成”一张一张的新图片。与判定式AI相比,生成式AI从无到有地创造了大量新内容。这种AI创造内容的状况被称为AIGC(Artificial Intelligence Generated Content),与用户创造内容(Users Generated Content,UGC)、平台创造内容(Platform Generated Content,PGC)相对—社交媒体是典型的UGC,而机构媒体是典型的PGC。

token

模型学习、生成、预测的最小数据单位,就像人类语言的最小单位是字母、单词。一个token的长度可能长于一个单词,也可能短于一个单词,整体而言,100个token大约相当于75个英文单词。

大模型(Large Language Models,LLMs)

看英文翻译你应该就知道了,大模型的全称是“大语言模型”,所以它原本指的只是语言模型。因为基于Transformer架构构建,随着训练数据增加,基于这种架构的语言模型会越来越大—具体表现就是参数越来越多,像GPT-3的参数量达到1750亿,GPT-4的参数量虽然没有公布,但据说有上万亿之多。而从结果上看,模型越大似乎就越智能。

不过在实际使用中,不少人在提到生成式AI的时候会用“大模型”代替,不管它生成的是图像、视频还是蛋白质结构,这种使用方式起初是种误用,但正逐渐被更多人接受。

历史常常就是这样,很多事物的命名一开始都是有点随意的。如果最初发现Transformer的人是研究视觉而不是研究语言的,那大模型一开始很可能指的就是大视觉模型(Large Vision Models,LVMs),而不是大语言模型了。

Transformer

作为一种模型架构,Transformer会让模型越训越大,并且模型越大越智能。从功能上看,Transformer能处理一切可以表达为序列的东西,从自然语言到计算机代码、从图像像素到DNA,或者说,它可以生成带有重复图案或模式的所有东西。

在Transformer被发明之前,处理语言的模型、处理图像的模型和处理DNA的模型,会采用迥异的架构(即专用模型),而Transformer出现之后,图像也不过是另一种语言。

本文刊登于《第一财经杂志》2024年1期
龙源期刊网正版版权
更多文章来自
订阅