AI的“黑匣子”不再那么神秘了

当今领先的人工智能系统有一个比较奇怪且令人不安的地方:没有人真正知道这些系统是如何运作的,连一手缔造它们的人也不知 道。
这是因为大语言模型,即驱动ChatGPT和其他热门聊天机器人的人工智能系统,并不像传统的计算机程序那样是由人类工程师逐行编程得来的。这些AI系统基本上是靠自学,它们会吸纳大量的数据,识别语言中的模式和关系,然后利用这些知识来预测信息序列中的下一个单词。
以这种方式构建AI系统的一个后果是,人们很难通过逆向工程或通过识别代码中的特定错误来修复系统出现的问题。现在,如果用户输入“美国哪个城市的食物最好吃?”而聊天机器人的回答是“东京”,我们无法真正理解模型为什么会出现这样的错误判断,也无法理解下一个问同样问题的人又为什么有可能得到不同的答案。
大语言模型的难以理解不仅是个烦恼,还是一些研究人员担心强大的人工智能系统最终可能威胁到人类的主要原因。毕竟,如果我们不了解这些模型内部发生了什么,又怎么能知道它们是否会被用来制造新型生物武器、帮助政治宣传或编写恶意计算机代码来展开网络攻击?如果强大的人工智能系统开始不服从或欺骗人类,而我们连是什么导致了这种行为都不清楚,又如何能阻挡它们呢?
为了解决这些问题,一个被称为“机械可解释性”(mechanistic interpretability)的AI研究分支花了数年时间,试图探究大语言模型的内部运行机制。这项工作进展缓慢,且必须是渐进式的。

登录后获取阅读权限
去登录
本文刊登于《第一财经杂志》2024年7期
龙源期刊网正版版权
更多文章来自

订阅