阿里GPT测评：“AI 摩尔定律”时代真的来了？-葫芦时刻

依法合规经营，保障用户权益是我们的生命线，对于部分广告发布者为牟取高收益侵犯用户权益行为，我司将通过法律途径追责到底！

阿里GPT测评：“AI 摩尔定律”时代真的来了？

作者张毅

发表于 2023年4月

半导体领域的摩尔定律正在失效，AI世界的“摩尔定律”才刚开始。不久前，OpenAI CEO 、“ChatGPT之父”Sam Altman 发文指出，全球AI 运算量每隔18 个月就会提升一倍。从科技公司对GPT 你追我赶的态势看，“AI 摩尔定律”，也许正在成为全球大模型竞争的节拍器。

继OpenAI、微软、谷歌之后，中国公司也正加速公布各自的大模型研发进展。上周，阿里云官宣其大模型“通义千问”启动企业邀测，达摩院多年磨一剑的AI 研发工作初现真身。《电脑报》参与了“通义千问”的定向邀测，短短几天内，感受到了中国大模型“以日为进”的成长速度。

阿里云大模型“通义千问”亮相

从OpenAI 的ChatGPT 到百度的文心一言，同AI 对话成功挑起人类的好奇心，而就在人们为“哪家AI 更聪明”争论不休时，阿里云突然宣布“通义千问”开始企业邀测。

“通义千问，一个专门响应人类指令的大模型。我是效率助手，也是点子生成机，我服务于人类，致力于让生活更美好。”——这是“通义千问”官方主页上对自己的介绍（如图1），单从字面上理解，“通义千问”更像是一个问答平台或对话工具，但登录进入其交互界面后，“通义千问”对自己的“工作范畴”其实是有引导性解释的。

在“通义千问”页面最下方的“百宝袋”通道，展示了9 种应用，这些应用被分为3 类：效率类、生活类和娱乐类（如图2）。

在娱乐类应用中，有“彩虹屁专家”“写情书”“为你写诗”3个功能，比如“彩虹屁专家”，当你想夸别人，却不知道怎么夸的时候，就能让通义千问帮吹一些彩虹屁。

显然，从这9 种应用定位可以看出，“通义千问”并非单纯用于对话娱乐，更有生产力工具属性，而在我们输入“通义千问自身定位是？”提问时，它是这么回答的（如图3）。

以“日”为单位成长的AI

“最初第一批拿到测试资格时蛮兴奋的，第一时间就尝试同‘通义千问’进行对话，但对话结果却有些失望，除‘牛头不对马嘴’外，更给出了不少错误答案。可当我们带着失望心情在第二天输入同样问题时，‘通义千问’竟给出了近乎完美的正确答案，这种‘低开高走’的测试真的很刺激，‘通义千问’真是以肉眼可见的速度在成长！”

2023年4月8日，《电脑报》记者根据热点新闻事件向“通义千问”提出“能否制作一段有关石墨烯的视频脚本？”要求时，它写出来的视频脚本非常生涩，甚至像说明文多过视频脚本（如图4）。

然而，仅仅过了一天时间，当记者在4月9日向“通义千问”再次提出“能否制作一段有关石墨烯的视频脚本？”时，“通义千问”非常准确地理解了记者需求，且创作出可行性较高的视频脚本，从旁白对话到画面设计，都给予了详细的内容和建议（如图5）。

每天都在变强的“通义千问”成功吊起我们好奇心，同当下主流免费的ChatGPT（GPT3.5）和文心一言相比，“通义千问”能力究竟如何呢？

一場“谁更聪明”的对局

2023年4月9日，我们分别从逻辑思维及语言组织能力（教育心理分析）、语言文字创作能力（小学生作文）及非线性思维能力（数学组合题目）三个方面进行了横向测试。

本文刊登于《电脑报》2023年15期

龙源期刊网正版版权

电脑报

2023年15期

查看本期目录

更多文章来自