阿里GPT测评:“AI 摩尔定律”时代真的来了?
作者 张毅
发表于 2023年4月

半导体领域的摩尔定律正在失效,AI世界的“摩尔定律”才刚开始。不久前,OpenAI CEO 、“ChatGPT之父”Sam Altman 发文指出,全球AI 运算量每隔18 个月就会提升一倍。从科技公司对GPT 你追我赶的态势看,“AI 摩尔定律”,也许正在成为全球大模型竞争的节拍器。

继OpenAI、微软、谷歌之后,中国公司也正加速公布各自的大模型研发进展。上周,阿里云官宣其大模型“通义千问”启动企业邀测,达摩院多年磨一剑的AI 研发工作初现真身。《电脑报》参与了“通义千问”的定向邀测,短短几天内,感受到了中国大模型“以日为进”的成长速度。

阿里云大模型“通义千问”亮相

从OpenAI 的ChatGPT 到百度的文心一言,同AI 对话成功挑起人类的好奇心,而就在人们为“哪家AI 更聪明”争论不休时,阿里云突然宣布“通义千问”开始企业邀测。

“通义千问,一个专门响应人类指令的大模型。我是效率助手,也是点子生成机,我服务于人类,致力于让生活更美好。”——这是“通义千问”官方主页上对自己的介绍(如图1),单从字面上理解,“通义千问”更像是一个问答平台或对话工具,但登录进入其交互界面后,“通义千问”对自己的“工作范畴”其实是有引导性解释的。

在“通义千问”页面最下方的“百宝袋”通道,展示了9 种应用,这些应用被分为3 类:效率类、生活类和娱乐类(如图2)。

在娱乐类应用中,有“彩虹屁专家”“写情书”“为你写诗”3个功能,比如“彩虹屁专家”,当你想夸别人,却不知道怎么夸的时候,就能让通义千问帮吹一些彩虹屁。

显然,从这9 种应用定位可以看出,“通义千问”并非单纯用于对话娱乐,更有生产力工具属性,而在我们输入“通义千问自身定位是?”提问时,它是这么回答的(如图3)。

以“日”为单位成长的AI

“最初第一批拿到测试资格时蛮兴奋的,第一时间就尝试同‘通义千问’进行对话,但对话结果却有些失望,除‘牛头不对马嘴’外,更给出了不少错误答案。可当我们带着失望心情在第二天输入同样问题时,‘通义千问’竟给出了近乎完美的正确答案,这种‘低开高走’的测试真的很刺激,‘通义千问’真是以肉眼可见的速度在成长!”

2023年4月8日,《电脑报》记者根据热点新闻事件向“通义千问”提出“能否制作一段有关石墨烯的视频脚本?”要求时,它写出来的视频脚本非常生涩,甚至像说明文多过视频脚本(如图4)。

然而,仅仅过了一天时间,当记者在4月9日向“通义千问”再次提出“能否制作一段有关石墨烯的视频脚本?”时,“通义千问”非常准确地理解了记者需求,且创作出可行性较高的视频脚本,从旁白对话到画面设计,都给予了详细的内容和建议(如图5)。

每天都在变强的“通义千问”成功吊起我们好奇心,同当下主流免费的ChatGPT(GPT3.5)和文心一言相比,“通义千问”能力究竟如何呢?

一場“谁更聪明”的对局

2023年4月9日, 我们分别从逻辑思维及语言组织能力(教育心理分析)、语言文字创作能力(小学生作文)及非线性思维能力(数学组合题目)三个方面进行了横向测试。

本文刊登于《电脑报》2023年15期
龙源期刊网正版版权
更多文章来自
订阅