OpenAI新发布的o1模型怎么样?
作者 王俊煜
发表于 2025年2月

2024年12月5日,OpenAI正式发布了o1模型。

关于o1,坊间早有传闻。2023年11月,OpenAI那场短暂的“政变”过去没几天,路透社就报道说,Sam Altman被“除掉”的原因之一是OpenAI正在研发中的代号为“Q*”的模型过于强大,董事会担心这项技术若所托非人,将威胁人类文明,“Q*”后来又被称为“Strawberry”,也就是现在上线的o1。

对于一个可能会威胁人类文明的AI,我们还是有一些好奇心的。但好奇心是昂贵的,要使用“完全体”的o1,需要充值每月收费高达200美元的ChatGPT Pro,才能解锁o1的“专业模式”,且不提供试用。按照Sam Altman的说法,“专业模式”可以让o1“更用力地思考最难的问题”。

什么叫难题?按OpenAI自己发布的评测,o1能在物理、生物、化学等诸多学科领域超过博士水平;如果去参加2024年的美国数学邀请赛,它能进入全美前500名。但坦白说,对此类宣传,我们作为用户已经有些无感了。新模型出现的速度越来越快,每个新模型发布的时候都会跑一堆分数,宣称自己在某些测试中破了纪录。听起来都是很厉害的“做题家”,但作为普通人,难免会感到困惑:我们日常用到的模型好像没有那么厉害。如果我并不打算挑战国际数学奥赛金牌,这些模型的分数跟我的日常工作有什么关系?

于是,我打算拿工作中“最难的问题”来试试。

说到最难的问题,我首先想到的是学术研究工作。我自己不做学术研究,但我的同学中研究什么的都有。我在大学和中学同学群中,请各行各业的同学帮忙列出自己工作中“最难”的问题。最后,我收集到了来自数学、物理、大气、化学、生物、材料、哲学、艺术、经济、金融、法律、财务……等等领域的问题。其中,最酷的是我的数学家同学,“能不能证出我的定理?”。天哪,他都有自己的定理了。

用他们的问题向o1提问,开启“专业模式”后,等待数分钟,就会收到答案。

同学们拿到答案后,大多数人认为和之前的模型相比更加详细,有更多细节,逻辑也更加清晰,“条理清楚、主次分明、考虑全面”,但同时“说话也更绕了”。大家普遍认为,它看起来“肯定嚼了很多文献”,“作为文献收集整理挺好”,“知识水平上跟博士生差不多”;材料科学家认为,“如果能稳定保持这个水平的话,当科研助手绝对不亚于一个博士生,关键是博士生回答这个问题至少要一周。

本文刊登于《第一财经杂志》2025年2期
龙源期刊网正版版权
更多文章来自
订阅