OpenAI新发布的o1模型怎么样？-葫芦时刻

依法合规经营，保障用户权益是我们的生命线，对于部分广告发布者为牟取高收益侵犯用户权益行为，我司将通过法律途径追责到底！

OpenAI新发布的o1模型怎么样？

作者王俊煜

发表于 2025年2月

2024年12月5日，OpenAI正式发布了o1模型。

关于o1，坊间早有传闻。2023年11月，OpenAI那场短暂的“政变”过去没几天，路透社就报道说，Sam Altman被“除掉”的原因之一是OpenAI正在研发中的代号为“Q*”的模型过于强大，董事会担心这项技术若所托非人，将威胁人类文明，“Q*”后来又被称为“Strawberry”，也就是现在上线的o1。

对于一个可能会威胁人类文明的AI，我们还是有一些好奇心的。但好奇心是昂贵的，要使用“完全体”的o1，需要充值每月收费高达200美元的ChatGPT Pro，才能解锁o1的“专业模式”，且不提供试用。按照Sam Altman的说法，“专业模式”可以让o1“更用力地思考最难的问题”。

什么叫难题？按OpenAI自己发布的评测，o1能在物理、生物、化学等诸多学科领域超过博士水平；如果去参加2024年的美国数学邀请赛，它能进入全美前500名。但坦白说，对此类宣传，我们作为用户已经有些无感了。新模型出现的速度越来越快，每个新模型发布的时候都会跑一堆分数，宣称自己在某些测试中破了纪录。听起来都是很厉害的“做题家”，但作为普通人，难免会感到困惑：我们日常用到的模型好像没有那么厉害。如果我并不打算挑战国际数学奥赛金牌，这些模型的分数跟我的日常工作有什么关系？

于是，我打算拿工作中“最难的问题”来试试。

说到最难的问题，我首先想到的是学术研究工作。我自己不做学术研究，但我的同学中研究什么的都有。我在大学和中学同学群中，请各行各业的同学帮忙列出自己工作中“最难”的问题。最后，我收集到了来自数学、物理、大气、化学、生物、材料、哲学、艺术、经济、金融、法律、财务……等等领域的问题。其中，最酷的是我的数学家同学，“能不能证出我的定理？”。天哪，他都有自己的定理了。

用他们的问题向o1提问，开启“专业模式”后，等待数分钟，就会收到答案。

同学们拿到答案后，大多数人认为和之前的模型相比更加详细，有更多细节，逻辑也更加清晰，“条理清楚、主次分明、考虑全面”，但同时“说话也更绕了”。大家普遍认为，它看起来“肯定嚼了很多文献”，“作为文献收集整理挺好”，“知识水平上跟博士生差不多”；材料科学家认为，“如果能稳定保持这个水平的话，当科研助手绝对不亚于一个博士生，关键是博士生回答这个问题至少要一周。

本文刊登于《第一财经杂志》2025年2期

龙源期刊网正版版权

第一财经

2025年2期

查看本期目录

更多文章来自