
最近,没有人不在讨论人工智能(AI)。
刚开学,清华大学大模型与生成式AI课程的教室已经爆满,最后一排后方的空地站满了学生。不远处的中关村科技城在夜晚灯火通明,全国54%的大模型企业聚集于此,等待有志者加入。而在金融街或CBD走进一家咖啡馆或餐厅,总有人正在聊有关AI的投资机会。
1月20日,开源模型DeepSeek-R1在一夜之间家喻户晓,加速了AI的全民市场教育。
但它所掀起的产业变量远不止于此。“变量是全方位的,包括模型、算力、芯片、数据、应用,所以需要尽快调整工作重心,优化现有的产业政策。”北京市经信局数字产业处副处长张金瑞告诉《中国新闻周刊》。
“最近我们发现,国产芯片厂商开始被越来越多的企业选择。尽管做不了模型训练,但用于完成数据量不大、不复杂的推理任务都没有问题。”他表示,这也将影响北京市未来的算力布局,算力的消耗方式需要从“粗放式”堆芯片转变为“精细化”地使用算力。算力需求将长期看涨,今年预计会翻倍,但高品质、高质量、集群式的算力在北京仍然很稀缺。
张金瑞坦言,数据方面也面临挑战:DeepSeek带来了使用高质量数据的趋势,以前主力推动的大规模的行业数据汇集工作,下一步要如何调整?还有中小企业的部署潮。“突然之间,很多中小企业发现已经来到了‘必须拥抱AI’的路口。”话语间隙,就有同事来传递了一个行政执法机构的需求,对方想用DeepSeek但缺乏知识,希望能推荐老师过去授课。“我们经常一对一对接企业和机构的需求,以后可能要搭建交流平台。”
北京有着最直观的AI密度。据《北京人工智能产业白皮书(2024)》,北京市内约有2200家AI企业,2024年创造了3000亿元的AI核心产业规模。尤其在海淀区,据公开信息,去年注册AI企业已超1300家。

目前共有94款大模型在北京备案,占全国约四成。北京深度求索人工智能基础技术研究有限公司的大模型DeepseekChat出现在去年5月15日的市委网信办备案名单中,同一批还有来自小米、腾讯等公司的18个大模型。
在你追我赶的AI军备竞赛中,没人能预测下一次DeepSeek式的创新成果会如何出现。拥有最密集人才、教育、企业、创投资源的北京,也要在新一轮的爆发中继续迎接挑战。
第一颗火种
刘知远卷入AI浪潮已经十余年:12年前在清华大学计算机科学与技术系博士后出站后留校任教至今,5年前开始推进中文大模型方向的研发,两年半前联合创立面壁智能,办公地就在清华大学东南门附近。
同事形容他在海淀的工作节奏“密不透风”,这也是很多北京AI从业者的写照。在五道口的一座大厦里,《中国新闻周刊》记者见到了刘知远。言语之间,画面好像回到了故事的起点——中国大模型的初啼,就发生在这里。
彼时,距离ChatGPT-3出现还有2年,距离DeepSeek的轰动还有7年,只有一群对技术创新敏感的人,决定一起做一些事。2018年11月,北京智源人工智能研究院(BAAI)成立,是依托清华、北大、中国科学院、百度、字节、小米等人工智能先进单位共建成立的非营利性新型研发机构。
一个月前,由谷歌语言小组冠名的一篇论文引起了全球AI领域的轰动。论文提出了知名的预训练语言模型BERT,引发了NLP(自然语言处理)领域的变革。
微软亚洲研究院创始人之一、金山前CEO张宏江担任了智源研究院的首届理事长。他曾提到,中国可能也需要一家新型的科研机构,独立于高校、企业和政府,追求更系统的大目标。“国内大学里面研究者虽多,但坦率说都是一个个小单元,很难集中力量干大事。企业更多是聚焦自己目前的业务,很难在基础前沿方向上做足够坚定的探索。”
2019年4月,智源研究院正式启动实施“智源学者计划”,宣布将支持100位AI领域的优秀专家学者,研究院就在距离清华东南门不到三百米的地方。例如,在智能信息检索与挖掘方向,中国人民大学教授文继荣任首席科学家,清华大学教授唐杰等任智源学者;在NLP方向,清华大学教授孙茂松任首席科学家,副教授刘知远等任智源青年科学家。
智源研究院前院长黄铁军曾阐述“智源模式”的人才机制,其特点包括鼓励自由探索,坚持求真务实、不论资排辈,以“代表作”和“小同行评价”遴选人才等。“智源研究院建立了层层选拔千里马的良性机制,把北京最顶尖的AI学者都聚在一起,天时地利人和,埋下了中国大模型创新的第一颗火种。”刘知远感叹。
里程碑事件发生在2020年6月:OpenAI发布GPT-3,称使用了一万张显卡。Scaling Law(规模法则)显现的同时,AI进入“大模型”时代。
“当时我们几乎绝望了,2020年前发的很多模型在国际上都有引用和关注,但远不能与GPT-3相比。我们以前最多只在一台V100的8张卡上做实验。如果不马上跟进,差距就会越来越大。”刘知远回忆道。
建立了人才机制的智源研究院迅速响应,在10月搭建“百人大模型计划”,唐杰任项目总负责人。据雷锋网报道,当时,研究院向时任北京市领导报告了计划,市领导决定大力支持。自此,北京市全力推进中国大模型的研发。据上述报道,智源计划用既有的科研经费购买300P算力,北京市决定从专项经费再拨款购买700P,总共达成1000P。
为项目起统一代号的时候,大家想到“五道口”的谐音,于是取名“悟道”。
计划从四个方向展开,刘知远负责研发其中的中文大模型。2020年8月左右,他向智源立项申请,很快获批了10台浪潮信息的V100,共80张卡支持训练,成本在百万元级别。“这很有魄力,扁平化的流程让我们能加速追赶。一个月后机器就到位了,又花了二三十天,团队训练出了全球第一个中文开源大模型CPM,并在2020年底发布。”
2021年3月,多个方向的成果共同推进后,智源研究院正式发布了“悟道1.0”大模型。后来,模型训练的规模越来越大,唐杰主导的“悟道2.0”成为中国第一个万亿大模型(参数规模达1.75万亿)。

