AI新“王炸”，来自东方的神秘力量-葫芦时刻

依法合规经营，保障用户权益是我们的生命线，对于部分广告发布者为牟取高收益侵犯用户权益行为，我司将通过法律途径追责到底！

AI新“王炸”，来自东方的神秘力量

作者朱秋雨

发表于 2025年1月

2024年末，一个中国AI小厂，凭借过硬的技术，获得了全球铺天盖地的关注。

圣诞节过后，海外社交媒体以及技术论坛Github都在讨论一个最新发布的开源大模型，DeepSeek-V3。它被外国网友冠以名号——“来自东方的神秘力量”。

多个评测报告里，DeepSeek-V3在世界开源模型之中处在第一梯队，超过扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5两个最顶尖大模型也毫不逊色，甚至，其在数学推理、代码生成和长文本处理等指标上，表现更强。

这还不是中国AI公司DeepSeek（中文名：深度求索）全部的“拿手好戏”。更让美国硅谷等同行摸不着头脑的是，DeepSeek公布的53页技术报告显示，其训练顶尖大模型只用了2048张H100的GPU集群，花费53天，共计耗费557.6万美元。有专业人员指出，同等水平之下，世界AI大厂至少要用1.6万张以上的GPU，有的甚至需要10万张GPU并行训练。

OpenAI早期成员安德烈·卡帕西感慨，DeepSeek-V3的出现意味着，今后也许不需要大型GPU集群来训练前沿的大语言模型了。Scale AI的华裔CEO亚历山大·王更感慨道，DeepSeek-V3带给美国最大的教训是，“当美国人休息时，中国正在努力工作，最终以更低的成本、更快的速度迎头赶上，变得更强”。

这一以低成本闻名的小团队颠覆了国外AI巨头发展的固定范式，是被外界认为最像（早期）OpenAI的开源机构。事实上，这家小厂位于杭州，创始人从浙江大学毕业，2015年创立了公司幻方量化，几年之间，成为中国少有的突破千亿规模的量化私募机构。

一家金融公司搞出了一个最有气质的AI大模型公司，本身已经令人称奇。与此同时，DeepSeek坚持技术开源，每次模型发布后，都会公布细节满满的技术报告。多年来，他们在AI大模型领域默默斩棘，不谈商业化，不发布新产品，对外保持低调。

“神秘的东方力量”，到底想做什么？

AI界拼多多，来了

2024年末，一则“雷军千万年薪挖角‘95后’AI天才少女”的热帖火遍全网。人们惊讶地发现，名为罗福莉的天才少女，此前供职于在公众面前寂寂无闻的AI公司——DeepSeek深度求索。

事实上，早在这之前，成立刚满一年的DeepSeek就已经在AI业内出了圈。半年多前，2024年5月，DeepSeek发布开源第二代MoE大模型DeepSeek-V2。这是它进入业界主流视野的标志事件。

在这个诚意到位的开源大模型中，DeepSeek-V2没有沿用国际主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”，而是对模型框架进行创新，采用MLA（Multi-head Latent Attention，多头潜在注意力）架构。

创新提高了计算效率，降低了AI运行的高昂成本。作为开源大模型，DeepSeek同时公布了使用其API的价目表：每百万tokens输入1元、输出2元（32K上下文）。作为对比，GPT-4 Turbo每百万tokens的输入、输出价格分别为72元、217元。

“真正的国产之光出现了。”AI圈内人士惊喜地评价。从此，DeepSeek有了“AI界拼多多”的外号。

如此低的价格，令国内AI巨头纷纷降价。

与“高大上”的实力形成鲜明反差的是，幻方量化内部人员对南风窗透露，DeepSeek管理“非常扁平”，以技术人员为主。

谁也没能预料到的是，这个重塑业界生态的AI公司，背后是一家量化基金公司。“我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上稍微有点利润。”幻方量化实控人、DeepSeek创始人梁文锋在受访时解释。

这是深度求索在2024年第一次引发AI行业震动。OpenAI前政策主管、Anthropic联合创始人Jack Clark评价：“（DeepSeek）雇佣了一批高深莫测的奇才。”

主要操盘手梁文锋，来自广东五线城市，“80后”，毕业于浙江大学电子工程系人工智能方向。2015年，他成立了量化基金公司幻方量化，创始成员多来自浙大。

本文刊登于《南风窗》2025年2期

龙源期刊网正版版权

南风窗

2025年2期

查看本期目录

更多文章来自