AI新“王炸”,来自东方的神秘力量
作者 朱秋雨
发表于 2025年1月
AI创意图(制作/本刊记者 郭嘉亮)

2024年末,一个中国AI小厂,凭借过硬的技术,获得了全球铺天盖地的关注。

圣诞节过后,海外社交媒体以及技术论坛Github都在讨论一个最新发布的开源大模型,DeepSeek-V3。它被外国网友冠以名号——“来自东方的神秘力量”。

多个评测报告里,DeepSeek-V3在世界开源模型之中处在第一梯队,超过扎克伯格的LLaMa 3.1。拿它比GPT-4o以及Claude 3.5两个最顶尖大模型也毫不逊色,甚至,其在数学推理、代码生成和长文本处理等指标上,表现更强。

这还不是中国AI公司DeepSeek(中文名:深度求索)全部的“拿手好戏”。更让美国硅谷等同行摸不着头脑的是,DeepSeek公布的53页技术报告显示,其训练顶尖大模型只用了2048张H100的GPU集群,花费53天,共计耗费557.6万美元。有专业人员指出,同等水平之下,世界AI大厂至少要用1.6万张以上的GPU,有的甚至需要10万张GPU并行训练。

OpenAI早期成员安德烈·卡帕西感慨,DeepSeek-V3的出现意味着,今后也许不需要大型GPU集群来训练前沿的大语言模型了。Scale AI的华裔CEO亚历山大·王更感慨道,DeepSeek-V3带给美国最大的教训是,“当美国人休息时,中国正在努力工作,最终以更低的成本、更快的速度迎头赶上,变得更强”。

这一以低成本闻名的小团队颠覆了国外AI巨头发展的固定范式,是被外界认为最像(早期)OpenAI的开源机构。事实上,这家小厂位于杭州,创始人从浙江大学毕业,2015年创立了公司幻方量化,几年之间,成为中国少有的突破千亿规模的量化私募机构。

一家金融公司搞出了一个最有气质的AI大模型公司,本身已经令人称奇。与此同时,DeepSeek坚持技术开源,每次模型发布后,都会公布细节满满的技术报告。多年来,他们在AI大模型领域默默斩棘,不谈商业化,不发布新产品,对外保持低调。

“神秘的东方力量”,到底想做什么?

AI界拼多多,来了

2024年末,一则“雷军千万年薪挖角‘95后’AI天才少女”的热帖火遍全网。人们惊讶地发现,名为罗福莉的天才少女,此前供职于在公众面前寂寂无闻的AI公司——DeepSeek深度求索。

事实上,早在这之前,成立刚满一年的DeepSeek就已经在AI业内出了圈。半年多前,2024年5月,DeepSeek发布开源第二代MoE大模型DeepSeek-V2。这是它进入业界主流视野的标志事件。

在这个诚意到位的开源大模型中,DeepSeek-V2没有沿用国际主流的“类LLaMA的Dense结构”和“类Mistral的Sparse结构”,而是对模型框架进行创新,采用MLA(Multi-head Latent Attention,多头潜在注意力)架构。

创新提高了计算效率,降低了AI运行的高昂成本。作为开源大模型,DeepSeek同时公布了使用其API的价目表:每百万tokens输入1元、输出2元(32K上下文)。作为对比,GPT-4 Turbo每百万tokens的输入、输出价格分别为72元、217元。

“真正的国产之光出现了。”AI圈内人士惊喜地评价。从此,DeepSeek有了“AI界拼多多”的外号。

如此低的价格,令国内AI巨头纷纷降价。

与“高大上”的实力形成鲜明反差的是,幻方量化内部人员对南风窗透露,DeepSeek管理“非常扁平”,以技术人员为主。

谁也没能预料到的是,这个重塑业界生态的AI公司,背后是一家量化基金公司。“我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”幻方量化实控人、DeepSeek创始人梁文锋在受访时解释。

这是深度求索在2024年第一次引发AI行业震动。OpenAI前政策主管、Anthropic联合创始人Jack Clark评价:“(DeepSeek)雇佣了一批高深莫测的奇才。”

主要操盘手梁文锋,来自广东五线城市,“80后”,毕业于浙江大学电子工程系人工智能方向。2015年,他成立了量化基金公司幻方量化,创始成员多来自浙大。

本文刊登于《南风窗》2025年2期
龙源期刊网正版版权
更多文章来自
订阅