DeepSeek如何做到低训练成本
作者 夏眠
发表于 2025年7月

深度求索公司在网络上发布的大语言模型DeepSeek最新版本轰动全球。美国硅谷的高科技公司首席科学家、相关领域的顶级学者纷纷加入了讨论,甚至引发了纳斯达克指数的异常波动。

那么,在市场上已经存在不少大语言模型的情况下,为什么DeepSeek能引起如此大的轰动?原因有二:其一,它开放源代码,允许全世界下载,支持本地部署;其二,它的低训练成本打破了大语言模型完全依赖性能和显卡的思维定式。

DeepSeek的训练成本500万美元(约合人民币3 631万元),是指最新版本的预训练和训练费用,不包含前期技术验证、预研发费用,以及技术积累的人工和计算开销。

根据深度求索公司发布的论文,DeepSeek能做到低训练成本,主要是依靠MoE混合专家模型(以下简称MoE)、混合精度训练、动态注意力机制、并行内存双通道数据蒸馏等技术。其中,MoE和混合精度训练最为亮眼。

在大语言模型训练领域,头部公司采用的是Dense模型,该模型训练用到的参数越多,难度就越大,并且难度会因为参数的变多呈现指数级的增加,导致训练成本居高不下。

本文刊登于《知识窗》2025年6期
龙源期刊网正版版权
更多文章来自
订阅