发布日期:2025-02-02 20:25 点击次数:75
春节期间,DeepSeek 新一代开源模型以惊人的低成本和高性能引发热议,在全球投资界引发剧震。
市场上甚至出现了 DeepSeek" 仅用 500 万美元就复制 OpenAI" 的说法,认为这将给整个 AI 基础设施产业带来"末日"。
对此,华尔街知名投行伯恩斯坦在详细研究 DeepSeek 技术文档后发布报告称,这种市场恐慌情绪明显过度,DeepSeek 用" 500 万美元复制 OpenAI "是市场误读。
另外,该行认为,虽然 DeepSeek 的效率提升显著,但从技术角度看,并非奇迹。而且,即便 DeepSeek 确实实现了 10 倍的效率提升,这也仅相当于当前 AI 模型每年的成本增长幅度。
该行还表示,目前 AI 计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收,因此对 AI 板块保持乐观。
" 500 万美元复制 OpenAI "是误读
对于" 500 万美元复制 OpenAI "的说法,伯恩斯坦认为,实际上是对 DeepSeek V3 模型训练成本的片面解读,简单将 GPU 租用成本计算等同于了总投入:
这 500 万美元仅仅是基于每 GPU 小时 2 美元的租赁价格估算的 V3 模型训练成本,并未包括前期研发投入、数据成本以及其他相关费用。
技术创新:效率大幅提升但非颠覆性突破
接着,伯恩斯坦在报告中详细分析了 DeepSeek 发布的两大模型 V3、R1 详细技术特点。
(1)V3 模型的效率革命
该行表示,V3 模型采用专家混合架构,用 2048 块 NVIDIA H800 GPU、约 270 万 GPU 小时就达到了可与主流大模型媲美的性能。
具体而言,V3 模型采用了混合专家(MoE)架构,这一架构本身就旨在降低训练和运行成本。在此基础上,V3 还结合了多头潜在注意力(MHLA)技术,显著降低了缓存大小和内存使用。
同时,FP8 混合精度训练的运用进一步优化了性能表现。这些技术的综合运用,使得 V3 模型在训练时仅需同等规模开源模型约 9% 的算力,便能达到甚至超越其性能。
例如,V3 预训练仅需约 270 万 GPU 小时,而同样规模的开源 LLaMA 模型则需要约 3000 万 GPU 小时。
MoE 架构 : 每次只激活部分参数,减少计算量。
MHLA 技术 : 降低内存占用,提升效率。
FP8 混合精度训练 : 在保证性能的同时,进一步提升计算效率。
谈及 V3 模型带来的效率提升,伯恩斯坦认为,与业界 3-7 倍的常见效率提升相比并非颠覆性突破:
MoE 架构的重点是显著降低训练和运行的成本,因为在任何一次只有一部分参数集是活动的(例如,当训练 V3 时,只有 671B 个参数中的 37B 为任何一个令牌更新,而密集模型中所有参数都被更新)。
对其他 MoE 比较的调查表明,典型的效率是 3-7 倍,而类似大小的密度模型具有类似的性能;
V3 看起来甚至比这个更好(10 倍以上),可能考虑到该公司在模型中带来的其他一些创新,但认为这是完全革命性的想法似乎有点夸张,并且不值得在过去几天里席卷 twitter 世界的歇斯底里。
(2)R1 模型的推理能力与"蒸馏"策略
DeepSeek 的 R1 模型则在 V3 的基础上,通过强化学习(RL)等创新技术,显著提升了推理能力,使其能够与 OpenAI 的 o1 模型相媲美。
值得一提的是,DeepSeek 还采用了"模型蒸馏"策略,利用 R1 模型作为"教师",生成数据来微调更小的模型,这些小模型在性能上可以与 OpenAI 的 o1-mini 等竞争模型相媲美。这种策略不仅降低了成本,也为 AI 技术的普及提供了新的思路。
强化学习(RL): 提升模型推理能力。
模型蒸馏 : 利用大模型训练小模型,降低成本。
对 AI 板块保持乐观
伯恩斯坦认为,即便 DeepSeek 确实实现了 10 倍的效率提升,这也仅相当于当前 AI 模型每年的成本增长幅度。
事实上,在"模型规模定律"不断推动成本上升的背景下,像 MoE、模型蒸馏、混合精度计算等创新对 AI 发展至关重要。
根据杰文斯悖论,效率提升通常会带来更大的需求,而非削减开支。该行认为,目前 AI 计算需求远未触及天花板,新增算力很可能会被不断增长的使用需求吸收。
基于以上分析,伯恩斯坦对 AI 板块保持乐观。
上一篇:富国天时B: 关于调整旗下富国天时货币市场基金B类份额单笔最低申购金额的公告
下一篇:没有了