DeepSeek令人惊讶的负担得起的AI模型挑战了行业巨头。这家中国初创公司声称已经培训了其强大的DeepSeek V3神经网络,仅利用2048 GPU,这与竞争对手的成本明显更高。但是,这个看似低的数字省略了研究,改进,数据处理和基础设施等大量费用。
DeepSeek的创新方法利用了几种关键技术:多型预测(MTP),以提高准确性和效率;专家(MOE)与256个神经网络的混合物,用于加速培训和表现;以及多头潜在注意力(MLA),专注于关键句子元素。
图像:ensigame.com
与DeepSeek的公开数字相反,半分析揭示了涉及大约50,000个NVIDIA HOPPER GPU的大规模计算基础设施,包括H800,H100和H20单位,分布在多个数据中心。服务器总投资估计为16亿美元,运营成本达到9.44亿美元。
图像:ensigame.com
高飞行员对冲基金的子公司DeepSeek拥有其数据中心,与云规范的竞争对手不同,授予其更大的控制和更快的创新实施。它的自筹资金地位有助于敏捷性和快速决策。该公司吸引了顶尖人才,一些研究人员每年收入超过130万美元,主要来自中国大学。
图像:ensigame.com
尽管DeepSeek的600万美元培训成本索赔具有误导性,但其总投资超过5亿美元。它的精益结构可实现有效的创新部署,与更大,更官僚的公司形成鲜明对比。该公司的成功取决于大量投资,技术进步和熟练的团队。
图像:ensigame.com
DeepSeek的故事展示了一家资金充足的独立AI公司,成功与行业领导者竞争。但是,鉴于总体投资,革命性成本效益的叙述需要细微的理解。不过,这种对比仍然很明显:DeepSeek的R1型号的训练费用为500万美元,而Chatgpt4的1亿美元。尽管有澄清的费用,但DeepSeek的效率仍然对既定订单提出了引人注目的挑战。