DeepSeek令人驚訝的負擔得起的AI模型挑戰了行業巨頭。這家中國初創公司聲稱已經培訓了其強大的DeepSeek V3神經網絡,僅利用2048 GPU,這與競爭對手的成本明顯更高。但是,這個看似低的數字省略了研究,改進,數據處理和基礎設施等大量費用。
DeepSeek的創新方法利用了幾種關鍵技術:多型預測(MTP),以提高準確性和效率;專家(MOE)與256個神經網絡的混合物,用於加速培訓和表現;以及多頭潛在注意力(MLA),專注於關鍵句子元素。
圖像:ensigame.com
與DeepSeek的公開數字相反,半分析揭示了涉及大約50,000個NVIDIA HOPPER GPU的大規模計算基礎設施,包括H800,H100和H20單位,分布在多個數據中心。服務器總投資估計為16億美元,運營成本達到9.44億美元。
圖像:ensigame.com
高飛行員對衝基金的子公司DeepSeek擁有其數據中心,與雲規範的競爭對手不同,授予其更大的控製和更快的創新實施。它的自籌資金地位有助於敏捷性和快速決策。該公司吸引了頂尖人才,一些研究人員每年收入超過130萬美元,主要來自中國大學。
圖像:ensigame.com
盡管DeepSeek的600萬美元培訓成本索賠具有誤導性,但其總投資超過5億美元。它的精益結構可實現有效的創新部署,與更大,更官僚的公司形成鮮明對比。該公司的成功取決於大量投資,技術進步和熟練的團隊。
圖像:ensigame.com
DeepSeek的故事展示了一家資金充足的獨立AI公司,成功與行業領導者競爭。但是,鑒於總體投資,革命性成本效益的敘述需要細微的理解。不過,這種對比仍然很明顯:DeepSeek的R1型號的訓練費用為500萬美元,而Chatgpt4的1億美元。盡管有澄清的費用,但DeepSeek的效率仍然對既定訂單提出了引人注目的挑戰。