Deepseekの驚くほど手頃な価格のAIモデルは、業界の巨人に挑戦しています。中国の新興企業は、競合他社の大幅に高いコストとはまったく対照的である2048 GPUのみを利用して、強力なDeepseek V3ニューラルネットワークをわずか600万ドルで訓練したと主張しています。ただし、この一見低い数値では、研究、洗練、データ処理、インフラストラクチャなどのかなりの費用が省略されています。
Deepseekの革新的なアプローチは、いくつかの重要な技術を活用しています。精度と効率を向上させるためのマルチトークン予測(MTP)。加速トレーニングとパフォーマンスのための256のニューラルネットワークと専門家(MOE)の混合。重要な文要素に焦点を当てるためのマルチヘッド潜在的注意(MLA)。
画像:Ensigame.com
DeepSeekの公表された数字に反して、Semianalysisは、H800、H100、H20ユニットを含む約50,000のNVIDIAホッパーGPUを含む大規模な計算インフラストラクチャが複数のデータセンターに広がることを明らかにしています。サーバーの総投資は16億ドルと推定され、運用コストは9億4,400万ドルに達します。
画像:Ensigame.com
High-Flyer Hedge Fundの子会社であるDeepseekは、クラウドに依存している競合他社とは異なり、データセンターを所有しており、より大きな管理とイノベーションの実装をより高速化しています。その自己資金によるステータスは、敏ility性と迅速な意思決定に貢献します。同社はトップの才能を引き付け、一部の研究者は主に中国の大学で年間130万ドル以上を稼いでいます。
画像:Ensigame.com
Deepseekの600万ドルのトレーニングコスト請求は誤解を招くものですが、その全体的な投資は5億ドルを超えています。その無駄のない構造により、効率的なイノベーションの展開が可能になり、より多くの官僚的企業とは対照的です。同社の成功は、実質的な投資、技術の進歩、熟練したチームにかかっています。
画像:Ensigame.com
Deepseekのストーリーは、資金提供された独立したAI企業を紹介しています。しかし、革命的な費用対効果の物語は、かなりの全体的な投資を考えると、微妙な理解を必要とします。ただし、ChatGPT4の1億ドルと比較して、DeepseekのR1モデルはトレーニングに500万ドルの費用がかかります。明確な費用にもかかわらず、Deepseekの効率は依然として確立された秩序に対する説得力のある挑戦を提示しています。