DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. 중국의 신생 기업은 경쟁 업체의 상당히 높은 비용과는 대조적으로 2048 GPU 만 사용하여 강력한 Deepseek V3 Neural Network를 6 백만 달러로 훈련했다고 주장했다. 그러나이 겉보기에 낮은 수치는 연구, 정제, 데이터 처리 및 인프라와 같은 상당한 비용을 생략합니다.
DeepSeek의 혁신적인 접근 방식은 몇 가지 주요 기술을 활용합니다. 정확도와 효율성을 높이기위한 MTP (Multi-Token Prediction); 가속화 된 교육 및 성과를위한 256 개의 신경망과 전문가 (MOE)의 혼합물; 중요한 문장 요소에 중점을 둔 다중 헤드 잠재주의 (MLA).
이미지 : ensigame.com
DeepSeek의 공개 수치와는 달리 Semianalysis는 H800, H100 및 H20 장치를 포함하여 약 50,000 개의 NVIDIA HOPPER GPU가 포함 된 대규모 계산 인프라를 여러 데이터 센터에 걸쳐 전파합니다. 총 서버 투자는 16 억 달러로 추정되며 운영 비용은 9 억 9,400 만 달러에 이릅니다.
이미지 : ensigame.com
High-Flyer 헤지 펀드의 자회사 인 DeepSeek는 클라우드 관련 경쟁 업체와 달리 데이터 센터를 소유하고있어 더 큰 제어력과 더 빠른 혁신 구현을 부여합니다. 자체 자금 지원 상태는 민첩성과 빠른 의사 결정에 기여합니다. 이 회사는 최고의 인재를 유치하며 일부 연구자들은 주로 중국 대학에서 매년 130 만 달러 이상을 벌고 있습니다.
이미지 : ensigame.com
DeepSeek의 6 백만 달러의 교육 비용 청구는 오도의 소지가 있지만 전체 투자는 5 억 달러를 초과합니다. 린 구조는 더 큰 관료적 회사와 대조되는 효율적인 혁신 배치를 가능하게합니다. 이 회사의 성공은 상당한 투자, 기술 발전 및 숙련 된 팀에 달려 있습니다.
이미지 : ensigame.com
Deepseek의 이야기는 산업 리더와 성공적으로 경쟁하는 잘 자금을 지원하는 독립 AI 회사를 선보입니다. 그러나 혁신적인 비용 효율성의 이야기는 상당한 전반적인 투자를 고려할 때 미묘한 이해가 필요합니다. 그러나 대조는 여전히 남아 있습니다. DeepSeek의 R1 모델은 ChatGPT4의 1 억 달러에 비해 훈련하는 데 5 백만 달러가 들었습니다. 명확한 비용에도 불구하고 DeepSeek의 효율성은 여전히 확립 된 질서에 대한 강력한 도전을 제시합니다.