O modelo surpreendentemente acessível de Deepseek desafia os gigantes da indústria. A startup chinesa afirma ter treinado sua poderosa rede neural Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs, um forte contraste com os custos significativamente mais altos dos concorrentes. Essa figura aparentemente baixa, no entanto, omite despesas substanciais, como pesquisa, refinamento, processamento de dados e infraestrutura.
A abordagem inovadora da Deepseek aproveita várias tecnologias-chave: previsão de vários toques (MTP) para maior precisão e eficiência; Mistura de especialistas (MOE) com 256 redes neurais para treinamento e desempenho acelerados; e atenção latente de várias cabeças (MLA) para se concentrar nos elementos cruciais da frase.
imagem: ensigame.com
Ao contrário das figuras divulgadas da Deepseek, a semiânica revela uma enorme infraestrutura computacional envolvendo aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo unidades H800, H100 e H20, se espalham por vários data centers. O investimento total do servidor é estimado em US $ 1,6 bilhão, com custos operacionais atingindo US $ 944 milhões.
imagem: ensigame.com
A Deepseek, uma subsidiária do High-Flyer Hedge Fund, possui seus data centers, diferentemente dos concorrentes dependentes da nuvem, concedendo maior controle e implementação mais rápida da inovação. Seu status autofinanciado contribui para a agilidade e a rápida tomada de decisão. A empresa atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das universidades chinesas.
imagem: ensigame.com
Embora a reivindicação de custo de treinamento de US $ 6 milhões da Deepseek seja enganosa, seu investimento geral excede US $ 500 milhões. Sua estrutura enxuta permite implantação eficiente de inovação, contrastando com empresas maiores e mais burocráticas. O sucesso da empresa depende de investimentos substanciais, avanços tecnológicos e uma equipe qualificada.
imagem: ensigame.com
A história da Deepseek mostra uma empresa independente de IA bem financiada competindo com sucesso com líderes do setor. No entanto, a narrativa da relação custo-benefício revolucionária requer entendimento diferenciado, dado o investimento geral substancial. O contraste permanece gritante: o modelo R1 da Deepseek custou US $ 5 milhões para treinar, em comparação com os US $ 100 milhões do ChatGPT4. Apesar das despesas esclarecidas, a eficiência de Deepseek ainda apresenta um desafio convincente à ordem estabelecida.