El modelo de IA sorprendentemente asequible de Deepseek desafía a los gigantes de la industria. La startup china afirma haber capacitado a su poderosa red neuronal Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU, un marcado contraste con los costos significativamente más altos de los competidores. Sin embargo, esta cifra aparentemente baja omite gastos sustanciales como investigación, refinamiento, procesamiento de datos e infraestructura.
El enfoque innovador de Deepseek aprovecha varias tecnologías clave: predicción múltiple (MTP) para una mayor precisión y eficiencia; Mezcla de expertos (MOE) con 256 redes neuronales para capacitación y rendimiento acelerados; y atención latente múltiple (MLA) para centrarse en elementos de oraciones cruciales.
Imagen: Ensigame.com
Al contrario de las cifras publicitadas de Deepseek, el semianálisis revela una infraestructura computacional masiva que involucra aproximadamente 50,000 GPU de tolva nvidia, incluidas las unidades H800, H100 y H20, se extienden en múltiples centros de datos. La inversión total del servidor se estima en $ 1.6 mil millones, con costos operativos que alcanzan los $ 944 millones.
Imagen: Ensigame.com
Deepseek, una subsidiaria de High-Flyer Hedge Fund, posee sus centros de datos, a diferencia de los competidores libres de nubes, otorgándole un mayor control e implementación de innovación más rápida. Su estado autofinanciado contribuye a la agilidad y la rápida toma de decisiones. La compañía atrae a los mejores talentos, con algunos investigadores ganando más de $ 1.3 millones anuales, principalmente de universidades chinas.
Imagen: Ensigame.com
Si bien el reclamo de costos de capacitación de $ 6 millones de Deepseek es engañoso, su inversión general supera los $ 500 millones. Su estructura magra permite una implementación de innovación eficiente, en contraste con empresas más grandes y más burocráticas. El éxito de la compañía depende de una inversión sustancial, avances tecnológicos y un equipo calificado.
Imagen: Ensigame.com
La historia de Deepseek muestra una compañía de IA independiente bien financiada que compite con éxito con los líderes de la industria. Sin embargo, la narración de la rentabilidad revolucionaria requiere una comprensión matizada, dada la sustancial inversión general. Sin embargo, el contraste sigue siendo marcado: el modelo R1 de Deepseek costó $ 5 millones para entrenar, en comparación con los $ 100 millones de CHATPPT4. A pesar de los gastos aclarados, la eficiencia de Deepseek todavía presenta un desafío convincente para el orden establecido.