El modelo de IA sorprendentemente económico de Deepseek desafía a los gigantes de la industria. Esta startup china, una subsidiaria de High-Flyer Hedge Fund, afirma haber entrenado su poderoso modelo Deepseek V3 por solo $ 6 millones, utilizando solo 2048 GPU. Esto contrasta fuertemente con el costo de capacitación de $ 100 millones reportado. Sin embargo, la realidad es más matizada.
Imagen: Ensigame.com
Deepseek V3 aprovecha las tecnologías innovadoras: predicción múltiple (MTP) para mejorar la precisión y eficiencia, la mezcla de expertos (MOE) que emplean 256 redes neuronales para un rendimiento mejorado y una atención latente (MLA) múltiple para capturar detalles cruciales. Estos avances contribuyen a su ventaja competitiva.
Imagen: Ensigame.com
Al contrario del reclamo inicial de $ 6 millones, un informe de semianálisis revela que Deepseek opera una infraestructura masiva de aproximadamente 50,000 GPU NVIDIA (incluidas H800, H100 y H20 unidades) en múltiples centros de datos, lo que representa una inversión total de aproximadamente $ 1.6 mil millones y costos operativos de $ 944 de $ 944 millón. Esto incluye salarios sustanciales para los investigadores, algunos ganan más de $ 1.3 millones anuales. La cifra de $ 6 millones solo refleja los costos de GPU previos al entrenamiento, excluyendo I + D, refinamiento, procesamiento de datos e infraestructura.
Imagen: Ensigame.com
El éxito de Deepseek proviene de una inversión significativa (más de $ 500 millones en desarrollo de IA), avances tecnológicos y un equipo altamente calificado. Si bien su estructura magra ayuda a la innovación, la narrativa "económica" es una simplificación excesiva. La autofinanciación y la propiedad de sus centros de datos de la compañía proporcionan ventajas significativas sobre los competidores basados en la nube. Además, el enfoque de Deepseek en el talento doméstico (sin especialistas extranjeros) es notable.
Imagen: Ensigame.com
A pesar de los costos aclarados, el logro de Deepseek destaca el potencial de que las compañías de IA independientes bien financiadas compitan de manera efectiva con los jugadores establecidos, incluso si los reclamos de costos iniciales requieren un mayor escrutinio. El marcado contraste entre la inversión general de Deepseek y el costo de capacitación inicialmente publicitado subraya la complejidad del desarrollo de la IA.