O modelo de IA surpreendentemente barato de Deepseek desafia os gigantes da indústria. Esta startup chinesa, uma subsidiária do High-Flyer Hedge Fund, afirma ter treinado seu poderoso modelo Deepseek V3 por meros US $ 6 milhões, utilizando apenas 2048 GPUs. Isso contrasta fortemente com o custo relatado de US $ 100 milhões de treinamento ChatGPT4O. No entanto, a realidade é mais sutil.
imagem: ensigame.com
O Deepseek V3 aproveita as tecnologias inovadoras: Previsão com vários toques (MTP) para maior precisão e eficiência, mistura de especialistas (MOE) empregando 256 redes neurais para desempenho aprimorado e atenção latente de várias cabeças (MLA) para capturar detalhes cruciais. Esses avanços contribuem para sua vantagem competitiva.
imagem: ensigame.com
Ao contrário da reivindicação inicial de US $ 6 milhões, um relatório de semiânica revela que a DeepSeek opera uma infraestrutura maciça de aproximadamente 50.000 GPUs NVIDIA (incluindo H800, H100 e H20) em vários data centers, representando um investimento total de aproximadamente US $ 1,6 bilhão e custos operacionais de US $ 944 milhão. Isso inclui salários substanciais para os pesquisadores, alguns ganhando mais de US $ 1,3 milhão anualmente. O número de US $ 6 milhões reflete apenas os custos de GPU pré-treinamento, excluindo P&D, refinamento, processamento de dados e infraestrutura.
imagem: ensigame.com
O sucesso da Deepseek decorre de investimentos significativos (mais de US $ 500 milhões em desenvolvimento de IA), avanços tecnológicos e uma equipe altamente qualificada. Enquanto sua estrutura enxuta ajuda a inovação, a narrativa "orçamentária" é uma simplificação excessiva. O autofinanciamento e a propriedade da empresa de seus data centers fornecem vantagens significativas sobre os concorrentes baseados em nuvem. Além disso, o foco de Deepseek no talento doméstico (sem especialistas estrangeiros) é digno de nota.
imagem: ensigame.com
Apesar dos custos esclarecidos, a conquista da DeepSeek destaca o potencial de empresas independentes de IA bem financiadas para competir efetivamente com players estabelecidos, mesmo que as reivindicações de custo inicial exijam um escrutínio adicional. O forte contraste entre o investimento geral da Deepseek e o custo de treinamento inicialmente divulgado ressalta a complexidade do desenvolvimento da IA.