Zaskakująco niedrogi model AI Deepseek wyzwala gigantów branżowych. Ten chiński start-up, spółka zależna funduszu hedgingowego o wysokiej flyer, twierdzi, że przeszkolił swój potężny model Deepseek V3 za zaledwie 6 milionów dolarów, wykorzystując tylko 2048 procesorów GPU. Kontrastuje to ostro z zgłoszonym kosztem szkolenia w wysokości 100 milionów dolarów Chatgpt4o. Jednak rzeczywistość jest bardziej dopracowana.
Obraz: engame.com
Deepseek V3 wykorzystuje innowacyjne technologie: prognozowanie wielu tokenów (MTP) w celu poprawy dokładności i wydajności, mieszanki ekspertów (MOE) wykorzystujących 256 sieci neuronowych do zwiększonej wydajności i wieloskładnikowej uwagi (MLA) w celu uchwycenia kluczowych szczegółów. Postępy te przyczyniają się do przewagi konkurencyjnej.
Obraz: engame.com
W przeciwieństwie do początkowego roszczenia w wysokości 6 milionów dolarów, raport semianalizy ujawnia, że DeepSeek prowadzi ogromną infrastrukturę około 50 000 GPU NVIDIA (w tym jednostki H800, H100 i H20) w wielu centrach danych, co stanowi całkowitą inwestycję około 1,6 miliarda USD i koszty operacyjne 944 USD milion. Obejmuje to znaczne wynagrodzenie dla badaczy, niektóre zarabiają ponad 1,3 miliona dolarów rocznie. Liczba 6 milionów dolarów odzwierciedla jedynie koszty GPU przed treningiem, z wyłączeniem badań i rozwoju, udoskonalania, przetwarzania danych i infrastruktury.
Obraz: engame.com
Sukces Deepseek wynika ze znacznych inwestycji (ponad 500 milionów dolarów w rozwoju sztucznej inteligencji), przełomów technologicznych i wysoko wykwalifikowanego zespołu. Podczas gdy jego szczupła struktura pomaga innowacje, narracja „przyjazna budżetowi” jest nadmiernym uproszczeniem. Samo finansowanie i własność centrów danych firmy zapewniają znaczące zalety w porównaniu z konkurentami w chmurze. Ponadto koncentracja Deepseek na talentach krajowych (bez zagranicznych specjalistów) jest godna uwagi.
Obraz: engame.com
Pomimo wyjaśnionych kosztów, osiągnięcia Deepseek podkreśla potencjał dobrze finansowanych niezależnych firm AI do skutecznego konkurowania z uznanymi graczami, nawet jeśli początkowe roszczenia dotyczące kosztów wymagają dalszej kontroli. Stróśny kontrast między ogólną inwestycją Deepseeka a początkowo nagłośnionymi kosztami szkolenia podkreśla złożoność rozwoju sztucznej inteligencji.