Deepseekの驚くほど安価なAIモデルは、業界の巨人に挑戦しています。高飛行者ヘッジファンドの子会社であるこの中国の新興企業は、2048 GPUのみを使用して、その強力なDeepSeek V3モデルをわずか600万ドルで訓練したと主張しています。これは、報告された1億ドルのトレーニングCHATGPT4Oのコストと大幅に対照的です。しかし、現実はより微妙です。
画像:Ensigame.com
Deepseek V3は革新的な技術を活用しています:精度と効率を向上させるためのマルチトークン予測(MTP)、256のニューラルネットワークを採用してパフォーマンスを向上させるために256のニューラルネットワークを使用し、マルチヘッドの潜在的な注意(MLA)が重要な詳細をキャプチャします。これらの進歩は、その競争力に貢献しています。
画像:Ensigame.com
最初の600万ドルの請求とは反対に、Semianalysisの報告書は、Deepseekが複数のデータセンターで約50,000のNVIDIA GPU(H800、H100、およびH20ユニットを含む)の大規模なインフラストラクチャを運営しており、総投資額は約16億ドルで、運用コストは944444444ドルであることを明らかにしています。百万。これには、研究者の相当な給与が含まれ、一部は年間130万ドル以上を獲得しています。 600万ドルの数値は、R&D、洗練、データ処理、およびインフラストラクチャを除く、トレーニング前のGPUコストのみを反映しています。
画像:Ensigame.com
Deepseekの成功は、多大な投資(AI開発で5億ドルを超える)、技術的なブレークスルー、高度なスキルを持つチームに由来しています。その無駄のない構造はイノベーションを支援しますが、「予算に優しい」物語は単純化しすぎです。同社のデータセンターの自己資金と所有権は、クラウドベースの競合他社よりも大きな利点を提供します。さらに、Deepseekが国内の才能に焦点を当てている(外国人専門家はいない)ことは注目に値します。
画像:Ensigame.com
明確なコストにもかかわらず、DeepSeekの功績は、初期のコスト請求がさらに精査を必要とする場合でも、資金提供された独立したAI企業が確立されたプレーヤーと効果的に競争する可能性を強調しています。 DeepSeekの全体的な投資と当初公開されたトレーニングコストとの顕著な対照は、AI開発の複雑さを強調しています。