Deepseek AI開発:16億ドルを費やし、手頃な価格の神話を暴きます
Deepseekのチャットボットは、興味深いライン「こんにちは、私は何でも尋ねて驚かされるかもしれない答えを得ることができる」という興味深いラインで紹介しました。その影響は非常に重要であったため、Nvidiaの最大の株価下落の1つにつながりました。この成果は、AIモデルアーキテクチャとトレーニング方法に対するDeepseekの革新的なアプローチに根ざしています。
Deepseekのモデルは、いくつかの高度な技術の使用により際立っています。 1つ目はマルチトークン予測(MTP)で、文の異なる部分を分析することにより、モデルが一度に複数の単語を予測します。これにより、精度が向上するだけでなく、効率が向上します。もう1つの重要な機能は、256個のニューラルネットワークを採用している専門家(MOE)アーキテクチャの混合物であり、トークン処理タスクごとに8個をアクティブにします。これにより、トレーニングが加速し、パフォーマンスが向上します。最後に、マルチヘッドの潜在的注意(MLA)は、文の重要な部分に焦点を当て、入力データの重要なニュアンスをキャプチャするために重要な詳細を繰り返し抽出します。
画像:Ensigame.com
中国の著名な新興企業であるDeepseekは、この競争力のあるAIモデルを最小限のコストで開発したと主張しています。彼らは、2048のグラフィックプロセッサを使用して、Deepseek V3のトレーニングにわずか600万ドルを費やしたと述べています。ただし、Semianalysisのアナリストは、DeepSeekが10,000 H800ユニット、10,000 H100、追加のH20 GPUを含む約50,000のNVIDIAホッパーGPUを含む膨大な計算インフラストラクチャを運営していることを明らかにしています。これらのリソースは、複数のデータセンターに広がり、AIトレーニング、研究、財務モデリングに使用されます。
画像:Ensigame.com
同社のサーバーへの総投資は約16億ドルで、運用費用は9億4,400万ドルと推定されています。 Deepseekは、中国のヘッジファンド高飛行者の子会社であり、2023年にAIテクノロジーに焦点を当てるためにスタートアップを紡ぎました。ほとんどのスタートアップとは異なり、DeepSeekはデータセンターを所有しており、AIモデルの最適化とイノベーションの実装をより高速に制御できます。同社は自己資金のままであり、柔軟性と意思決定速度を向上させています。
画像:Ensigame.com
さらに、Deepseekは中国の主要な大学のトップの才能を引き付け、一部の研究者は年間130万ドル以上を稼いでいます。トレーニングにわずか600万ドルを費やすという同社の主張にもかかわらず、この数字は、トレーニング前のGPU使用のみを占め、研究費用、モデルの改良、データ処理、インフラストラクチャコストを除外しています。 Deepseekは設立以来、AI開発に5億ドル以上を投資してきました。そのコンパクト構造により、AIイノベーションを積極的かつ効果的に実装できます。
画像:Ensigame.com
Deepseekの例は、資金提供された独立したAI企業が業界のリーダーと競争できることを示しています。しかし、専門家は、同社の成功は、AIモデルを開発するための「革新的な予算」ではなく、多大な投資、技術的なブレークスルー、および強力なチームによるものであると指摘しています。それにもかかわらず、DeepSeekのコストは競合他社のコストよりも低いままです。たとえば、DeepseekはR1に500万ドルを費やしましたが、ChatGpt4oは訓練に1億ドルの費用がかかりました。