DeepSeek AI開發:花費16億美元,揭穿負擔能力神話

Apr 15,25

DeepSeek的聊天機器人以有趣的台詞為“嗨,我是被創建的,這樣您就可以問任何東西並得到一個可能會讓您感到驚訝的答案”,很快就成為了AI市場中強大的競爭對手。它的影響是如此重大,以至於導致NVIDIA最大的股價下跌之一。這項成就源於DeepSeek對AI模型架構和培訓方法的創新方法。

DeepSeek的模型由於使用了幾種高級技術而脫穎而出。第一個是多語預測(MTP) ,該模型通過分析句子的不同部分立即預測多個單詞。這不僅提高了準確性,還提高了效率。另一個關鍵功能是專家(MOE)體系結構的混合,該體系結構採用256個神經網絡,為每個令牌處理任務激活8個。這加速了培訓並提高了表現。最後,多頭潛在註意力(MLA)著重於句子的關鍵部分,反复提取關鍵細節以捕獲輸入數據中的重要細微差別。

DeepSeek測試圖片:ensigame.com

DeepSeek是一家著名的中國初創公司,聲稱自己以最低的成本開發了這種具有競爭性的AI模型。他們指出,他們僅利用2048個圖形處理器來培訓DeepSeek V3。但是,來自半分析的分析師發現,DeepSeek經營著龐大的計算基礎設施,其中包括約50,000個NVIDIA HOPPER GPU,其中包括10,000 H800單位,10,000 H100和其他H20 GPU。這些資源分佈在多個數據中心,並用於AI培訓,研究和財務建模。

DeepSeek V3圖片:ensigame.com

該公司對服務器的總投資約為16億美元,運營費用估計為9.44億美元。 DeepSeek是中國對沖基金高飛行員的子公司,該基金在2023年脫穎而出,專注於AI技術。與大多數初創公司不同,DeepSeek擁有其數據中心,從而可以完全控制AI模型優化和更快的創新實現。該公司保持自籌資金,提高其靈活性和決策速度。

DeepSeek圖片:ensigame.com

此外,DeepSeek吸引了領先的中國大學的頂尖人才,一些研究人員每年收入超過130萬美元。儘管該公司聲稱在培訓上僅花費600萬美元,但該數字僅在預培訓期間佔用GPU使用,不包括研究費用,改進,數據處理和基礎設施成本。自成立以來,DeepSeek已在AI開發方面投資了超過5億美元。它的緊湊結構使其能夠積極有效地實施AI創新。

DeepSeek圖片:ensigame.com

DeepSeek的例子表明,一家資金充足的獨立AI公司可以與行業領導者競爭。但是,專家指出,該公司的成功是由於重大投資,技術突破和強大的團隊,而不是開發AI模型的“革命性預算”。儘管如此,DeepSeek的成本仍低於其競爭對手的成本;例如,雖然DeepSeek花了500萬美元在R1上,但Chatgpt4o的培訓花費了1億美元。

Copyright © 2024 godbu.com All rights reserved.