DeepSeek AI开发:花费16亿美元,揭穿负担能力神话
DeepSeek的聊天机器人以有趣的线条为“嗨,我是被创建的,所以您可以问任何问题,甚至可能会让您感到惊讶。”它的影响是如此重大,以至于导致NVIDIA最大的股价下跌之一。这项成就源于DeepSeek对AI模型架构和培训方法的创新方法。
DeepSeek的模型由于使用了几种高级技术而脱颖而出。第一个是多语预测(MTP) ,该模型通过分析句子的不同部分立即预测多个单词。这不仅提高了准确性,还提高了效率。另一个关键功能是专家(MOE)体系结构的混合,该体系结构采用256个神经网络,为每个令牌处理任务激活8个。这加速了培训并提高了表现。最后,多头潜在注意力(MLA)着重于句子的关键部分,反复提取关键细节以捕获输入数据中的重要细微差别。
图片:ensigame.com
DeepSeek是一家著名的中国初创公司,声称自己以最低的成本开发了这种具有竞争性的AI模型。他们指出,他们仅利用2048个图形处理器来培训DeepSeek V3。但是,来自半分析的分析师发现,DeepSeek经营着庞大的计算基础设施,其中包括约50,000个NVIDIA HOPPER GPU,其中包括10,000 H800单位,10,000 H100和其他H20 GPU。这些资源分布在多个数据中心,并用于AI培训,研究和财务建模。
图片:ensigame.com
该公司对服务器的总投资约为16亿美元,运营费用估计为9.44亿美元。 DeepSeek是中国对冲基金高飞行员的子公司,该基金在2023年脱颖而出,专注于AI技术。与大多数初创公司不同,DeepSeek拥有其数据中心,从而可以完全控制AI模型优化和更快的创新实现。该公司保持自筹资金,提高其灵活性和决策速度。
图片:ensigame.com
此外,DeepSeek吸引了领先的中国大学的顶尖人才,一些研究人员每年收入超过130万美元。尽管该公司声称在培训上仅花费600万美元,但该数字仅在预培训期间占用GPU使用,不包括研究费用,改进,数据处理和基础设施成本。自成立以来,DeepSeek已在AI开发方面投资了超过5亿美元。它的紧凑结构使其能够积极有效地实施AI创新。
图片:ensigame.com
DeepSeek的例子表明,一家资金充足的独立AI公司可以与行业领导者竞争。但是,专家指出,该公司的成功是由于重大投资,技术突破和强大的团队,而不是开发AI模型的“革命性预算”。尽管如此,DeepSeek的成本仍低于其竞争对手的成本;例如,虽然DeepSeek花了500万美元在R1上,但Chatgpt4o的培训花费了1亿美元。