Développement en profondeur de l'IA: 1,6 milliard de dollars dépensé, démystifier le mythe

Apr 15,25

Le chatbot de Deepseek, qui s'est présenté avec la ligne intrigante "Salut, j'ai été créé afin que vous puissiez demander n'importe quoi et obtenir une réponse qui pourrait même vous surprendre", est rapidement devenu un formidable concurrent sur le marché de l'IA. Son impact a été si significatif qu'il a conduit à l'une des plus grandes baisses du cours des actions de Nvidia. Cette réalisation est enracinée dans l'approche innovante de Deepseek à l'architecture du modèle d'IA et aux méthodes de formation.

Le modèle de Deepseek se démarque en raison de son utilisation de plusieurs technologies avancées. Le premier est la prédiction multi-token (MTP) , où le modèle prédit plusieurs mots à la fois en analysant différentes parties d'une phrase. Cela améliore non seulement la précision mais améliore également l'efficacité. Une autre caractéristique clé est le mélange d'architecture d'experts (MOE) , qui utilise 256 réseaux de neurones, activant huit pour chaque tâche de traitement de jeton. Cela accélère la formation et stimule les performances. Enfin, l'attention latente multi-tête (MLA) se concentre sur des parties cruciales d'une phrase, extrait à plusieurs reprises les détails clés pour capturer des nuances importantes dans les données d'entrée.

Test de profondeur Image: esigame.com

Deepseek, une startup chinoise de premier plan, prétend avoir développé ce modèle d'IA compétitif à un coût minimal. Ils déclarent qu'ils ont dépensé seulement 6 millions de dollars pour la formation de Deepseek V3, en utilisant seulement 2048 processeurs graphiques. Cependant, les analystes de semi-analyse ont découvert que Deepseek exploite une vaste infrastructure de calcul, comprenant environ 50 000 GPU de trémie NVIDIA, dont 10 000 unités H800, 10 000 H100 et des GPU H20 supplémentaires. Ces ressources sont réparties sur plusieurs centres de données et utilisées pour la formation, la recherche et la modélisation financière de l'IA.

Deepseek v3 Image: esigame.com

L'investissement total de la société dans les serveurs est d'environ 1,6 milliard de dollars, avec des dépenses opérationnelles estimées à 944 millions de dollars. Deepseek est une filiale du High Flyer chinois, qui a détruit la startup en 2023 pour se concentrer sur les technologies de l'IA. Contrairement à la plupart des startups, Deepseek possède ses centres de données, ce qui permet un contrôle total sur l'optimisation du modèle d'IA et la mise en œuvre plus rapide de l'innovation. L'entreprise reste autofinancée, améliorant sa flexibilité et sa vitesse de prise de décision.

En profondeur Image: esigame.com

De plus, Deepseek attire les meilleurs talents des grandes universités chinoises, certains chercheurs gagnant plus de 1,3 million de dollars par an. Malgré la réclamation de l'entreprise de dépenser seulement 6 millions de dollars en formation, ce chiffre ne représente que l'utilisation du GPU pendant la pré-formation et exclut les dépenses de recherche, le raffinement des modèles, le traitement des données et les coûts d'infrastructure. Depuis sa création, Deepseek a investi plus de 500 millions de dollars dans le développement de l'IA. Sa structure compacte lui permet de mettre en œuvre les innovations d'IA activement et efficacement.

En profondeur Image: esigame.com

L'exemple de Deepseek démontre qu'une entreprise d'IA indépendante bien financée peut rivaliser avec les leaders de l'industrie. Cependant, les experts notent que le succès de l'entreprise est dû à des investissements importants, à des percées techniques et à une équipe solide, plutôt qu'à un "budget révolutionnaire" pour le développement de modèles d'IA. Malgré cela, les coûts de Deepseek restent inférieurs à ceux de ses concurrents; Par exemple, alors que Deepseek a dépensé 5 millions de dollars sur R1, le chatppt4o a coûté 100 millions de dollars pour s'entraîner.

Actualité à la Une
Plus
Copyright © 2024 godbu.com All rights reserved.