DeepSeek AI Sviluppo: 1,6 miliardi di dollari spesi, mito di debunking economici

Apr 15,25

Il chatbot di Deepseek, che si è presentato con la linea intrigante "Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti", è emerso rapidamente come un formidabile concorrente nel mercato dell'IA. Il suo impatto è stato così significativo che ha portato a uno dei maggiori calo delle azioni di Nvidia. Questo risultato è radicato nell'approccio innovativo di DeepSeek all'architettura del modello AI e ai metodi di formazione.

Il modello di Deepseek si distingue per l'uso di diverse tecnologie avanzate. Il primo è Multi-Token Prediction (MTP) , in cui il modello prevede più parole contemporaneamente analizzando diverse parti di una frase. Ciò non solo migliora l'accuratezza, ma migliora anche l'efficienza. Un'altra caratteristica chiave è la miscela di architettura di esperti (MOE) , che impiega 256 reti neurali, attivando otto per ogni attività di elaborazione dei token. Questo accelera la formazione e aumenta le prestazioni. Infine, l'attenzione latente multi-testa (MLA) si concentra su parti cruciali di una frase, estraendo ripetutamente dettagli chiave per acquisire importanti sfumature nei dati di input.

Test di DeepSeek Immagine: Ensigame.com

DeepSeek, un'importante startup cinese, afferma di aver sviluppato questo modello di intelligenza artificiale competitivo a un costo minimo. Dichiarano di aver speso solo $ 6 milioni per la formazione di DeepSeek V3, utilizzando solo 2048 processori grafici. Tuttavia, gli analisti della seminalisi hanno scoperto che DeepSeek gestisce una vasta infrastruttura computazionale, comprendente circa 50.000 GPU di Nvidia Hopper, tra cui 10.000 unità H800, 10.000 H100 e GPU H20 aggiuntive. Queste risorse sono distribuite su più data center e utilizzati per la formazione, la ricerca e la modellazione finanziaria dell'IA.

DeepSeek V3 Immagine: Ensigame.com

L'investimento totale della società nei server è di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni. DeepSeek è una consociata dell'Hedge Fund cinese High-Flyer, che ha lasciato la startup nel 2023 per concentrarsi sulle tecnologie di intelligenza artificiale. A differenza della maggior parte delle startup, DeepSeek possiede i suoi data center, consentendo il pieno controllo sull'ottimizzazione del modello AI e sull'implementazione più rapida dell'innovazione. L'azienda rimane autofinanziata, migliorando la sua flessibilità e la velocità decisionale.

Deep -Week Immagine: Ensigame.com

Inoltre, DeepSeek attira i migliori talenti dalle principali università cinesi, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno. Nonostante la pretesa dell'azienda di spendere solo $ 6 milioni in formazione, questa cifra rappresenta solo l'utilizzo della GPU durante il pre-allenamento ed esclude le spese di ricerca, il perfezionamento del modello, l'elaborazione dei dati e i costi di infrastruttura. Fin dalla sua istituzione, DeepSeek ha investito oltre $ 500 milioni nello sviluppo dell'IA. La sua struttura compatta gli consente di implementare innovazioni di intelligenza artificiale attivamente ed efficace.

Deep -Week Immagine: Ensigame.com

L'esempio di Deepseek dimostra che un'azienda di intelligenza artificiale indipendente ben finanziata può competere con i leader del settore. Tuttavia, gli esperti notano che il successo dell'azienda è dovuto a investimenti significativi, scoperte tecniche e un team forte, piuttosto che un "budget rivoluzionario" per lo sviluppo di modelli di intelligenza artificiale. Nonostante ciò, i costi di Deepseek rimangono inferiori a quelli dei suoi concorrenti; Ad esempio, mentre DeepSeek ha speso $ 5 milioni in R1, CHATGPT4O è costato $ 100 milioni per l'allenamento.

Notizie principali
Di più
Copyright © 2024 godbu.com All rights reserved.