Development ng Deepseek AI: $ 1.6 bilyon na ginugol, pag -debunk ng mitolohiya ng kakayahang magamit

Bahay > Balita > Development ng Deepseek AI: $ 1.6 bilyon na ginugol, pag -debunk ng mitolohiya ng kakayahang magamit

Development ng Deepseek AI: $ 1.6 bilyon na ginugol, pag -debunk ng mitolohiya ng kakayahang magamit

Apr 15,25

Ang Chatbot ng Deepseek, na nagpakilala sa sarili sa nakakaintriga na linya na "Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka," mabilis na lumitaw bilang isang kakila -kilabot na katunggali sa merkado ng AI. Ang epekto nito ay napakahalaga na humantong ito sa isa sa pinakamalaking pagbagsak ng presyo ng stock ng NVIDIA. Ang tagumpay na ito ay nakaugat sa makabagong diskarte ng Deepseek sa AI Model Architecture at mga pamamaraan ng pagsasanay.

Ang modelo ng Deepseek ay nakatayo dahil sa paggamit nito ng maraming mga advanced na teknolohiya. Ang una ay multi-token prediction (MTP) , kung saan hinuhulaan ng modelo ang maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang bahagi ng isang pangungusap. Hindi lamang ito nagpapabuti ng kawastuhan ngunit nagpapabuti din ng kahusayan. Ang isa pang pangunahing tampok ay ang halo ng arkitektura ng mga eksperto (MOE) , na gumagamit ng 256 neural network, na nag -activate ng walong para sa bawat gawain sa pagproseso ng token. Pinapabilis nito ang pagsasanay at pinalalaki ang pagganap. Panghuli, ang multi-head latent attention (MLA) ay nakatuon sa mga mahahalagang bahagi ng isang pangungusap, paulit-ulit na pagkuha ng mga pangunahing detalye upang makuha ang mga mahahalagang nuances sa data ng pag-input.

Pagsubok sa Deepseek Larawan: ensigame.com

Ang Deepseek, isang kilalang pagsisimula ng Tsino, ay nagsasabing binuo ang mapagkumpitensyang modelo ng AI na ito sa isang minimal na gastos. Sinabi nila na gumugol lamang sila ng $ 6 milyon sa pagsasanay sa Deepseek V3, na gumagamit lamang ng 2048 na mga graphic processors. Gayunpaman, ang mga analyst mula sa semianalysis ay walang takip na ang Deepseek ay nagpapatakbo ng isang malawak na imprastraktura ng computational, na binubuo ng halos 50,000 NVIDIA HOPPER GPU, kabilang ang 10,000 H800 unit, 10,000 H100s, at karagdagang mga H20 GPU. Ang mga mapagkukunang ito ay kumakalat sa maraming mga sentro ng data at ginamit para sa pagsasanay, pananaliksik, at pagmomolde ng pananalapi.

Deepseek v3 Larawan: ensigame.com

Ang kabuuang pamumuhunan ng kumpanya sa mga server ay humigit -kumulang $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon. Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na nag-iwas sa pagsisimula noong 2023 upang tumuon sa mga teknolohiya ng AI. Hindi tulad ng karamihan sa mga startup, ang Deepseek ay nagmamay -ari ng mga sentro ng data nito, na nagpapahintulot sa buong kontrol sa pag -optimize ng modelo ng AI at mas mabilis na pagpapatupad ng pagbabago. Ang kumpanya ay nananatiling pondo sa sarili, pagpapahusay ng kakayahang umangkop at bilis ng paggawa ng desisyon.

Deepseek Larawan: ensigame.com

Bukod dito, ang Deepseek ay nakakaakit ng nangungunang talento mula sa nangungunang unibersidad ng Tsino, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon. Sa kabila ng pag-angkin ng kumpanya na gumastos lamang ng $ 6 milyon sa pagsasanay, ang figure na ito ay nagkakaroon lamang ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang mga gastos sa pananaliksik, pagpipino ng modelo, pagproseso ng data, at mga gastos sa imprastraktura. Mula nang ito ay umpisahan, ang Deepeek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Ang compact na istraktura nito ay nagbibigay -daan upang maipatupad ang mga makabagong AI na aktibo at epektibo.

Deepseek Larawan: ensigame.com

Ang halimbawa ng Deepseek ay nagpapakita na ang isang mahusay na pondo, independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga pinuno ng industriya. Gayunpaman, tandaan ng mga eksperto na ang tagumpay ng kumpanya ay dahil sa mga makabuluhang pamumuhunan, mga teknikal na tagumpay, at isang malakas na koponan, sa halip na isang "rebolusyonaryong badyet" para sa pagbuo ng mga modelo ng AI. Sa kabila nito, ang mga gastos sa Deepseek ay mananatiling mas mababa kaysa sa mga katunggali nito; Halimbawa, habang ang Deepseek ay gumugol ng $ 5 milyon sa R1, ang Chatgpt4o ay nagkakahalaga ng $ 100 milyon upang sanayin.

Susunod

Nangungunang 30 Mga Larong Pakikipagsapalaran ay isiniwalat

Nangungunang Balita

Higit pa