Deepseek AI Development: 1,6 miliarda dolarów, obalanie mitu przystępności cenowej

Apr 15,25

Chatbot Deepseek, który wprowadził się z intrygującą linią „Cześć, zostałam stworzona, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć”, szybko pojawił się jako potężny konkurent na rynku AI. Jego wpływ był tak znaczący, że doprowadził do jednego z największych spadków cen akcji w Nvidii. Osiągnięcie to zakorzenione jest w innowacyjnym podejściu Deepseek do architektury modelowej i metod treningowych.

Model Deepseek wyróżnia się ze względu na wykorzystanie kilku zaawansowanych technologii. Pierwszym z nich jest prognozowanie wielu tokenów (MTP) , gdzie model przewiduje wiele słów jednocześnie poprzez analizę różnych części zdania. To nie tylko poprawia dokładność, ale także zwiększa wydajność. Kolejną kluczową cechą jest mieszanka architektury ekspertów (MOE) , która wykorzystuje 256 sieci neuronowych, aktywując osiem dla każdego zadania przetwarzania tokenów. To przyspiesza szkolenie i zwiększa wydajność. Wreszcie, wielokrotna uwaga utajona (MLA) koncentruje się na kluczowych częściach zdania, wielokrotnie wyodrębniając kluczowe szczegóły w celu przechwytywania ważnych niuansów w danych wejściowych.

Test Deepseek Zdjęcie: engame.com

Deepseek, wybitny chiński startup, twierdzi, że opracował ten konkurencyjny model sztucznej inteligencji przy minimalnych kosztach. Stwierdzają, że wydali tylko 6 milionów dolarów na szkolenie Deepseek V3, wykorzystując zaledwie 2048 procesorów graficznych. Jednak analitycy z semianalizy odkryli, że Deepseek prowadzi rozległą infrastrukturę obliczeniową, obejmującą około 50 000 GPU Nvidia Hopper, w tym 10 000 jednostek H800, 10 000 H100 i dodatkowych GPU H20. Zasoby te są rozpowszechniane na wiele centrów danych i wykorzystywane do szkolenia AI, badań i modelowania finansowego.

Deepseek v3 Zdjęcie: engame.com

Całkowita inwestycja Spółki w serwerach wynosi około 1,6 mld USD, a wydatki operacyjne szacowane są na 944 mln USD. Deepseek jest spółką zależną chińskiego funduszu hedgingowego High-Flyer, która odciągnęła startup w 2023 r., Aby skupić się na technologiach AI. W przeciwieństwie do większości startupów, Deepseek jest właścicielem swoich centrów danych, umożliwiając pełną kontrolę nad optymalizacją modelu AI i szybszą implementację innowacji. Firma pozostaje finansowana, zwiększając swoją elastyczność i szybkość podejmowania decyzji.

Deepseek Zdjęcie: engame.com

Ponadto Deepseek przyciąga najlepsze talenty wiodących chińskich uniwersytetów, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie. Pomimo roszczenia firmy o wydawanie zaledwie 6 milionów dolarów na szkolenie, liczba ta uwzględnia tylko wykorzystanie GPU podczas wstępnego treningu i wyklucza koszty badań, udoskonalanie modelu, przetwarzanie danych i koszty infrastruktury. Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jego kompaktowa struktura umożliwia aktywne i skuteczne wdrażanie innowacji AI.

Deepseek Zdjęcie: engame.com

Przykład Deepseek pokazuje, że dobrze finansowana, niezależna firma AI może konkurować z liderami branży. Jednak eksperci zauważają, że sukces firmy wynika z znacznych inwestycji, przełom technicznych i silnym zespołem, a nie „rewolucyjnym budżetem” dla opracowywania modeli AI. Mimo to koszty Deepeek pozostają niższe niż koszty jego konkurentów; Na przykład, podczas gdy Deepseek wydał 5 milionów dolarów na R1, Chatgpt4O kosztował 100 milionów dolarów na trening.

Najważniejsze wiadomości
Więcej
Copyright © 2024 godbu.com All rights reserved.