DeepSeek AI Development: 1,6 млрд. Долл.

Apr 15,25

Чатбот DeepSeek, который предстал перед интригующей линией «Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас», быстро стал грозным конкурентом на рынке искусственного интеллекта. Его влияние было настолько значительным, что привело к одному из крупнейших падений цен на акции Nvidia. Это достижение основано на инновационном подходе DeepSeek к архитектуре моделей ИИ и методам обучения.

Модель DeepSeek выделяется из -за его использования нескольких передовых технологий. Первым является предсказание мульти-ток (MTP) , где модель предсказывает несколько слов одновременно, анализируя различные части предложения. Это не только повышает точность, но и повышает эффективность. Другой ключевой особенностью является смесь архитектуры экспертов (MOE) , в которой используются 256 нейронных сетей, активируя восемь для каждой задачи обработки токенов. Это ускоряет обучение и повышает производительность. Наконец, мультиголовое скрытое внимание (MLA) фокусируется на важных частях предложения, неоднократно извлекая ключевые детали для захвата важных нюансов во входных данных.

Тест DeepSeek Изображение: Ensigame.com

DeepSeek, известный китайский стартап, утверждает, что разработал эту конкурентную модель искусственного интеллекта с минимальными затратами. Они заявляют, что потратили всего 6 миллионов долларов на обучение DeepSeek V3, используя всего 2048 графических процессоров. Тем не менее, аналитики полуанализа обнаружили, что DeepSeek управляет обширной вычислительной инфраструктурой, включающей около 50 000 графических процессоров NVIDIA, в том числе 10 000 единиц H800, 10 000 H100 и дополнительных графических процессоров H20. Эти ресурсы распространяются по нескольким центрам обработки данных и используются для обучения, исследований и финансового моделирования искусственного интеллекта.

DeepSeek v3 Изображение: Ensigame.com

Общие инвестиции компании в серверы составляют приблизительно 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 млн. Долл. США. DeepSeek является дочерней компанией китайского хедж-фонда High-Fund, который отказался от стартапа в 2023 году, чтобы сосредоточиться на технологиях искусственного интеллекта. В отличие от большинства стартапов, DeepSeek владеет своими центрами обработки данных, позволяя полному контролю над оптимизацией модели искусственного интеллекта и более быстрой реализации инноваций. Компания остается самофинансированной, повышая свою гибкость и скорость принятия решений.

DeepSeek Изображение: Ensigame.com

Более того, Deepseek привлекает лучшие таланты от ведущих китайских университетов, а некоторые исследователи зарабатывают более 1,3 миллиона долларов в год. Несмотря на претензию компании о тратях всего 6 миллионов долларов на обучение, эта цифра учитывает только использование графического процессора во время предварительного обучения и исключает расходы на исследовательские расходы, уточнение модели, обработку данных и затраты на инфраструктуру. С момента своего создания DeepSeek инвестировала более 500 миллионов долларов в разработку ИИ. Его компактная структура позволяет активно и эффективно реализовать инновации искусственного интеллекта.

DeepSeek Изображение: Ensigame.com

Пример DeepSeek демонстрирует, что хорошо финансируемая независимая компания по искусству может конкурировать с лидерами отрасли. Тем не менее, эксперты отмечают, что успех компании связан с значительными инвестициями, техническими прорывами и сильной командой, а не «революционным бюджетом» для разработки моделей ИИ. Несмотря на это, затраты Deepseek остаются ниже, чем у его конкурентов; Например, в то время как Deepseek потратил 5 миллионов долларов на R1, Chatgpt4o стоил 100 миллионов долларов на тренировку.

Главные новости
Более
Copyright © 2024 godbu.com All rights reserved.