Desenvolvimento da AI Deepseek: US $ 1,6 bilhão gasto, desmistificando o mito da acessibilidade

Apr 15,25

O chatbot de Deepseek, que se apresentou com a linha intrigante "Oi, eu fui criado para que você possa perguntar qualquer coisa e obter uma resposta que possa até surpreendê -lo", rapidamente emergiu como um concorrente formidável no mercado de IA. Seu impacto foi tão significativo que levou a uma das maiores quedas de preço das ações da NVIDIA. Essa conquista está enraizada na abordagem inovadora da Deepseek para os métodos de arquitetura e treinamento de modelos de IA.

O modelo de Deepseek se destaca devido ao uso de várias tecnologias avançadas. O primeiro é a previsão de vários toques (MTP) , onde o modelo prevê várias palavras ao mesmo tempo analisando diferentes partes de uma frase. Isso não apenas melhora a precisão, mas também aumenta a eficiência. Outra característica essencial é a mistura da arquitetura de especialistas (MOE) , que emprega 256 redes neurais, ativando oito para cada tarefa de processamento de token. Isso acelera o treinamento e aumenta o desempenho. Por fim, a atenção latente de várias cabeças (MLA) se concentra nas partes cruciais de uma frase, extraindo repetidamente os principais detalhes para capturar nuances importantes nos dados de entrada.

Teste Deepseek Imagem: Ensigame.com

A Deepseek, uma proeminente startup chinesa, afirma ter desenvolvido esse modelo competitivo de IA a um custo mínimo. Eles afirmam que gastaram apenas US $ 6 milhões no treinamento do Deepseek V3, utilizando apenas 2048 processadores gráficos. No entanto, analistas da semiânica descobriram que a DeepSeek opera uma vasta infraestrutura computacional, compreendendo cerca de 50.000 GPUs NVIDIA Hopper, incluindo 10.000 unidades H800, 10.000 H100s e GPUs H20 adicionais. Esses recursos estão espalhados por vários data centers e usados ​​para treinamento, pesquisa e modelagem financeira de IA.

Deepseek v3 Imagem: Ensigame.com

O investimento total da empresa em servidores é de aproximadamente US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões. A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, que saiu da startup em 2023 para se concentrar nas tecnologias de IA. Diferentemente da maioria das startups, a DeepSeek possui seus data centers, permitindo o controle total sobre a otimização do modelo de IA e a implementação mais rápida da inovação. A empresa permanece autofinanciada, aumentando sua flexibilidade e velocidade de tomada de decisão.

Deepseek Imagem: Ensigame.com

Além disso, a Deepseek atrai os principais talentos das principais universidades chinesas, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente. Apesar da reivindicação da empresa de gastar apenas US $ 6 milhões em treinamento, esse número é responsável apenas pelo uso da GPU durante o pré-treinamento e exclui despesas de pesquisa, refinamento de modelos, processamento de dados e custos de infraestrutura. Desde a sua criação, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. Sua estrutura compacta permite implementar inovações de IA ativa e eficaz.

Deepseek Imagem: Ensigame.com

O exemplo da Deepseek demonstra que uma empresa de IA independente e bem financiada pode competir com os líderes do setor. No entanto, os especialistas observam que o sucesso da empresa se deve a investimentos significativos, avanços técnicos e uma equipe forte, em vez de um "orçamento revolucionário" para o desenvolvimento de modelos de IA. Apesar disso, os custos da Deepseek permanecem inferiores aos de seus concorrentes; Por exemplo, enquanto Deepseek gastou US $ 5 milhões em R1, o ChatGPT4O custou US $ 100 milhões para treinar.

Manchetes
Mais
Copyright © 2024 godbu.com All rights reserved.