Pembangunan AI DeepSeek: $ 1.6 bilion dibelanjakan, membatalkan mitos kemampuan

Apr 15,25

Chatbot Deepseek, yang memperkenalkan dirinya dengan garis yang menarik "Hai, saya dicipta supaya anda boleh meminta apa -apa dan mendapatkan jawapan yang mungkin mengejutkan anda," telah muncul dengan cepat sebagai pesaing yang hebat di pasaran AI. Impaknya sangat penting sehingga ia membawa kepada salah satu penurunan harga saham terbesar di Nvidia. Pencapaian ini berakar dalam pendekatan inovatif DeepSeek terhadap model seni bina dan kaedah latihan AI.

Model DeepSeek menonjol kerana penggunaan beberapa teknologi canggih. Yang pertama adalah ramalan multi-token (MTP) , di mana model meramalkan beberapa perkataan sekaligus dengan menganalisis bahagian-bahagian yang berlainan dari ayat. Ini bukan sahaja meningkatkan ketepatan tetapi juga meningkatkan kecekapan. Satu lagi ciri utama ialah Campuran Seni Bina Pakar (MOE) , yang menggunakan 256 rangkaian saraf, mengaktifkan lapan untuk setiap tugas pemprosesan token. Ini mempercepat latihan dan meningkatkan prestasi. Akhir sekali, Perhatian Laten Multi-Head (MLA) memberi tumpuan kepada bahagian-bahagian penting ayat, berulang kali mengeluarkan butiran utama untuk menangkap nuansa penting dalam data input.

Ujian DeepSeek Imej: ensigame.com

Deepseek, permulaan Cina yang terkenal, mendakwa telah membangunkan model AI yang kompetitif ini dengan kos yang minimum. Mereka menyatakan bahawa mereka hanya menghabiskan $ 6 juta untuk latihan DeepSeek v3, menggunakan hanya 2048 pemproses grafik. Walau bagaimanapun, penganalisis dari semianalysis telah mendedahkan bahawa DeepSeek mengendalikan infrastruktur pengiraan yang luas, yang terdiri daripada sekitar 50,000 GPU NVIDIA Hopper, termasuk 10,000 H800 unit, 10,000 H100s, dan GPU tambahan H20. Sumber -sumber ini tersebar di pelbagai pusat data dan digunakan untuk latihan AI, penyelidikan, dan pemodelan kewangan.

DeepSeek V3 Imej: ensigame.com

Jumlah pelaburan syarikat dalam pelayan adalah kira -kira $ 1.6 bilion, dengan perbelanjaan operasi dianggarkan $ 944 juta. DeepSeek adalah anak syarikat dana lindung nilai Cina yang tinggi, yang memancarkan permulaan pada tahun 2023 untuk memberi tumpuan kepada teknologi AI. Tidak seperti kebanyakan pemula, DeepSeek memiliki pusat datanya, yang membolehkan kawalan penuh ke atas pengoptimuman model AI dan pelaksanaan inovasi yang lebih cepat. Syarikat itu tetap dibiayai sendiri, meningkatkan kelajuan fleksibiliti dan membuat keputusan.

Deepseek Imej: ensigame.com

Lebih -lebih lagi, DeepSeek menarik bakat teratas dari universiti -universiti China yang terkemuka, dengan beberapa penyelidik memperoleh lebih dari $ 1.3 juta setiap tahun. Walaupun tuntutan perbelanjaan syarikat hanya $ 6 juta untuk latihan, angka ini hanya menyumbang penggunaan GPU semasa latihan pra-latihan dan tidak termasuk perbelanjaan penyelidikan, penghalusan model, pemprosesan data, dan kos infrastruktur. Sejak penubuhannya, DeepSeek telah melabur lebih daripada $ 500 juta dalam pembangunan AI. Struktur padatnya membolehkannya melaksanakan inovasi AI secara aktif dan berkesan.

Deepseek Imej: ensigame.com

Contoh DeepSeek menunjukkan bahawa syarikat AI yang dibiayai dengan baik dapat bersaing dengan pemimpin industri. Walau bagaimanapun, pakar -pakar mencatatkan bahawa kejayaan syarikat adalah disebabkan oleh pelaburan yang signifikan, kejayaan teknikal, dan pasukan yang kuat, bukannya "anggaran revolusioner" untuk membangunkan model AI. Walaupun begitu, kos DeepSeek kekal lebih rendah daripada pesaingnya; Sebagai contoh, sementara DeepSeek membelanjakan $ 5 juta pada R1, chatgpt4o berharga $ 100 juta untuk melatih.

Berita Teratas
Lagi
Copyright © 2024 godbu.com All rights reserved.