Tiba -tiba, Deepseek ada di mana -mana.
Model R1 -nya adalah open source, diduga dilatih untuk sebagian kecil dari biaya model AI lainnya, dan sama baiknya, jika tidak lebih baik dari chatgpt.
Kombinasi mematikan ini melanda Wall Street keras, menyebabkan saham teknologi jatuh, dan membuat investor mempertanyakan berapa banyak uang yang dibutuhkan untuk mengembangkan model AI yang baik. Insinyur Deepseek mengklaim R1 dilatih pada 2.788 GPU yang harganya sekitar $ 6 juta, dibandingkan dengan GPT-4 Openai yang dilaporkan berharga $ 100 juta untuk berlatih.
Efisiensi biaya Deepseek juga menantang gagasan bahwa model yang lebih besar dan lebih banyak data mengarah pada kinerja yang lebih baik. Di tengah percakapan yang hiruk -pikuk tentang kemampuan Deepseek, ancamannya terhadap perusahaan AI seperti Openai, dan menakuti investor, mungkin sulit untuk memahami apa yang terjadi. Tetapi para ahli AI dengan pengalaman veteran telah menimbang dengan perspektif yang berharga.
Deepseek membuktikan apa yang dikatakan para ahli AI selama bertahun -tahun: lebih besar tidak lebih baik
Terhambat oleh pembatasan perdagangan dan akses ke GPU NVIDIA, Deepseek yang berbasis di China harus kreatif dalam mengembangkan dan melatih R1. Bahwa mereka dapat mencapai prestasi ini hanya dengan $ 6 juta (yang tidak banyak uang dalam istilah AI) adalah wahyu bagi investor.
Tapi para ahli AI tidak terkejut. “Di Google, saya bertanya mengapa mereka terpaku pada membangun model terbesar. Mengapa Anda berukuran? Fungsi apa yang ingin Anda capai? Mengapa hal yang Anda kesal karena Anda tidak memiliki model terbesar? Mereka Menanggapi dengan memecat saya, “memposting Timnit Gebru, yang terkenal diberhentikan dari Google karena memanggil bias AI, di X.
Kecepatan cahaya yang dapat dipasangkan
Tweet mungkin telah dihapus
Iklim memeluk Face dan pimpinan AI Sasha Luccioni menunjukkan bagaimana investasi AI dibangun secara genting pada pemasaran dan hype. “Sungguh liar bahwa mengisyaratkan bahwa satu (berkinerja tinggi) LLM mampu mencapai kinerja itu tanpa meremehkan omong kosong dari ribuan GPU sudah cukup untuk menyebabkan ini,” kata Luccioni.
Tweet mungkin telah dihapus
Mengklarifikasi Mengapa Deepseek R1 adalah masalah besar
Deepseek R1 melakukan sebanding dengan model OpenAI O1 pada tolok ukur utama. Secara sedikit dilampaui, disamakan, atau jatuh tepat di bawah O1 pada tes matematika, pengkodean, dan pengetahuan umum. Artinya, ada model lain di luar sana, seperti Anthropic Claude, Google Gemini, dan model open source Meta Llama yang sama mampu bagi pengguna rata -rata.
Tetapi R1 menyebabkan hiruk -pikuk seperti itu karena berapa sedikit biaya untuk dibuat. “Ini tidak lebih pintar dari model sebelumnya, hanya dilatih lebih murah,” kata ilmuwan penelitian AI Gary Marcus.
Tweet mungkin telah dihapus
Fakta bahwa Deepseek mampu membangun model yang bersaing dengan model Openai sangat luar biasa. Andrej Karpathy yang ikut mendirikan Openai, diposting di X, “Apakah ini berarti Anda tidak memerlukan kelompok GPU besar untuk Frontier LLMS? Tidak, tetapi Anda harus memastikan bahwa Anda tidak sia-sia dengan apa yang Anda miliki, dan ini terlihat seperti ini Demonstrasi yang bagus bahwa masih banyak yang bisa dilalui dengan data dan algoritma. “
Tweet mungkin telah dihapus
Profesor Wharton AI Ethan Mollick mengatakan ini bukan tentang kemampuannya, tetapi model yang saat ini dapat diakses orang. “Deepseek adalah model yang sangat bagus, tetapi umumnya bukan model yang lebih baik daripada O1 atau Claude,” katanya. “Tapi karena itu gratis dan mendapatkan banyak perhatian, saya pikir banyak orang yang menggunakan model 'mini' gratis yang terpapar dengan apa yang dapat dilakukan dan dikejutkan oleh penalaran AI 2025.”
Tweet mungkin telah dihapus
Skor satu untuk model AI open source
Deepseek R1 Breakout adalah kemenangan besar bagi para pendukung open source yang berpendapat bahwa mendemokratisasi akses ke model AI yang kuat, memastikan transparansi, inovasi, dan persaingan yang sehat. “Kepada orang -orang yang berpikir 'Cina melampaui AS di AI,' pemikiran yang benar adalah 'model open source melampaui yang tertutup,'” kata Yann Lecun, Kepala Ilmuwan AI di Meta, yang telah mendukung sumber terbuka dengan model Llama sendiri sendiri sendiri .
Tweet mungkin telah dihapus
Ilmuwan komputer dan pakar AI Andrew Ng tidak secara eksplisit menyebutkan pentingnya R1 menjadi model open source, tetapi menyoroti bagaimana gangguan Deepseek adalah anugerah bagi pengembang, karena memungkinkan akses yang sebaliknya gatekept oleh teknologi besar.
“'Deepseek jual' hari ini di pasar saham – yang disebabkan oleh Deepseek V3/R1 yang mengganggu ekosistem teknologi – adalah tanda lain bahwa lapisan aplikasi adalah tempat yang tepat untuk menjadi,” kata Ng. “Lapisan model pondasi menjadi hiper-kompetitif sangat bagus untuk orang yang membangun aplikasi.”
Tweet mungkin telah dihapus
Topik
Kecerdasan buatan Deepseek