DeepSeek: Memilah di tengah hiruk-pikuk

Sekelompok paus berenang bersama di lautan biru, dengan matahari bersinar

Penyusun

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Rilis DeepSeek-R1 pada Januari 2025 mengawali rentetan artikel tentang DeepSeek—yang, agak membingungkan, adalah nama perusahaan dan model yang dibuatnya serta chatbot yang berjalan di atas model-model tersebut. Mengingat volume cakupan dan kegembiraan seputar ekonomi pergeseran seismik dalam lingkungan AI, mungkin sulit untuk memisahkan fakta dari spekulasi dan spekulasi dari fiksi.

Berikut adalah panduan langsung untuk membantu Anda memilah artikel lain tentang DeepSeek, memisahkan sinyal dari kebisingan, dan melewatkan hype dan hiperbola. Kami akan mulai dengan beberapa sejarah singkat perusahaan, yang menjelaskan perbedaan antara setiap model DeepSeek yang baru dan menguraikan inovasi mereka yang paling menarik (tanpa terlalu teknis).

Berikut detail singkat tentang hal yang akan kami bahas:

  • Apa itu DeepSeek?

  • Apa sebenarnya DeepSeek-R1 itu? Kami akan menjelaskan proses penyempurnaan ("R1") dan model bahasa besar (LLM)—DeepSeek-V3- yang mereka sempurnakan dengannya.

  • Apa itu DeepSeek-V3? Kami akan membahas bagaimana perbedaannya dari LLM lainnya.

  • Berapa harga DeepSeek-R1? Kami akan meluruskan beberapa kesalahpahaman utama.

  • Apa itu DeepSeek-R1-Distill? Terlepas dari namanya, model R1-Distill pada dasarnya berbeda dari R1.

  • Mengapa Anda perlu mengetahui hal ini? Kami akan menyoroti bagaimana berita utama dapat menyesatkan.

  • Apa yang terjadi selanjutnya?
Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa itu DeepSeek?

DeepSeek adalah lab penelitian AI yang berbasis di Hangzhou, Cina. Ini juga merupakan nama model AI generatif bobot terbuka yang dikembangkannya. Pada akhir Januari 2025, DeepSeek-R1 LLM mereka menjadi berita teknologi dan keuangan utama untuk kinerja yang menyaingi model eksklusif teratas dari OpenAI, Anthropic, dan Google dengan harga yang jauh lebih rendah.

Asal usul DeepSeek (perusahaan) terletak pada High-Flyer, sebuah dana lindung nilai Tiongkok yang didirikan pada tahun 2016 oleh tiga ilmuwan komputer dengan fokus pada strategi perdagangan algoritmik. Pada tahun 2019, perusahaan tersebut menggunakan hasil dari operasi perdagangannya untuk mendirikan anak perusahaan yang didorong oleh AI, High-Flyer AI, dengan investasi yang dilaporkan sebesar USD 28 juta dalam infrastruktur pelatihan pembelajaran mendalam dan melipatgandakan investasi tersebut pada tahun 2021.

Pada tahun 2023, penelitian AI High-Flyer telah berkembang sedemikian rupa sehingga menjamin pembentukan entitas terpisah yang hanya berfokus pada AI—lebih khusus lagi, pada pengembangan kecerdasan umum buatan(AGI). Laboratorium penelitian yang dihasilkan bernama DeepSeek, dengan High-Flyer berfungsi sebagai investor utamanya. Dimulai dengan DeepSeek-coder pada November 2023, DeepSeek telah mengembangkan serangkaian model bobot terbuka yang dihormati yang berfokus terutama pada kinerja matematika dan pengodean.

Pada bulan Desember 2024, lab ini merilis DeepSeek-V3, LLM yang menjadi dasar DeepSeek-R1. Performa terobosan DeepSeek-V3 dan DeepSeek-R1 telah memosisikan lab tersebut sebagai pemimpin yang tak terduga dalam pengembangan AI generatif yang terus bergerak maju.

Apa itu DeepSeek-R1?

DeepSeek-R1 adalah model penalaran yang dibuat dengan menyempurnakan LLM (DeepSeek-V3) untuk menghasilkan proses rantai pemikiran (CoT) langkah demi langkah yang ekstensif sebelum menentukan "output" akhir yang diberikannya kepada pengguna. Model penalaran lainnya termasuk o1 (berdasarkan GPT-4o) dan o3 dari OpenAI, Gemini Flash 2.0 Thinking dari Google (berdasarkan Gemini Flash), dan QwQ terbuka dari Alibaba ("Qwen with Questions"), berdasarkan model Qwen2.5.

Intuisi di balik model penalaran berasal dari penelitian awal yang menunjukkan bahwa hanya dengan menambahkan frasa "berpikir selangkah demi selangkah" secara signifikan meningkatkan output.i Penelitian selanjutnya dari Google DeepMind berteori bahwa meningkatkan komputasi waktu uji (jumlah sumber daya yang digunakan untuk menghasilkan keluaran) dapat meningkatkan kinerja model sama seperti meningkatkan komputasi waktu pelatihan (sumber daya yang digunakan untuk melatih model).

Meskipun model penalaran lebih lambat dan lebih mahal—Anda masih harus menghasilkan (dan membayar) semua token yang digunakan untuk “berpikir” tentang respons akhir, dan token tersebut memakan jendela konteksAnda yang tersedia—mereka telah mendorong garda depan kinerja canggih sejak rilis o1 OpenAI. Terutama, penekanan pada model pelatihan untuk memprioritaskan perencanaan dan pemikiran ke depan telah membuat mereka mahir dalam tugas-tugas tertentu yang melibatkan masalah matematika dan penalaran yang kompleks yang sebelumnya tidak dapat diakses oleh LLM.

Untuk mengetahui lebih lanjut tentang model penalaran, lihat panduan visual yang luar biasa dari Maarten Grootendorst.
 

Mengapa Deepseek-R1 penting?

Kinerja DeepSeek-R1 menyaingi model-model terkemuka, termasuk o1 dari OpenAI dan Claude 3.5 Soneta dari Anthropic, dalam hal matematika, kode, dan tugas-tugas penalaran. Terlepas dari model mana yang "terbaik"—yang bersifat subjektif dan spesifik pada situasi tertentu—ini merupakan prestasi yang luar biasa untuk model terbuka. Namun aspek terpenting dari R1 adalah teknik pelatihan yang diperkenalkan kepada komunitas sumber terbuka.

Biasanya, proses pengambilan LLM standar dari tidak terlatih menjadi siap untuk pengguna akhir adalah sebagai berikut:

  1. Prapelatihan: Model ini mempelajari pola linguistik melalui pembelajaran dengan pengawasan mandiri.

  2. Penyesuaian yang diawasi (SFT): Model ini mempelajari cara menerapkan pola linguistik tersebut dari contoh berlabel.

  3. Pembelajaran penguatan (Reinforcement learning atau RL): Model ini dipandu ke arah pertimbangan yang lebih spesifik dan abstrak. Untuk model berorientasi obrolan standar, langkah ini biasanya memerlukan pembelajaran penguatan dari masukan manusia (RLHF) untuk membuat respons lebih bermanfaat dan tidak berbahaya. Untuk model penalaran, RL digunakan untuk memberi insentif pada “proses berpikir” yang lebih dalam dan lebih lama.

Untuk model penalaran berpemilik seperti o1, detail spesifik dari langkah terakhir ini biasanya merupakan rahasia dagang yang dijaga dengan ketat. Namun DeepSeek telah merilis makalah teknis yang menguraikan proses mereka.
 

Cara kerja DeepSeek-R1

Dalam upaya pertama mereka untuk mengubah DeepSeek-v3 menjadi model penalaran, DeepSeek melewatkan SFT dan beralih langsung dari pra-pelatihan ke skema pembelajaran penguatan sederhana:

  • Kueri model: Ajukan pertanyaan kepada model. Prompt untuk output proses berpikirnya antara "<think>" dan "</think>", dan output jawaban akhirnya antara "<answer>" dan "</answer>".

  • Imbalan akurasi: Beri imbalan kepada model atas kualitas jawabannya (seperti seberapa baik kode yang dihasilkan berjalan).

  • Format imbalan: Berikan imbalan kepada model yang menggunakan format "<think>" dan "<answer>" dengan benar dalam menjawab pertanyaan.

Model yang dihasilkan (yang mereka rilis sebagai “Deepseek-R1-Zero”) belajar untuk menghasilkan rantai pemikiran yang kompleks dan menggunakan strategi penalaran yang menghasilkan kinerja yang mengesankan pada tugas matematika dan penalaran. Prosesnya mudah dan menghindari data berlabel mahal untuk SFT. Sayangnya, seperti yang dijelaskan dalam makalah teknis, "DeepSeek-R1-Zero menghadapi tantangan seperti pengulangan yang tidak ada habisnya, keterbacaan yang buruk, dan pencampuran bahasa."

Untuk melatih penerus R1-Zero, Deepseek-R1, DeepSeek mengubah proses:

  1. Memulai dengan beberapa SFT konvensional untuk menghindari "awal yang dingin"

  2. Menggunakan pembelajaran penguatan gaya R1-Zero, dengan istilah hadiah tambahan untuk menghindari tercampurnya bahasa

  3. Menggunakan model RL-tuned yang dihasilkan (dan model dasar DeepSeek-V3) untuk menghasilkan 800.000 lebih contoh SFT

  4. Menambahkan Lebih Banyak SFT

  5. Menambahkan lebih banyak pembelajaran penguatan gaya R1-Zero
  6. Menggunakan pembelajaran penguatan dari masukan manusia (RLHF) Konvensional

Tetapi proses penyempurnaan itu hanya separuh dari ceritanya. Setengah lainnya adalah model dasar untuk R1: DeepSeek-V3.

Apa itu DeepSeek-V3?

DeepSeek-V3, merupakan tulang punggung DeepSeek-R1, adalah model bahasa yang hanya terdiri dari teks, dengan 671 miliar (671B) parameter campuran para ahli (MoE). Khususnya untuk tugas-tugas matematika, penalaran, dan pengodean, ini bisa dibilang sebagai LLM sumber terbuka paling mumpuni yang tersedia pada Februari 2025. Lebih penting lagi, hal ini secara signifikan lebih cepat dan lebih murah untuk digunakan daripada LLM terkemuka lainnya.

671 miliar parameter berarti ini adalah model yang sangat besar . Sebagai konteks, ketika Meta merilis Llama 3.1 405B—yang 40% lebih kecil dari DeepSeek-V3—pada bulan Juli 2024, pengumuman resminya mendeskripsikannya sebagai "model dasar yang tersedia secara terbuka dan terbesar di dunia."[ii Model ChatGPT asli, GPT-3.5, memiliki 175 miliar parameter. Perlu dicatat bahwa sebagian besar pengembang besar, termasuk OpenAI, Anthropic, dan Google, tidak mengungkapkan jumlah parameter dari model milik mereka.

Jumlah parameter yang lebih besar biasanya meningkatkan “kapasitas” model untuk pengetahuan dan kompleksitas. Lebih banyak parameter berarti lebih banyak cara untuk menyesuaikan model, yang berarti kemampuan yang lebih besar untuk menyesuaikan dengan sudut dan celah data pelatihan. Namun, meningkatkan jumlah parameter model juga meningkatkan kebutuhan komputasi, sehingga menjadi lebih lambat dan lebih mahal.

Jadi bagaimana DeepSeek-V3 (dan karenanya DeepSeek-R1) dapat menjadi cepat dan murah? Jawabannya utamanya terletak pada campuran arsitektur pakar dan bagaimana DeepSeek memodifikasinya.
 

Apa yang dimaksud dengan model campuran ahli (MoE)?

Arsitektur campuran pakar (MoE) membagi lapisan neural networks menjadi sub-jaringan terpisah (atau jaringan pakar) dan menambahkan jaringan gerbang yang merutekan token untuk memilih "pakar". Selama pelatihan, setiap “pakar” akhirnya menjadi terspesialisasi untuk jenis token tertentu—misalnya, satu pakar mungkin belajar mengkhususkan diri dalam tanda baca sementara yang lain menangani preposisi—dan jaringan gating belajar merutekan setiap token ke pakar yang paling tepat.

Alih-alih mengaktifkan setiap parameter model untuk setiap token, model MoE hanya mengaktifkan “pakar” yang paling sesuai dengan token tersebut. DeepSeek-V3 memiliki jumlah parameter total 671 miliar, tetapi jumlah parameter aktifnya hanya 37 miliar. Dengan kata lain, ia hanya menggunakan 37 miliar dari 671 miliar parameternya untuk setiap token yang dibaca atau output.

Jika dilakukan dengan baik, pendekatan MoE ini menyeimbangkan kapasitas jumlah parameter totalnya dengan efisiensi jumlah parameter aktifnya. Secara garis besar, hal ini menjelaskan bagaimana DeepSeek-V3 menawarkan kemampuan model besar dan kecepatan model yang lebih kecil.

MoE mendapat banyak perhatian ketika Mistral AI merilis Mixtral 8x7B pada akhir tahun 2023, dan GPT-4 dikabarkan sebagai MoE. Sementara beberapa penyedia model—terutama IBM Granite, Databricks, Mistral, dan DeepSeek—terus bekerja pada model MoE sejak saat itu, banyak yang terus berfokus pada model "padat" tradisional.

Jadi jika mereka sangat hebat, mengapa MOE tidak lebih ada di mana-mana? Ada 2 penjelasan sederhana:

  • Karena MOE lebih kompleks, mereka juga lebih menantang untuk dilatih dan disempurnakan.

  • Kendati arsitektur MoE mengurangi biaya komputasi, arsitektur ini tidak mengurangi biaya memori: meskipun tidak semua parameter akan diaktifkan sekaligus, Anda masih perlu menyimpan semua parameter tersebut dalam memori jika diaktifkan untuk token tertentu. Oleh karena itu, MOE membutuhkan RAM sebanyak model padat dengan ukuran yang sama, yang tetap menjadi hambatan utama.

Apa keunikan MoE DeepSeek?

DeepSeek-V3 memiliki sejumlah modifikasi teknik cerdas pada arsitektur dasar MoE yang meningkatkan stabilitasnya sekaligus mengurangi penggunaan memori dan mengurangi kebutuhan komputasinya. Beberapa modifikasi ini ditampilkan pada pendahulunya, Deepseek-v2, pada Mei 2024. Berikut adalah 3 inovasi penting:

Multi-head Latent Attention (MLA)

Mekanisme perhatian yang mendukung LLM memerlukan sejumlah besar perkalian matriks (sering disingkat menjadi “matmul” dalam diagram) untuk menghitung bagaimana setiap token berhubungan dengan yang lain. Semua perhitungan menengah tersebut harus disimpan dalam memori saat hal-hal berpindah dari input ke output akhir.

Multi-head latent attention (MLA), pertama kali diperkenalkan di DeepSeek-v2, “menguraikan” setiap matriks menjadi 2 matriks yang lebih kecil. Hal ini menggandakan jumlah penggandaan, tetapi sangat memangkas ukuran semua hal yang perlu Anda simpan dalam memori. Dengan kata lain, ini menurunkan biaya memori (sekaligus meningkatkan biaya komputasi)-yang sangat bagus untuk KLH, karena mereka sudah memiliki biaya komputasi yang rendah (tetapi biaya memori yang tinggi).

Pelatihan FP8 (poin mengambang 8-bit)

Singkatnya: nilai spesifik dari setiap parameter di DeepSeek-v3 diwakili dengan titik desimal yang lebih sedikit dari biasanya. Ini mengurangi presisi, tetapi meningkatkan kecepatan dan semakin mengurangi penggunaan memori. Biasanya, model dilatih dengan presisi yang lebih tinggi—sering kali 16-bit atau 32-bit—kemudian dikuantisasi hingga FP8 sesudahnya.

Prediksi multi-token (MTP)

Istilah prediksi multi-token benar-benar seperti namanya: alih-alih memprediksi hanya satu token dalam satu waktu, model ini secara pre-emptive memprediksi beberapa token berikutnya juga—yang lebih mudah diucapkan daripada dilakukan.

 

Apakah Deepseek-R1 dibuat hanya dengan USD 5,5 juta?

Secara teknis, DeepSeek dilaporkan menghabiskan sekitar USD 5,576 juta untuk menjalankan pra-pelatihan terakhir untuk DeepSeek-V3. Namun, angka tersebut telah diambil secara dramatis di luar konteks.

DeepSeek belum mengumumkan berapa banyak yang dihabiskan untuk data dan komputasi untuk menghasilkan DeepSeek-R1. Angka “USD 6 juta” yang dilaporkan secara luas khusus untuk Deepseek-v3.

Selain itu, hanya mengutip biaya akhir dari latihan prapelatihan adalah menyesatkan. Seperti yang dikatakan oleh Kate Soule dari IBM, Direktur Manajemen Produk Teknis untuk Granite, dalam sebuah episode Mixture of Experts Podcast: “Ini seperti mengatakan jika saya akan berlari maraton, jarak yang akan saya tempuh hanya 26,2 mil. Kenyataannya, Anda akan berlatih selama berbulan-bulan, berlatih, berlari ratusan atau ribuan mil, menjelang 1 balapan itu.”

Bahkan makalah DeepSeek-V3 memperjelas bahwa USD 5,576 juta hanyalah perkiraan berapa biaya pelatihan akhir dalam hal harga sewa rata-rata untuk GPU NVIDIA H800 . Ini tidak termasuk semua penelitian sebelumnya, eksperimen dan biaya data. Ini juga tidak termasuk infrastruktur pelatihan mereka yang sebenarnya —satu laporan dari SemiAnalysis memperkirakan bahwa DeepSeek telah menginvestasikan lebih dari USD 500 juta dalam GPU sejak 2023—serta gaji karyawan, fasilitas, dan pengeluaran bisnis lainnya.

Yang jelas, menghabiskan hanya USD 5,576 juta untuk prapelatihan untuk model dengan ukuran dan kemampuan sebesar itu masih mengesankan. Sebagai perbandingan, laporan SemiAnalysis yang sama menyatakan bahwa Claude 3.5 Soneta dari Anthropic—pesaing lain untuk LLM terkuat di dunia (pada awal 2025)—membutuhkan biaya puluhan juta USD untuk melakukan pra-pengujian. Efisiensi desain yang sama juga memungkinkan DeepSeek-V3 dioperasikan dengan biaya yang jauh lebih rendah (dan latensi) dibandingkan pesaingnya.

Namun, anggapan bahwa kita telah sampai pada pergeseran paradigma yang drastis, atau bahwa pengembang AI barat menghabiskan miliaran dolar tanpa alasan dan model-model perbatasan baru sekarang dapat dikembangkan dengan biaya 7 digit yang rendah, adalah salah kaprah.

 

Model DeepSeek-R1-distill

Deepseek-R1 mengesankan, tetapi pada akhirnya versi DeepSeek-v3, yang merupakan model besar. Meskipun efisien, namun untuk banyak contoh penggunaan, aplikasi ini masih terlalu besar dan boros RAM.

Daripada mengembangkan versi yang lebih kecil dari DeepSeek-V3 dan kemudian menyempurnakan model-model tersebut , DeepSeek mengambil pendekatan yang lebih langsung dan dapat ditiru: menggunakan penyulingan pengetahuan pada model sumber terbuka yang lebih kecil dari keluarga model Qwen dan Llama untuk membuatnya berperilaku seperti DeepSeek-R1. Mereka menyebut model ini “Deepseek-R1-distill.”

Distilasi pengetahuan, pada intinya, adalah bentuk abstrak dari kompresi model. Dibanding hanya melatih model secara langsung pada data pelatihan, penyulingan pengetahuan melatih "model siswa" untuk meniru cara "model guru" yang lebih besar dalam memproses data pelatihan tersebut. Parameter model siswa disesuaikan untuk menghasilkan tidak hanya output yang sama dengan model guru, tetapi juga proses berpikiryang sama—kalkulasi menengah, prediksi, atau langkah-langkah pemikiran—seperti yang dilakukan oleh guru.

Terlepas dari namanya, model "DeepSeek-R1-Distill" sebenarnya bukan DeepSeek-R1. Mereka adalah versi model Llama dan Qwen yang disempurnakan untuk bertindak seperti DeepSeek-R1. Meskipun R1-distills sangat mengesankan untuk ukurannya, tetapi ini ternyata tidak sesuai dengan DeepSeek-R1 yang “asli”.

Jadi jika suatu platform mengklaim menawarkan atau menggunakan “R1”, sebaiknya pastikan “R1” mana yang sedang mereka bicarakan.

 

Pelaporan yang menyesatkan tentang DeepSeek

Di antara ketertarikan publik yang tak tertandingi dan detail teknis yang tidak dikenal, hype seputar DeepSeek dan model-modelnya terkadang mengakibatkan kesalahan penyajian yang signifikan dari beberapa fakta dasar.  

Sebagai contoh, awal Februari lalu, ada banyak berita tentang bagaimana sebuah tim dari UC Berkeley yang tampaknya “membuat ulang” atau “mereplikasi” DeepSeek-R1 hanya dengan harga USD 30. Itu adalah judul yang sangat menarik dengan implikasi yang luar biasa jika memang benar—tetapi pada dasarnya tidak akurat dalam berbagai hal:

  • Tim Berkeley tidak menciptakan ulang teknik fine-tuning R1. Mereka meniru teknik penyempurnaan khusus RL R1-Zerosesuai pedoman dalam makalah teknis DeepSeek.

  • Tim Berkeley tidak melakukan penyempurnaan/fine tuning DeepSeek-V3, model parameter 671B yang berfungsi sebagai tulang punggung DeepSeek-R1 (dan DeepSeek-R1-Zero). Sebaliknya, mereka menyempurnakan model Qwen2.5 kecil dan sumber terbuka (dan menemukan kesuksesan dengan varian 1.5B, 3B dan 7B). Secara alami, jauh lebih murah untuk menyempurnakan model parameter 1,5B daripada model parameter 671B, mengingat yang pertama secara harfiah ratusan kali lebih kecil.

  • Mereka hanya menguji kinerja model miniatur yang terinspirasi R1-Zero pada satu tugas khusus matematika. Seperti yang diklarifikasi insinyur Jiaya Pan, eksperimen mereka tidak menyentuh kode atau alasan umum.

Singkatnya, tim UC Berkeley tidak membuat ulang DeepSeek-R1 seharga USD 30. Mereka hanya menunjukkan bahwa pendekatan eksperimental DeepSeek yang hanya menggunakan pembelajaran penguatan, R1-Zero, dapat digunakan untuk mengajarkan model-model kecil untuk memecahkan masalah matematika yang rumit. Pekerjaan mereka menarik, mengesankan, dan penting. Namun tanpa pemahaman yang cukup mendetail tentang penawaran model DeepSeek—yang mana banyak pembaca (dan penulis) yang sibuk tidak memiliki waktu untuk itu—mudah sekali untuk salah paham.

 

Apa yang mungkin akan terjadi selanjutnya?

Karena pengembang dan analis menghabiskan lebih banyak waktu dengan model-model ini, hype atau popularitasnya mungkin akan sedikit mereda. Sama halnya dengan tes IQ yang bukan satu-satunya cara yang memadai untuk merekrut karyawan, hasil tolok ukur mentah tidak cukup untuk menentukan apakah model apa pun adalah yang “terbaik” untuk contoh penggunaan spesifik Anda. Model, layaknya manusia, memiliki kekuatan dan kelemahan tidak berwujud yang membutuhkan waktu untuk dipahami.

Perlu beberapa waktu untuk menentukan keampuhan jangka panjang dan kepraktisan model DeepSeek yang baru ini dalam lingkungan formal. Seperti yang dilaporkan WIRED pada bulan Januari, DeepSeek-R1 memiliki performa yang buruk dalam pengujian keamanan dan jailbreak. Kekhawatiran ini mungkin perlu ditangani untuk membuat R1 atau V3 aman untuk sebagian besar penggunaan perusahaan.

Sementara itu, model-model baru akan tiba dan terus mendorong kemajuan teknologi. Pertimbangkan bahwa GPT-4o dan Claude 3.5 Soneta, model sumber tertutup terkemuka yang dibandingkan dengan model DeepSeek, pertama kali dirilis pada musim panas tahun lalu: seumur hidup dalam hal AI generatif. Setelah merilis R1, Alibaba mengumumkan peluncuran model MoE sumber terbuka mereka sendiri, Qwen2.5-Max, yang mereka klaim mengalahkan DeepSeek-V3 secara keseluruhanvi Lebih banyak penyedia layanan yang akan mengikutinya.

Yang terpenting, industri dan komunitas sumber terbuka akan bereksperimen dengan ide-ide baru yang menarik yang dibawa DeepSeek, mengintegrasikan atau mengadaptasinya untuk model dan teknik baru. Keindahan dari inovasi sumber terbuka adalah bahwa air pasang naik mengangkat semua perahu.

Akademi AI

Menjadi pakar AI

Raih pengetahuan demi memprioritaskan investasi AI yang mendorong pertumbuhan bisnis. Mulai dengan Akademi AI gratis kami hari ini dan pimpin masa depan AI di organisasi Anda.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung