AI fisik mengacu pada sistem kecerdasan buatan (AI) yang beroperasi dan berinteraksi dengan dunia fisik, bukan hanya ada di perangkat lunak atau lingkungan digital.
AI fisik biasanya melibatkan kombinasi model AI dengan sensor, aktuator, dan sistem kontrol lainnya yang memungkinkan model untuk bertindak pada lingkungan dunia nyata, mengambil model dari ranah bit ke ranah atom. Dengan AI, sistem fisik canggih sekarang dapat memahami lingkungan, bernalar dengan kekuatan model bahasa besar (LLM), bertindak sesuai, dan kemudian belajar dari hasil tindakan itu.
Cara lain untuk berpikir tentang AI fisik adalah bahwa itu hanyalah model didukung AI yang diterapkan pada sistem di ruang fisik. Misalnya, robotika berfokus pada mekanika dan kontrol mesin fisik. Sebelum AI, perilaku robot biasanya berbasis aturan atau ditulis, dan robot hanya dapat melakukan tugas-tugas sempit dalam lingkungan yang direkayasa secara khusus. Pikirkan tentang lengan robot yang mengelas jahitan yang sama 1.000 kali sehari di jalur produksi otomotif, atau vacuum robot generasi awal yang mengikuti aturan navigasi yang telah ditetapkan.
Sebaliknya, agen AI robotik yang dilengkapi dengan pemahaman umum dari LLM memiliki “akal sehat“ yang terbatas namun tetap kuat tentang dunia. Model-model ini dapat dipasangkan dengan teknik pembelajaran penguatan dalam arsitektur hybrid berkinerja tinggi sehingga robot dapat memiliki pengetahuan umum dan pemahaman khusus tentang contoh penggunaan.
Terlebih lagi, AI fisik jauh melampaui robot individu ke seluruh pabrik yang didukung AI, jaringan pintar hemat energi, atau armada kendaraan otomatis. Banyak sistem yang ada di ruang fisik dapat ditambah dengan AI.
Beberapa hambatan yang sebelumnya menghalangi revolusi AI fisik kini diatasi secara bersamaan. Yang pertama dan paling penting adalah hadirnya AI generatif yang didukung oleh model dasar. Visi komputer dan model multimodal berskala besar kini mampu mengenali objek, memahami hubungan spasial, serta melakukan generalisasi di berbagai pengaturan. Hal ini mengurangi kebutuhan pelatihan khusus untuk setiap tugas individu dan memungkinkan sistem untuk menggunakan kembali kecerdasan di berbagai tugas tersebut.
Tantangan kedua sekarang sedang diatasi oleh kekuatan simulasi modern, yang menggabungkan pemodelan fisika dengan kesetiaan tinggi, rendering fotorealistik, dan paralelisasi. Ini secara dramatis mengurangi waktu pelatihan model dan membuat simulasi berguna tidak hanya untuk pengujian tetapi sebagai tempat pelatihan utama. Tren terkait adalah ledakan ketersediaan komputasi. Terobosan dalam GPU dan pusat data telah membuat pelatihan dalam skala besar menjadi layak.
Akhirnya, perangkat keras kini lebih baik daripada sebelumnya. Robot modern dilengkapi dengan sensor yang lebih canggih dan bahan yang lebih ringan. Mereka dapat memanfaatkan terobosan terbaru dalam AI edge serta kemampuan komunikasi yang semakin baik. Inovasi ini telah membuat eksperimen menjadi layak, bahkan bagi startup kecil. Hasilnya adalah kebangkitan kembali inisiatif otomatisasi fisik, mulai dari kendaraan otonom hingga robot industri serta bot perawatan kesehatan yang melakukan pembedahan dan berbagai prosedur rumit lainnya.
Jensen Huang, CEO Nvidia, secara luas dikreditkan telah mempopulerkan istilah “AI fisik” dan membingkainya sebagai gelombang besar berikutnya dalam inovasi berbasis AI. Dalam wawancara podcast pada Januari 2026, Huang meramalkan masa depan dengan “satu miliar robot.”1 Visi ini mencakup terbentuknya ekonomi global baru yang berpusat pada pengembangan dan pemeliharaan seluruh robot tersebut, yang berpotensi menjadi salah satu industri terbesar di dunia, setara dengan revolusi industri kedua.
Pada bulan yang sama, Nvidia merilis koleksi model terbuka, kerangka kerja, dan infrastruktur AI canggih untuk AI fisik.2 Rilis ini menonjolkan teknologi baru untuk mempercepat alur kerja di “seluruh siklus pengembangan robot.”
“Momen ChatGPT untuk robotika ada di sini,” kata Huang.
Rilis ini mencakup model dunia terbuka dan sepenuhnya dapat disesuaikan yang memungkinkan pembuatan data sintetis berbasis fisik dan evaluasi kebijakan robot dalam simulasi untuk AI fisik, model bahasa visi penalaran terbuka, dan model tindakan bahasa visi penalaran terbuka. Rilis ini hadir bersamaan dengan kerangka kerja simulasi dan komputasi baru.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Bayangkan tujuannya adalah untuk melatih jaringan robot mobile (AMR) yang dapat secara mandiri mengambil sampah dari trotoar, taman, dan jalan tanpa merugikan orang atau diri mereka sendiri. Tugas ini tidak hanya didefinisikan sebagai “mengambil objek,” tetapi sebagai mendeteksi sampah di antara non-sampah, menavigasi lingkungan yang ramai, memilih jalur yang aman, mengambil objek dengan bentuk dan ukuran bervariasi, dan masalah lainnya.
Setelah tujuan ditentukan, robot harus dirancang dengan morfologi yang tepat. Haruskah itu robot humanoid atau yang lainnya? Apakah menggunakan roda atau kaki? Apakah perlu gripper yang mencubit benda atau penyedot debu yang mengisapnya? Kamera dan sensor macam apa yang dibutuhkan untuk menavigasi lingkungannya?
Kemudian, lingkungan simulasi biasanya dibuat. Lingkungan seperti itu mungkin termasuk medan, sampah, benda acak (batu, bangku, pagar, dll.), orang, efek pencahayaan, dan berbagai kondisi cuaca.
Dalam lingkungan pelatihan simulasi ini, model yang mengatur perilaku robot mempelajari seperti apa sampah, dari botol dan kaleng hingga potongan kertas dan bungkus permen kecil. Model belajar bagaimana menjaga keseimbangan di medan yang tidak rata dan angin kencang. Model belajar cara terbaik untuk menghindari menabrak orang dan bagaimana memegang botol kaca cukup keras untuk mengambilnya tetapi tidak begitu keras sehingga menghancurkannya.
Setiap latihan mengubah kualitas komponen yang terlibat: potongan sampah yang lebih besar, kondisi cuaca yang berbeda, lebih banyak orang berjalan-jalan. Robot “tidak pernah melihat trotoar yang sama dua kali.”
Ketika robot mendapatkan tugas yang ditentukan dengan benar, perilakunya “dihargai” dengan skor tinggi, yang memperkuat perilaku terbaik. Di banyak iterasi, robot belajar bagaimana melakukan tugasnya.
Setelah robot melampaui ambang keberhasilan tertentu, ia diterapkan ke lingkungan pelatihan dunia nyata, seperti jalan yang tenang tanpa terlalu banyak orang. Robot ini disesuaikan untuk menangani kondisi baru yang tidak terduga yang tidak ada dalam simulasi, seperti angin yang meniup sampah kecil.
Informasi ini digunakan untuk meningkatkan lingkungan pelatihan simulasi untuk pelatihan tambahan. Robot kemudian dapat diuji stres di lingkungan yang lebih kompleks dengan kerumunan padat, dalam pencahayaan yang buruk, atau pada permukaan licin yang basah.
Mekanisme penghargaan yang dijelaskan di atas adalah bagian dari pembelajaran penguatan, jenis proses machine learning di mana agen otonom belajar membuat keputusan dari interaksi coba-coba dengan lingkungan mereka. Pembelajaran penguatan sangat penting untuk robotika karena agen mempelajari perilaku melalui interaksi dari waktu ke waktu, yang merupakan hal yang harus dilakukan robot di dunia nyata.
Dunia berantakan: permukaan berbeda, objek berubah bentuk, data sensor berisik, dan manusia berperilaku tidak terduga. Skalabilitas tidak dapat dicapai ketika menulis aturan keras untuk setiap situasi. Pembelajaran penguatan memungkinkan robot menemukan strategi sendiri dengan bereksperimen dalam batasan. Alih-alih diberi tahu cara pindah, robot belajar perilaku mana yang bekerja paling baik dalam kondisi nyata.
Pembelajaran penguatan unggul di bidang di mana metode machine learning lainnya gagal. Contohnya, saat mengambil sampah, robot harus mendekat, menyesuaikan posisi alat penjepit, mengatur tekanan, lalu mengangkatnya—semua dilakukan sambil menyesuaikan diri dengan masukank secara langsung. Metode pembelajaran terawasi secara teoritis dapat memberi label seperti apa “pegangan yang baik“, tetapi tidak dapat dengan mudah mengajarkan cara pulih dari kesalahan atau beradaptasi di tengah gerakan. Sebaliknya, pembelajaran penguatan mengoptimalkan seluruh rangkaian tindakan berdasarkan hasil jangka panjang.
Ini hanyalah salah satu contoh bagaimana robot dapat dilatih. Ada banyak metode lain untuk sistem AI fisik seperti pembelajaran yang diawasi dan tidak diawasi, pembelajaran imitasi, dan pembelajaran dari demonstrasi (LfD).
Pelatihan AI fisik bekerja secara berbeda dari melatih sistem otonom nonfisik karena beberapa alasan.
Data itu mahal
Fisika itu sulit
Waktu adalah intinya
Taruhan sebenarnya
Sementara model AI tradisional dilatih pada kumpulan data statis, termasuk teks, gambar, dan audio, AI fisik biasanya membutuhkan data robot yang berinteraksi dengan lingkungan nyata. Dalam pelatihan machine learning tradisional, data dapat dengan mudah dikikis, disalin, dan digunakan kembali dengan murah. Tidak demikian halnya dengan AI fisik. Seseorang biasanya tidak bisa begitu saja “mengunduh kumpulan data“.
Pengumpulan data membutuhkan waktu. Setiap titik data membutuhkan robot untuk memindahkan tubuhnya, memanipulasi objek, atau hanya mengamati hal-hal yang terjadi di lingkungannya secara terus menerus. Di dunia nyata, mesin rusak. Gasket diketahui dapat jebol, sehingga menimbulkan kompleksitas dalam mengumpulkan data pelatihan yang baik.
AI fisik harus bersaing dengan fisika. Gravitasi, gesekan, suhu, torsi, keseimbangan, waktu, momentum, keausan, kebisingan, lag—dunia nyata sangat kompleks, itulah sebabnya model yang terlihat hebat di lingkungan simulasi sering gagal ketika diuji di lapangan.
Untuk mengatasi ketidakpastian dan kompleksitas fisika, pelatihan dapat menggunakan model berbasis fisika atau sistem hybrid di mana algoritme kontrol yang lebih sederhana memastikan stabilitas dan model pembelajaran terbatas pada penanganan persepsi dan pengambilan keputusan.
Sistem fisik beroperasi dalam waktu yang terus menerus. Dalam banyak contoh penggunaan, loop masukan yang ketat dengan latensi minimal diperlukan antara persepsi, keputusan, dan tindakan. Keterlambatan kecil dapat menyebabkan kegagalan. Seringkali, kecepatan sama pentingnya atau bahkan lebih penting daripada akurasi. Di domain AI lainnya, biasanya semua tentang mendapatkan output yang paling akurat, tetapi memperhitungkan kebutuhan akan kecepatan memperkenalkan tantangan teknik utama.
Di sebagian besar lingkungan pelatihan AI, kesalahan tidak berbahaya dan mudah dibuang. Tapi taruhannya tinggi di dunia nyata. Jika LLM membuat prediksi yang salah dalam lingkungan digital, manusia dapat memilih untuk bertindak atau tidak. Sebaliknya, jika mobil self-driving salah memprediksi kecepatan mobil di depannya, hasilnya bisa menjadi bencana besar. Pelatihan sering melibatkan kendala dan peningkatan otonomi secara bertahap, kadang-kadang membutuhkan pengawasan manusia dan bentuk pemantauan lainnya.
Untuk alamat kelemahan di atas, para peneliti sangat bergantung pada lingkungan simulasi dan data sintetis, yang dihasilkan oleh robot, seringkali virtual, berinteraksi dengan lingkungan virtual.
Penggunaan model dasar dunia (WFM) semakin umum dalam robotika. WFM adalah sistem AI yang kuat yang telah mempelajari dinamika dunia fisik (geometri, gerak, fisika) dari sejumlah besar data dunia nyata, memungkinkannya menghasilkan skenario realistis dan sadar fisika untuk melatih AI fisik.
Simulasi ini sering kali melibatkan pembuatan kembaran digital dari suatu sistem atau lingkungan, seperti pabrik. Di ruang virtual ini, mesin otonom melakukan tugas, menghasilkan data sintetis tentang bagaimana mesin ini bekerja di ruang virtual.
Teknik seperti pengacakan domain, di mana karakteristik lingkungan simulasi sengaja dihasilkan dalam segala macam cara acak, dapat membantu menghasilkan data sintetis yang lebih berguna, menghasilkan model yang lebih kuat yang mampu mentransfer keterampilan mereka ke realitas yang berantakan dan sangat bervariasi. Namun, ketergantungan yang berlebihan pada data sintetis dapat menyebabkan overfitting.
Bantu pengembang untuk membangun, menerapkan, dan memantau agen AI dengan studio IBM watsonx.ai.
Ciptakan produktivitas inovatif dengan salah satu rangkaian kemampuan paling komprehensif di industri untuk membantu bisnis membangun, menyesuaikan, dan mengelola agen dan asisten AI.
Raih penghematan biaya lebih dari 90% dengan model Granite yang lebih kecil dan terbuka, yang dirancang untuk efisiensi pengembang. Model yang sesuai dengan kebutuhan perusahaan ini memberikan kinerja luar biasa terhadap tolok ukur keamanan dan di berbagai tugas perusahaan, mulai dari keamanan siber hingga RAG.
Jensen Huang, wawancara podcast Januari 2026 (video), No Priors: AI, machine learning, Tech, & Startups, YouTube.com, 8 Jan 2026
Ruang Berita NVIDIA: NVIDIA Merilis Model AI Fisik Baru saat Mitra Global Meluncurkan Robot Generasi Berikutnya., NVIDIA.com, 5 Januari 2026