Apa itu ruang laten?

Latar belakang ungu dengan bola kuning di atas bentuk seperti persegi

Penyusun

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Apa itu ruang laten?

Ruang laten dalam machine learning (ML) adalah representasi terkompresi dari data yang mempertahankan hanya fitur-fitur utama yang mencerminkan struktur dasar data input. Memodelkan ruang laten secara efektif merupakan aspek penting dalam pembelajaran mendalam, termasuk dalam berbagai algoritma AI generatif (Gen AI).

Memetakan titik data ke ruang laten memungkinkan representasi data yang kompleks secara lebih efisien dan bermakna, meningkatkan kemampuan model machine learning dalam memahami dan memproses data sekaligus mengurangi beban komputasi. Oleh karena itu, pengodean representasi ruang laten biasanya melibatkan beberapa tingkat pengurangan dimensi: yaitu proses mengompresi data berdimensi tinggi ke ruang berdimensi lebih rendah dengan menghilangkan informasi yang tidak relevan atau berlebihan.

Ruang laten memiliki peran krusial dalam berbagai bidang ilmu data, dan pengkodeannya menjadi langkah penting dalam banyak algoritma kecerdasan buatan (AI) modern. Misalnya, model generatif seperti variational autoencoder (VAE) dan jaringan adversial generatif (GAN) memetakan data pelatihan ke dalam ruang laten, yang kemudian diinterpolasi untuk menghasilkan sampel data baru. Model visi komputer yang dilatih untuk tugas klasifikasi, seperti deteksi objek atau segmentasi gambar, memetakan data input ke dalam ruang laten untuk mengekstrak fitur yang relevan, sehingga meningkatkan akurasi prediksi.

Model bahasa besar (LLM), mulai dari model penyematan untuk pencarian semantik hingga model autoregresif seperti IBM Granite atau yang mendukung ChatGPT OpenAI, memanfaatkan ruang laten untuk mengungkap hubungan kompleks antar kata dalam berbagai konteks.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa arti "ruang laten"?

Kata space memiliki arti yang lebih bervariasi dalam konteks machine learning dibandingkan dengan penggunaannya dalam bahasa sehari-hari. Secara umum, "space" dalam ML mengacu kepada cara pemetaan, perbandingan, atau pengambilan sampel titik data tertentu. Misalnya:

  • "Ruang input" adalah rentang kemungkinan yang termasuk dalam data input.
  • Ruang hasil " " adalah rentang kemungkinan untuk hasil model.
  • Dalam data gambar, ruang piksel "" adalah kisaran kemungkinan untuk nilai piksel numerik.
  • Dalam pembelajaran penguatan, "ruang tindakan" mengacu kepada kumpulan semua tindakan yang dapat diambil dalam suatu kondisi tertentu, seperti langkah-langkah legal yang tersedia dalam permainan papan pada waktu tertentu.

Secara matematis, sebuah space terutama ditentukan oleh dimensi-dimensinya: yaitu, fitur-fitur—variabel—apa saja yang digunakan untuk mendeskripsikan titik-titik data dalam ruang tersebut. Ketika titik data dipetakan ke ruang tertentu, titik data dengan nilai yang sama untuk variabel yang mendefinisikan ruang tersebut akan serupa atau berdekatan satu sama lain dengan beberapa metrik seperti kemiripan cosinus, jarak Euclidian, atau dot product. 

Dalam machine learning, titik data harus direpresentasikan secara numerik. Paling sering, titik data diwakili (atau "disematkan") sebagai vektor. Oleh karena itu, kami merujuk pada ruang di mana titik-titik data dibandingkan dengan representasi vektornya sebagai ruang embedding vektor "" (atau "ruang penyematan"). Setiap elemen dalam vektor merepresentasikan satu dimensi dalam ruang penyematan, yang dikenal sebagai penyematan vektor. Algoritma machine learning biasanya menerima input dalam bentuk penyematan vektor atau terlebih dahulu mengonversi data input ke dalam format tersebut.
 

Ruang fitur vs. ruang laten

Ruang fitur adalah ruang vektor yang merepresentasikan berbagai kemungkinan nilai fitur yang memiliki makna dan dapat digunakan untuk mencirikan sekumpulan titik data tertentu, bukan hanya titik data individu. Sebagai contoh, dalam model yang memproses data gambar, setiap dimensi dalam ruang fitur dapat mewakili karakteristik tertentu, seperti bentuk, tekstur, atau pola warna yang terdapat dalam data pelatihan.

Ruang fitur biasanya hanya mempertahankan dimensi yang mengandung informasi relevan, mengabaikan dimensi lain yang tidak memiliki fitur yang berguna. Dalam contoh data gambar, ruang fitur akan mengabaikan elemen yang tidak relevan, seperti latar belakang atau area kosong. Proses mengisolasi fitur-fitur yang bermakna dari ruang penanaman yang lebih besar disebut ekstraksi fitur.

“Ruang fitur” dan “ruang laten” sering digunakan secara bergantian, tetapi tidak selalu identik. Ekstraksi fitur biasanya melibatkan representasi data yang lebih terkompresi, yang menghilangkan informasi yang tidak berguna, sehingga konsep-konsep ini sangat terkait. Namun, beberapa fitur mungkin tidak selalu relevan dengan struktur dasar data. Oleh karena itu, ruang laten biasanya merupakan representasi berdimensi lebih rendah dari ruang fitur, yang hanya berisi subset fitur yang, melalui machine learning, telah diidentifikasi sebagai yang paling relevan dengan tugas yang sedang dikerjakan.

Apa arti "laten" dalam machine learning?

Dalam ruang laten, setiap dimensi berhubungan dengan variabel laten dari data asli. Variabel laten adalah karakteristik dasar yang menginformasikan cara data didistribusikan, tetapi sering kali tidak dapat diamati secara langsung. 

Sebagai contoh intuitif, bayangkan jembatan dengan sensor yang mengukur berat setiap kendaraan yang lewat. Banyak kendaraan yang berbeda, dari mobil convertible ringan hingga truk berat, menggunakan jembatan ini—tetapi tidak ada kamera untuk deteksi jenis kendaraan. Namun demikian, kita tahu bahwa jenis kendaraan secara signifikan mempengaruhi bobotnya. Dalam contoh ini, berat kendaraan merupakan variabel teramati, sementara jenis kendaraan adalah variabel laten: kita dapat menyimpulkan jenis kendaraan yang melintasi jembatan berdasarkan pola berat kendaraan yang tercatat.

Tidak semua variabel “tersembunyi” memiliki peran penting, sehingga tidak semua variabel tersebut akan direpresentasikan dalam ruang laten yang dihasilkan oleh machine learning. Dalam praktiknya, model belajar menyandikan ruang laten yang paling kondusif untuk melakukan tugas yang dilatih secara akurat.

 

Ruang laten dan pengurangan dimensi

Pengkodean representasi ruang laten biasanya melibatkan kompresi data berdimensi tinggi ke dalam ruang dengan dimensi lebih rendah melalui proses yang disebut reduksi dimensi.

Pertimbangkan gambar dalam dataset MNIST, sebuah kumpulan data sumber terbuka yang berisi puluhan ribu gambar digit tulisan tangan dalam skala abu-abu dengan resolusi 28x28 piksel. Setiap gambar berukuran 28x28 piksel dapat direpresentasikan sebagai vektor dengan 784 dimensi, di mana setiap dimensi mewakili satu piksel dengan nilai antara 0 (hitam) dan 1 (putih). Jika gambar tersebut berwarna, vektornya akan memiliki 2.352 dimensi, karena setiap piksel (total 784 piksel) direpresentasikan oleh tiga nilai, masing-masing untuk warna merah, hijau, dan biru (RGB).

Namun, area yang benar-benar membentuk digit hanya mencakup sebagian kecil dari keseluruhan ruang piksel. Sebagian besar area dalam gambar hanya berupa latar belakang kosong. Mengurangi gambar (dan vektor yang merepresentasikannya) hanya pada dimensi yang berisi informasi penting—ruang laten—dapat meningkatkan akurasi dan efisiensi model machine learning dalam memproses gambar.
 

Autoencoders (dan kerangka kerja encoder-decoder lainnya)

Salah satu jenis arsitektur neural networks yang dirancang khusus untuk mengurangi dimensi dan mengompresi input ke dalam ruang laten adalah autoencoder.

Autoencoder adalah sistem yang dapat melakukan pengawasan mandiri yang tujuan pelatihannya adalah untuk mengompresi (atau mengodekan) data input melalui pengurangan dimensionalitas dan kemudian secara akurat merekonstruksi (atau mendekodekan) input aslinya dari representasi terkompresi itu. Dalam autoencoder standar, setiap lapisan pada bagian encoder memiliki jumlah node yang lebih sedikit dibandingkan lapisan sebelumnya. Saat vektor penyematan dari data input melewati setiap lapisan encoder, data tersebut dikompresi ke dalam dimensi yang lebih kecil melalui proses pemampatan. Jaringan dekoder kemudian merekonstruksi kembali input asli hanya berdasarkan vektor laten yang dihasilkan oleh encoder.

Autoencoder dilatih untuk meminimalkan kehilangan rekonstruksi, yaitu perbedaan antara hasil rekonstruksi decoder dan input aslinya. Karena encoder hanya dapat meneruskan informasi dalam jumlah terbatas ke decoder, ia harus mengekstrak fitur yang paling penting dari data. Dengan kata lain, autoencoder secara otomatis mempelajari cara memetakan data input ke dalam ruang laten yang lebih efisien.

Kemampuan ini membuat autoencoder memiliki berbagai contoh penggunaan menarik selain sekadar kompresi data. Misalnya, autoencoder dapat digunakan untuk deteksi anomali karena mampu mengidentifikasi penyimpangan yang tidak mudah terlihat oleh manusia. Bayangkan sebuah jam tangan palsu yang tampak hampir identik dengan aslinya, bahkan bagi orang yang terlatih sekalipun. Hanya dengan membongkar jam tangan dan mencoba merekonstruksi roda gigi serta mekanisme di dalamnya—ruang laten—Anda dapat mengidentifikasi elemen yang tidak sesuai dengan jam tangan asli.

Manfaat utama autoencoder dibandingkan algoritma pengurangan dimensi lainnya, seperti analisis diskriminan linier atau analisis komponen utama (PCA), adalah bahwa autoencoder dapat memodelkan hubungan nonlinier di antara variabel yang berbeda.

Banyak neural networks lainnya menggunakan arsitektur encoder-decoder, di mana encoder mengompresi input menjadi representasi berdimensi lebih rendah, lalu decoder mengolahnya untuk menghasilkan prediksi. Autoencoder adalah jenis model yang menggunakan struktur ini dan dilatih untuk merekonstruksi data input.

Ruang laten dalam variational autoencoders (VAE) dan model generatif lainnya

Variational Autoencoder (VAE) menggunakan arsitektur autoencoder untuk menyandikan data ke dalam ruang laten dengan cara yang memungkinkan digunakan dalam tugas-tugas generatif, seperti pembuatan gambar.

Berbeda dengan autoencoder konvensional yang bersifat "deterministik" dan menyandikan setiap variabel laten sebagai vektor tunggal dengan nilai tetap, VAES merupakan model "probabilistik" yang menyandikan ruang laten sebagai distribusi kemungkinan. Dengan mengambil interpolasi secara acak dari kisaran kemungkinan yang dikodekan ini, VAE dapat mensintesis sampel data baru yang, meskipun unik dan orisinal, menyerupai data pelatihan asli.

Agar dapat menghasilkan sampel data yang benar-benar baru (bukan sekadar merekonstruksi atau menggabungkan data yang sudah ada dalam pelatihan), ruang laten harus memiliki dua jenis keteraturan:

  • Kesinambungan: Titik terdekat di ruang laten akan menghasilkan konten yang serupa saat didekodekan atau diterjemahkan.
  • Kelengkapan: Setiap titik yang diambil sampelnya dari ruang laten harus menghasilkan konten yang bermakna ketika diterjemahkan.

Cara sederhana untuk memastikan kontinuitas dan kelengkapan dalam ruang laten adalah dengan memaksanya mengikuti distribusi normal (Gaussian). Untuk mencapai hal ini, VAE menyandikan setiap atribut laten dari data pelatihan menggunakan dua vektor berbeda: vektor rata-rata, “μ,” dan vektor deviasi standar, “σ.” Pada dasarnya, kedua vektor ini mewakili rentang kemungkinan untuk setiap variabel laten dan varians yang diharapkan dalam setiap rentang kemungkinan. 

VAE mencapai ini dengan menambahkan fungsi kerugian tambahan di samping kerugian rekonstruksi: Divergensi Kullback-Leibler (atau divergensi KL). Lebih khusus lagi, VAE dilatih untuk meminimalkan divergensi antara distribusi Gaussian standar dan ruang laten yang dipelajari dengan meminimalkan kerugian rekonstruksi.

Ruang laten dalam model pembuatan gambar lainnya

Model pembangkitan gambar lainnya juga menggunakan tujuan pelatihan selain kerugian rekonstruksi, tetapi umumnya tetap menerapkan regularisasi untuk menjaga kesinambungan dan kelengkapan ruang laten. Sebagian besar, tetapi tidak semuanya, menyesuaikan ruang laten dengan distribusi normal.
 

Generative adversarial networks (GANs)

Jaringan adversarial generatif (GAN) melatih 2 neural networks—jaringan "diskriminator" dan jaringan generator—dalam permainan permusuhan. Dalam pendekatan ini, diskriminator diberikan sebuah gambar dan dilatih untuk menentukan apakah gambar tersebut asli atau berasal dari kumpulan data pelatihan. Sementara itu, generator dilatih untuk menghasilkan gambar yang dapat menipu diskriminator dengan mengambil sampel dari ruang laten dan menciptakan gambar yang tampak asli.

Generator dianggap terlatih ketika diskriminator tidak lagi mampu membedakan antara gambar asli dari data pelatihan dan gambar yang dihasilkan.

Model difusi laten

Model difusi laten, yang pertama kali diperkenalkan oleh model Difusi Stabil asli, pada dasarnya menggabungkan model difusi dengan VAE. Sementara model difusi standar bekerja langsung pada ruang piksel, model difusi laten pertama-tama mengkodekan data input ke representasi laten berdimensi lebih rendah menggunakan arsitektur gaya VAE, dan kemudian menerapkan difusi pada ruang laten. Inovasi ini secara signifikan meningkatkan kecepatan dan efisiensi model difusi.

 

Memvisualisasikan ruang laten

Hubungan antara titik data yang berbeda dalam ruang laten secara inheren sulit untuk dibayangkan atau divisualisasikan. Karena indera dan pengalaman kita terbatas pada pemahaman dunia dalam tiga dimensi, manusia kesulitan memahami representasi data dalam puluhan, ratusan, atau bahkan ribuan dimensi.

Untuk mengatasi tantangan ini, ilmuwan data menggunakan teknik pengurangan dimensi seperti t-Distributed Stochastic Neighbor Embedding (t-SNE) atau Uniform Manifold Approximation and Projection (UMAP). Teknik ini, yang banyak digunakan dalam visualisasi data, memetakan data berdimensi tinggi ke dalam 2 dimensi (atau 3 dimensi), dalam grafik tersebut, objek yang mirip akan dikelompokkan berdekatan, sementara objek yang berbeda akan ditempatkan lebih jauh. Visualisasi ruang laten VAE yang ditampilkan sebelumnya dalam artikel ini, misalnya, dibuat menggunakan t-SNE.

Penelitian dalam model pembangkitan gambar juga telah mengungkap insight penting tentang sifat ruang laten, yang berkontribusi pada kemajuan manipulasi ruang laten dalam model generatif. Salah satu contohnya adalah penelitian yang banyak dikutip “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks” studi ini mengeksplorasi teknik seperti operasi aritmetika pada vektor laten untuk menghasilkan gambar baru dengan karakteristik tertentu secara intuitif.

 

Ruang laten dalam pemrosesan bahasa alami (NLP)

Seperti halnya penyematan vektor untuk gambar yang merepresentasikan data berdasarkan distribusi nilai piksel aslinya, penyematan kata dirancang untuk menangkap makna semantik dari suatu kata.

Namun, berbeda dengan gambar, makna semantik sebuah kata tidak bersifat tetap. Kata dapat memiliki konotasi dan hubungan yang berubah tergantung pada kata-kata di sekitarnya. Untuk menangani dinamika ini, model transformator menggunakan mekanisme perhatian diri untuk menganalisis bagaimana konteks memengaruhi makna kata dan memperbarui penyematannya sesuai dengan perubahan tersebut. Di antara lapisan input yang menerima prompt dan lapisan hasil yang menghasilkan teks baru, penyematan kata awal diubah menjadi serangkaian representasi laten saat model terus menyempurnakan pemahamannya terhadap konteks.

Meskipun cara kerja internal model bahasa besar (LLM) masih sulit untuk ditafsirkan, penelitian yang sedang berlangsung telah mengeksplorasi aktivasi dalam ruang laten untuk memahami bagaimana model mempelajari konteks serta kemampuan emergen lainnya.1, 2

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Catatan kaki

1 "Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning," Proceedings of the 37th Conference on Neural Information Processing Systems (NeurIPS 2023), December 2023.

2 " A Latent Space Theory for Emergent Abilities in Large Language Models," arXiv, 13 September 2023.

Solusi terkait
IBM® watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung