Penyimpanan fitur adalah sistem data yang mengelola, menyimpan, dan menyediakan fitur untuk model machine learning (ML). Sistem ini menyediakan repositori terpusat untuk data fitur, memastikan bahwa nilai fitur didefinisikan dan digunakan secara konsisten di seluruh lingkungan pelatihan dan produksi model.
Dalam machine learning, fitur adalah variabel atau atribut yang berasal dari data mentah dan digunakan sebagai input bagi model untuk menghasilkan prediksi. Mereka mewakili aspek-aspek terukur dari perilaku, konteks atau keadaan dalam data, seperti frekuensi pembelian atau lokasi geografis.
Misalnya, dalam deteksi penipuan, model mengandalkan sinyal yang telah dikurasi, bukan data mentah. Fitur-fitur tersebut dapat mencakup jumlah transaksi dalam seminggu terakhir atau lokasi pembelian terbaru—representasi yang dirancang untuk menangkap pola yang mungkin mengindikasikan perilaku penipuan.
Fitur—sering disebut sebagai fitur ML—dihasilkan dari berbagai sumber data dan disusun ke dalam kumpulan data yang mendukung alur kerja ilmu data dan machine learning. Fitur-fitur ini kemudian digunakan untuk melatih model, mengevaluasi metrik, dan menerapkan model ke dalam sistem produksi.
Model machine learning beroperasi pada representasi numerik data. Setiap titik data dinyatakan sebagai sekumpulan nilai fitur, sering kali dalam bentuk vektor, di mana setiap dimensi sesuai dengan atribut tertentu. Meskipun beberapa jenis data terstruktur secara inheren bersifat numerik, seperti informasi akuntansi, jenis data lainnya—seperti teks, gambar atau audio—bersifat tidak terstruktur dan harus diubah menjadi bentuk numerik terstruktur sebelum dapat digunakan oleh model.
Salah satu cara untuk mengubah data tidak terstruktur adalah melalui rekayasa fitur, di mana data mentah diubah menjadi input terstruktur yang dapat dibaca mesin menggunakan teknik seperti agregasi, penyaringan, dan pengkodean. Rekayasa fitur juga mencakup ekstraksi fitur (di mana algoritma memperoleh representasi yang bermakna dari data mentah) dan pemilihan fitur (yang mengidentifikasi variabel yang paling relevan).
Karena alur kerja machine learning mencakup pelatihan model dan inferensi, fitur dihitung dari data historis dan data baru dalam produksi. Mempertahankan keselarasan membutuhkan koordinasi di seluruh pipeline data, pipeline fitur, dan sistem rekayasa data —sebuah tantangan yang dirancang untuk diatasi oleh penyimpanan fitur.
Dalam praktiknya, penyimpanan fitur mendukung setiap tahap siklus hidup machine learning:
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Kinerja model machine learning-yang menopang banyak sistem kecerdasan buatan (AI) saat ini-bergantung secara langsung pada kualitas input mereka. Apa yang masuk menentukan apa yang keluar.
Nilai fitur menentukan bagaimana model menafsirkan pola dalam data pelatihan dan menerapkan pola tersebut ke data baru. Koordinasi ini meningkatkan kinerja model dengan melakukan dua hal: mengelola data fitur dalam skala besar dan juga memberikan konsistensi di seluruh pelatihan dan kesimpulan.
Seiring dengan berkembangnya sistem machine learning, pengelolaan data fitur menjadi semakin kompleks. Fitur dihasilkan dan diedarkan di berbagai alur kerja, sering kali oleh tim rekayasa data dan tim ML yang bekerja di lingkungan terdistribusi.
Tanpa sistem terpusat, fitur duplikat dan definisi fitur yang tidak konsisten muncul. Tim dapat menghitung fitur yang sama menggunakan logika yang sedikit berbeda, yang menyebabkan inkonsistensi dalam kumpulan data dan pipeline. Ketidakkonsistenan ini membuat lebih sulit untuk menggunakan kembali fitur dan memperkenalkan risiko ke dalam pengembangan model.
Selama pelatihan model, fitur dihitung dari data historis dan diatur ke dalam kumpulan data pelatihan. Setelah diterapkan, definisi fitur yang sama harus diterapkan pada data baru dan dihitung ulang untuk inferensi, sering kali dalam lingkungan real-time atau nyaris seketika.
Bahkan perbedaan kecil dalam cara perhitungan fitur dapat menimbulkan inkonsistensi antara input pelatihan dan produksi—sering disebut sebagai ketidakseimbangan antara pelatihan dan penyajian—yang dapat menyebabkan penurunan kinerja model.
Penyimpanan fitur mengatasi tantangan ini dengan memusatkan definisi fitur dan menstandarkan transformasi fitur. Fitur didefinisikan satu kali, disimpan dalam sistem bersama dan diakses melalui antarmuka pemrograman aplikasi (API) atau antarmuka kit pengembangan perangkat lunak (SDK). Koordinasi ini, sering dikelola melalui registri fitur, memungkinkan tim untuk menggunakan kembali fitur di berbagai pipeline, model, dan contoh penggunaan.
Arsitektur penyimpanan fitur menghubungkan data antar beberapa tahapan utama machine learning, termasuk:
Data dikumpulkan dari berbagai sumber data dan diproses melalui pipeline penyerapan. Pipeline ini menerapkan transformasi data dan fitur untuk mengubah data mentah menjadi nilai fitur.
Komputasi fitur dapat dilakukan dengan berbagai cara: pemrosesan batch dari data yang telah dikumpulkan sebelumnya; pipeline streaming untuk pembaruan real-time; dan komputasi fitur sesuai permintaan pada waktu inferensi. Transformasi ini sering diimplementasikan menggunakan Python, bahasa kueri terstruktur (SQL) atau sistem lain dalam alur kerja otomatis.
Penyimpanan fitur menggunakan model penyimpanan ganda yang terdiri dari penyimpanan offline dan penyimpanan online. Penyimpanan offline, atau penyimpanan fitur offline, memelihara data fitur historis dan mendukung pelatihan model dengan menyediakan akses ke data pelatihan dan kumpulan data pelatihan. Biasanya, sistem ini dibangun di atas gudang data atau data lake.
Penyimpanan online, atau penyimpanan fitur online, mempertahankan nilai fitur terkini dan mendukung pencarian latensi rendah selama inferensi model. Pemisahan antara penyimpanan offline dan online ini memungkinkan skalabilitas dan kinerja yang optimal di berbagai beban kerja.
Penyajian fitur adalah proses penyampaian nilai-nilai fitur ke model machine learning. Lapisan API atau SDK memungkinkan aplikasi untuk mengambil fitur antar lingkungan, memastikan bahwa definisi fitur tetap selaras. Hal ini juga membantu meminimalkan ketidakseimbangan antara data pelatihan dan data yang disajikan, serta memastikan bahwa model menerima nilai fitur terbaru saat membuat prediksi.
Registri fitur berfungsi sebagai sistem pencatatan terpusat untuk definisi fitur. Sistem ini menyimpan informasi metadata, silsilah dan versi, memberikan visibilitas tentang bagaimana fitur dibangun dan di mana fitur tersebut digunakan. Keterlacakan ini mempermudah penemuan fitur yang dapat digunakan kembali, penegakan tata kelola dan kontrol akses , serta pelacakan ketergantungan dalam alur kerja.
Penyimpanan fitur mengatur pipeline dan alur kerja di seluruh siklus hidup fitur. Tugas umum termasuk mengotomatiskan komputasi fitur, mengelola operasi pengisian ulang untuk data fitur historis, menghitung ulang fitur saat definisi berubah, dan mengidentifikasi fitur duplikat atau usang. Oleh karena itu, orkestrasi memastikan bahwa pipeline fitur tetap dapat diandalkan dan dapat diskalakan di seluruh platform data.
Meskipun implementasinya bervariasi, sebagian besar penyimpanan fitur menyediakan serangkaian kemampuan konsisten yang melampaui arsitektur intinya, memungkinkan alur kerja machine learning yang dapat diskalakan dan andal.
Memastikan komputasi fitur yang konsisten dalam alur kerja sehingga logika yang sama diterapkan selama pelatihan dan inferensi.
Memungkinkan analisis historis dan akses latensi rendah ke nilai fitur, mendukung pemrosesan batch dan lingkungan streaming.
Memberikan pengambilan nilai fitur yang cepat dan andal untuk prediksi model, baik secara real-time maupun dengan throughput tinggi.
Memusatkan definisi fitur untuk meningkatkan kemudahan ditemukan, pembuatan versi, dan tata kelola antar tim dan alur kerja.
Mengotomatiskan alur kerja dan manajemen siklus hidup di seluruh pipeline fitur untuk menjaga keandalan dan skalabilitas.
Menegakkan kebijakan tata kelola dan izin untuk melindungi data fitur dan mengurangi risiko kebocoran data.
Bersama-sama, kemampuan ini menentukan bagaimana data fitur dikelola dalam alur kerja machine learning. Mereka juga mencerminkan bagaimana penyimpanan fitur sesuai dengan arsitektur data yang lebih luas.
Sistem data tradisional—seperti gudang data dan penyimpanan data lainnya—dirancang untuk memproses dan memindahkan data di seluruh organisasi. Namun, data ini pada dasarnya belum siap untuk machine learning.
Penyimpanan fitur dibangun di atas fondasi ini dengan mengatur data fitur menjadi input yang dapat digunakan kembali untuk model machine learning, menstandarkan bagaimana fitur ditentukan, dikomputasi, dan disajikan dalam tahap pengembangan dan produksi.
Penyimpanan fitur menyediakan serangkaian keunggulan praktis yang meningkatkan cara pengembangan dan pemeliharaan sistem machine learning.
Penyimpanan fitur juga memungkinkan penyajian fitur throughput tinggi menggunakan lapisan penyimpanan yang dioptimalkan dan sistem nilai kunci seperti Redis, yang umumnya digunakan sebagai layanan terkelola dalam memori di platform data modern. Pendekatan ini membantu memastikan bahwa model mengambil nilai fitur terbaru secara efisien.
Memilih penyimpanan fitur tergantung pada arsitektur data, infrastruktur dan kematangan machine learning organisasi. Pertimbangan umum meliputi:
Penyimpanan fitur harus selaras dengan data pipeline, data warehouse, data lake, dan sistem platform data yang lebih luas yang sudah ada. Namun, mengintegrasikan pipeline fitur ke dalam alur kerja yang sudah ada sering kali memerlukan pemfaktoran ulang transformasi data dan koordinasi antar tim.
Akibatnya, organisasi biasanya mulai dengan mengevaluasi bagaimana penyimpanan fitur terintegrasi dengan alat yang sudah ada seperti Snowflake, Databricks dan layanan AWS seperti SageMaker Feature Store. Sering kali, penyimpanan fitur diintegrasikan sebagai bagian dari sistem MLOps yang lebih luas yang menghubungkan rekayasa data dan penerapan model.1
Implementasi penyimpanan fitur sangat bervariasi, dengan organisasi yang terus-menerus menyeimbangkan antara kinerja, skalabilitas, dan kompleksitas operasional.2 Kerangka kerja penyimpanan fitur sumber terbuka seperti Feast memungkinkan perusahaan untuk membangun dan mengelola pipeline dan infrastruktur fitur mereka sendiri, sementara platform seperti Tecton menawarkan solusi yang terkelola sepenuhnya dan siap produksi.
Namun, beberapa organisasi memilih untuk membangun platform machine learning end-to-end mereka sendiri, seperti Michelangelo milik Uber, yang menyertakan fungsionalitas penyimpanan fitur sebagai bagian dari sistem yang lebih luas. Pada akhirnya, keputusan untuk membangun atau mengadopsi penyimpanan fitur tergantung pada keahlian internal dan persyaratan skalabilitas jangka panjang.
Persyaratan arsitektur memainkan peran sentral. Beberapa contoh penggunaan memerlukan penyajian fitur secara real-time atau latensirendah, sementara yang lain bergantung pada pemrosesan batch atau perhitungan fitur sesuai permintaan. Persyaratan throughput tinggi juga menempatkan tuntutan signifikan pada infrastruktur seiring dengan skala volume data.
Mendukung pemrosesan data historis dan inferensi real-time menjadi kompleks ketika menjaga konsistensi antara nilai fitur offline dan online. Riset menyoroti bagaimana desain penyimpanan fitur sering kali didorong oleh persyaratan beban kerja ini, menunjuk pada isu-isu seperti latensi, skalabilitas, dan kebenaran titik waktu tertentu.3
Tata kelola juga sama pentingnya. Penyimpanan fitur beroperasi pada data fitur bersama, sehingga organisasi membutuhkan visibilitas yang jelas tentang bagaimana fitur didefinisikan, diuji, dan digunakan.
Karena data fitur dibagikan di seluruh tim, organisasi harus menerapkan kontrol untuk mencegah kebocoran data dan memastikan bahwa fitur dihitung secara konsisten. Kerangka kerja tata kelola formal dapat mendukung konsistensi, silsilah, dan kepatuhan di seluruh pipeline fitur, 4 membantu menjaga kepercayaan pada sistem machine learning.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1 An Analysis of MLOps Architectures: A Systematic Mapping Study, arXiv, 28 Juni 2024.
2 Evolution of Feature Store Architectures in Modern ML Platforms, International Journal of Information Technology and Management Information Systems (IJITMIS), Maret-April 2025.
3 Conceptual Approaches to Organizing Feature Stores in High-Load ML Systems, International Journal of Computer (IJC), 2 Februari, 2026.
4 A Formal Model for Feature Store Architecture and Governance, International Journal of Computational and Experimental Science and Engineering, Desember 2025.