Apa itu penyimpanan fitur?

Penyimpanan fitur, didefinisikan

Penyimpanan fitur adalah sistem data yang mengelola, menyimpan, dan menyediakan fitur untuk model machine learning (ML). Sistem ini menyediakan repositori terpusat untuk data fitur, memastikan bahwa nilai fitur didefinisikan dan digunakan secara konsisten di seluruh lingkungan pelatihan dan produksi model.

Dalam machine learning, fitur adalah variabel atau atribut yang berasal dari data mentah dan digunakan sebagai input bagi model untuk menghasilkan prediksi. Mereka mewakili aspek-aspek terukur dari perilaku, konteks atau keadaan dalam data, seperti frekuensi pembelian atau lokasi geografis.

Misalnya, dalam deteksi penipuan, model mengandalkan sinyal yang telah dikurasi, bukan data mentah. Fitur-fitur tersebut dapat mencakup jumlah transaksi dalam seminggu terakhir atau lokasi pembelian terbaru—representasi yang dirancang untuk menangkap pola yang mungkin mengindikasikan perilaku penipuan.

Fitur—sering disebut sebagai fitur ML—dihasilkan dari berbagai sumber data dan disusun ke dalam kumpulan data yang mendukung alur kerja ilmu data dan machine learning. Fitur-fitur ini kemudian digunakan untuk melatih model, mengevaluasi metrik, dan menerapkan model ke dalam sistem produksi.

Apa tujuan penyimpanan fitur dalam ML?

Model machine learning beroperasi pada representasi numerik data. Setiap titik data dinyatakan sebagai sekumpulan nilai fitur, sering kali dalam bentuk vektor, di mana setiap dimensi sesuai dengan atribut tertentu. Meskipun beberapa jenis data terstruktur secara inheren bersifat numerik, seperti informasi akuntansi, jenis data lainnya—seperti teks, gambar atau audio—bersifat tidak terstruktur dan harus diubah menjadi bentuk numerik terstruktur sebelum dapat digunakan oleh model.

Salah satu cara untuk mengubah data tidak terstruktur adalah melalui rekayasa fitur, di mana data mentah diubah menjadi input terstruktur yang dapat dibaca mesin menggunakan teknik seperti agregasi, penyaringan, dan pengkodean. Rekayasa fitur juga mencakup ekstraksi fitur (di mana algoritma memperoleh representasi yang bermakna dari data mentah) dan pemilihan fitur (yang mengidentifikasi variabel yang paling relevan).

Karena alur kerja machine learning mencakup pelatihan model dan inferensi, fitur dihitung dari data historis dan data baru dalam produksi. Mempertahankan keselarasan membutuhkan koordinasi di seluruh pipeline data, pipeline fitur, dan sistem rekayasa data —sebuah tantangan yang dirancang untuk diatasi oleh penyimpanan fitur.

Dalam praktiknya, penyimpanan fitur mendukung setiap tahap siklus hidup machine learning:

  • Rekayasa dan pengembangan fitur: Menyediakan lingkungan yang terstruktur untuk mendefinisikan fitur baru, memungkinkan tim untuk berbagi fitur, menggunakan kembali fitur, dan menghindari implementasi yang berulang.
  • Pelatihan model: Menyediakan data fitur historis dan data pelatihan, memastikan bahwa model dilatih menggunakan kumpulan data yang andal.
  • Inferensi dan penyajian: Memberikan nilai fitur secara real time melalui sistem penyimpanan fitur online, memungkinkan prediksi latensi rendah.
  • Pemantauan dan iterasi: Melacak metrik, mendeteksi kemiringan (atau distribusi data yang tidak merata), dan memantau kualitas fitur dalam alur kerja.

Mengapa penyimpanan fitur penting

Kinerja model machine learning-yang menopang banyak sistem kecerdasan buatan (AI) saat ini-bergantung secara langsung pada kualitas input mereka. Apa yang masuk menentukan apa yang keluar.

Nilai fitur menentukan bagaimana model menafsirkan pola dalam data pelatihan dan menerapkan pola tersebut ke data baru. Koordinasi ini meningkatkan kinerja model dengan melakukan dua hal: mengelola data fitur dalam skala besar dan juga memberikan konsistensi di seluruh pelatihan dan kesimpulan.

Mengelola data fitur dalam skala besar

Seiring dengan berkembangnya sistem machine learning, pengelolaan data fitur menjadi semakin kompleks. Fitur dihasilkan dan diedarkan di berbagai alur kerja, sering kali oleh tim rekayasa data dan tim ML yang bekerja di lingkungan terdistribusi.

Tanpa sistem terpusat, fitur duplikat dan definisi fitur yang tidak konsisten muncul. Tim dapat menghitung fitur yang sama menggunakan logika yang sedikit berbeda, yang menyebabkan inkonsistensi dalam kumpulan data dan pipeline. Ketidakkonsistenan ini membuat lebih sulit untuk menggunakan kembali fitur dan memperkenalkan risiko ke dalam pengembangan model.

Memastikan konsistensi di seluruh pelatihan dan inferensi

Selama pelatihan model, fitur dihitung dari data historis dan diatur ke dalam kumpulan data pelatihan. Setelah diterapkan, definisi fitur yang sama harus diterapkan pada data baru dan dihitung ulang untuk inferensi, sering kali dalam lingkungan real-time atau nyaris seketika.

Bahkan perbedaan kecil dalam cara perhitungan fitur dapat menimbulkan inkonsistensi antara input pelatihan dan produksi—sering disebut sebagai ketidakseimbangan antara pelatihan dan penyajian—yang dapat menyebabkan penurunan kinerja model.

Penyimpanan fitur mengatasi tantangan ini dengan memusatkan definisi fitur dan menstandarkan transformasi fitur. Fitur didefinisikan satu kali, disimpan dalam sistem bersama dan diakses melalui antarmuka pemrograman aplikasi (API) atau antarmuka kit pengembangan perangkat lunak (SDK). Koordinasi ini, sering dikelola melalui registri fitur, memungkinkan tim untuk menggunakan kembali fitur di berbagai pipeline, model, dan contoh penggunaan.

Cara kerja penyimpanan fitur

Arsitektur penyimpanan fitur menghubungkan data antar beberapa tahapan utama machine learning, termasuk:

  • Penyerapan dan transformasi
  • Lapisan penyimpanan
  • Penyajian fitur
  • Registri fitur dan metadata
  • Orkestrasi dan manajemen siklus hidup

Penyerapan dan transformasi

Data dikumpulkan dari berbagai sumber data dan diproses melalui pipeline penyerapan. Pipeline ini menerapkan transformasi data dan fitur untuk mengubah data mentah menjadi nilai fitur.

Komputasi fitur dapat dilakukan dengan berbagai cara: pemrosesan batch dari data yang telah dikumpulkan sebelumnya; pipeline streaming untuk pembaruan real-time; dan komputasi fitur sesuai permintaan pada waktu inferensi. Transformasi ini sering diimplementasikan menggunakan Python, bahasa kueri terstruktur (SQL) atau sistem lain dalam alur kerja otomatis.

Lapisan penyimpanan

Penyimpanan fitur menggunakan model penyimpanan ganda yang terdiri dari penyimpanan offline dan penyimpanan online. Penyimpanan offline, atau penyimpanan fitur offline, memelihara data fitur historis dan mendukung pelatihan model dengan menyediakan akses ke data pelatihan dan kumpulan data pelatihan. Biasanya, sistem ini dibangun di atas gudang data atau data lake.

Penyimpanan online, atau penyimpanan fitur online, mempertahankan nilai fitur terkini dan mendukung pencarian latensi rendah selama inferensi model. Pemisahan antara penyimpanan offline dan online ini memungkinkan skalabilitas dan kinerja yang optimal di berbagai beban kerja.

Penyajian fitur

Penyajian fitur adalah proses penyampaian nilai-nilai fitur ke model machine learning. Lapisan API atau SDK memungkinkan aplikasi untuk mengambil fitur antar lingkungan, memastikan bahwa definisi fitur tetap selaras. Hal ini juga membantu meminimalkan ketidakseimbangan antara data pelatihan dan data yang disajikan, serta memastikan bahwa model menerima nilai fitur terbaru saat membuat prediksi.

Registri fitur dan metadata

Registri fitur berfungsi sebagai sistem pencatatan terpusat untuk definisi fitur. Sistem ini menyimpan informasi metadata, silsilah dan versi, memberikan visibilitas tentang bagaimana fitur dibangun dan di mana fitur tersebut digunakan. Keterlacakan ini mempermudah penemuan fitur yang dapat digunakan kembali, penegakan tata kelola dan kontrol akses , serta pelacakan ketergantungan dalam alur kerja.

Orkestrasi dan manajemen siklus hidup

Penyimpanan fitur mengatur pipeline dan alur kerja di seluruh siklus hidup fitur. Tugas umum termasuk mengotomatiskan komputasi fitur, mengelola operasi pengisian ulang untuk data fitur historis, menghitung ulang fitur saat definisi berubah, dan mengidentifikasi fitur duplikat atau usang. Oleh karena itu, orkestrasi memastikan bahwa pipeline fitur tetap dapat diandalkan dan dapat diskalakan di seluruh platform data.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Kemampuan inti dari penyimpanan fitur

Meskipun implementasinya bervariasi, sebagian besar penyimpanan fitur menyediakan serangkaian kemampuan konsisten yang melampaui arsitektur intinya, memungkinkan alur kerja machine learning yang dapat diskalakan dan andal.

Transformasi fitur

Memastikan komputasi fitur yang konsisten dalam alur kerja sehingga logika yang sama diterapkan selama pelatihan dan inferensi.

Penyimpanan offline dan penyimpanan online

Memungkinkan analisis historis dan akses latensi rendah ke nilai fitur, mendukung pemrosesan batch dan lingkungan streaming.

Penyajian fitur

Memberikan pengambilan nilai fitur yang cepat dan andal untuk prediksi model, baik secara real-time maupun dengan throughput tinggi.

Registri fitur

Memusatkan definisi fitur untuk meningkatkan kemudahan ditemukan, pembuatan versi, dan tata kelola antar tim dan alur kerja.

Orkestrasi

Mengotomatiskan alur kerja dan manajemen siklus hidup di seluruh pipeline fitur untuk menjaga keandalan dan skalabilitas.

Kontrol dan keamanan akses

Menegakkan kebijakan tata kelola dan izin untuk melindungi data fitur dan mengurangi risiko kebocoran data

Bersama-sama, kemampuan ini menentukan bagaimana data fitur dikelola dalam alur kerja machine learning. Mereka juga mencerminkan bagaimana penyimpanan fitur sesuai dengan arsitektur data yang lebih luas.

Sistem data tradisional—seperti gudang data dan penyimpanan data lainnya—dirancang untuk memproses dan memindahkan data di seluruh organisasi. Namun, data ini pada dasarnya belum siap untuk machine learning.

Penyimpanan fitur dibangun di atas fondasi ini dengan mengatur data fitur menjadi input yang dapat digunakan kembali untuk model machine learning, menstandarkan bagaimana fitur ditentukan, dikomputasi, dan disajikan dalam tahap pengembangan dan produksi.

Manfaat penyimpanan fitur

Penyimpanan fitur menyediakan serangkaian keunggulan praktis yang meningkatkan cara pengembangan dan pemeliharaan sistem machine learning.

  • Peningkatan efisiensi pengembangan model: Definisi fitur yang dapat digunakan kembali mengurangi kebutuhan untuk membangun ulang fitur untuk setiap proyek baru, memungkinkan tim untuk fokus pada desain model daripada persiapan data.
  • Konsistensi di seluruh model machine learning: Pipeline fitur yang terstandarisasi memastikan bahwa fitur dihitung dengan cara yang sama selama pelatihan dan inferensi, mengurangi risiko ketidakseimbangan antara data pelatihan dan penyajian.
  • Kolaborasi yang lebih kuat antar tim: Data fitur yang terpusat memungkinkan para ilmuwan data, tim rekayasa data, dan tim ML untuk berbagi fitur serta bekerja berdasarkan sistem pencatatan (SOR) yang sama.
  • Tata kelola dan keterlacakan: Penyimpanan fitur memperkenalkan SOR (System on Readability) terstruktur untuk definisi fitur, sehingga memudahkan pemahaman bagaimana fitur didefinisikan dan digunakan di berbagai model sekaligus menegakkan standar yang konsisten.
  • Dukungan untuk machine learning: Penyimpanan fitur memungkinkan akses latensi rendah ke nilai fitur melalui sistem penyimpanan fitur online, mendukung contoh penggunaan seperti mesin hiper-personalisasi dan rekomendasi.
  • Alur kerja yang dapat diskalakan dan dapat diulang: Pipelines fitur otomatis dan orkestrasi mendukung operasi machine learning (MLOps). Hal ini memberdayakan organisasi untuk menskalakan sistem machine learning antar tim dan contoh penggunaan.

Penyimpanan fitur juga memungkinkan penyajian fitur throughput tinggi menggunakan lapisan penyimpanan yang dioptimalkan dan sistem nilai kunci seperti Redis, yang umumnya digunakan sebagai layanan terkelola dalam memori di platform data modern. Pendekatan ini membantu memastikan bahwa model mengambil nilai fitur terbaru secara efisien.

Memilih penyimpanan fitur

Memilih penyimpanan fitur tergantung pada arsitektur data, infrastruktur dan kematangan machine learning organisasi. Pertimbangan umum meliputi:

  • Integrasi dengan platform data yang ada
  • Opsi sumber terbuka dan terkelola
  • Persyaratan arsitektur dan beban kerja
  • Tata kelola dan kepercayaan

Integrasi dengan platform data yang sudah ada

Penyimpanan fitur harus selaras dengan data pipeline, data warehouse, data lake, dan sistem platform data yang lebih luas yang sudah ada. Namun, mengintegrasikan pipeline fitur ke dalam alur kerja yang sudah ada sering kali memerlukan pemfaktoran ulang transformasi data dan koordinasi antar tim.

Akibatnya, organisasi biasanya mulai dengan mengevaluasi bagaimana penyimpanan fitur terintegrasi dengan alat yang sudah ada seperti Snowflake, Databricks dan layanan AWS seperti SageMaker Feature Store. Sering kali, penyimpanan fitur diintegrasikan sebagai bagian dari sistem MLOps yang lebih luas yang menghubungkan rekayasa data dan penerapan model.1

Opsi sumber terbuka dan terkelola

Implementasi penyimpanan fitur sangat bervariasi, dengan organisasi yang terus-menerus menyeimbangkan antara kinerja, skalabilitas, dan kompleksitas operasional.2 Kerangka kerja penyimpanan fitur sumber terbuka seperti Feast memungkinkan perusahaan untuk membangun dan mengelola pipeline dan infrastruktur fitur mereka sendiri, sementara platform seperti Tecton menawarkan solusi yang terkelola sepenuhnya dan siap produksi.

Namun, beberapa organisasi memilih untuk membangun platform machine learning end-to-end mereka sendiri, seperti Michelangelo milik Uber, yang menyertakan fungsionalitas penyimpanan fitur sebagai bagian dari sistem yang lebih luas. Pada akhirnya, keputusan untuk membangun atau mengadopsi penyimpanan fitur tergantung pada keahlian internal dan persyaratan skalabilitas jangka panjang.

Persyaratan arsitektur dan beban kerja

Persyaratan arsitektur memainkan peran sentral. Beberapa contoh penggunaan memerlukan penyajian fitur secara real-time atau latensirendah, sementara yang lain bergantung pada pemrosesan batch atau perhitungan fitur sesuai permintaan. Persyaratan throughput tinggi juga menempatkan tuntutan signifikan pada infrastruktur seiring dengan skala volume data.

Mendukung pemrosesan data historis dan inferensi real-time menjadi kompleks ketika menjaga konsistensi antara nilai fitur offline dan online. Riset menyoroti bagaimana desain penyimpanan fitur sering kali didorong oleh persyaratan beban kerja ini, menunjuk pada isu-isu seperti latensi, skalabilitas, dan kebenaran titik waktu tertentu.3

Tata kelola dan kepercayaan

Tata kelola juga sama pentingnya. Penyimpanan fitur beroperasi pada data fitur bersama, sehingga organisasi membutuhkan visibilitas yang jelas tentang bagaimana fitur didefinisikan, diuji, dan digunakan.

Karena data fitur dibagikan di seluruh tim, organisasi harus menerapkan kontrol untuk mencegah kebocoran data dan memastikan bahwa fitur dihitung secara konsisten. Kerangka kerja tata kelola formal dapat mendukung konsistensi, silsilah, dan kepatuhan di seluruh pipeline fitur, 4 membantu menjaga kepercayaan pada sistem machine learning.

Penyusun

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

  1. Jelajahi solusi manajemen data
  2. Temukan watsonx.data
Catatan kaki

1 An Analysis of MLOps Architectures: A Systematic Mapping Study, arXiv, 28 Juni 2024.

2 Evolution of Feature Store Architectures in Modern ML Platforms, International Journal of Information Technology and Management Information Systems (IJITMIS), Maret-April 2025.

3 Conceptual Approaches to Organizing Feature Stores in High-Load ML Systems, International Journal of Computer (IJC), 2 Februari, 2026.

4 A Formal Model for Feature Store Architecture and Governance, International Journal of Computational and Experimental Science and Engineering, Desember 2025.