Apa itu tumpukan data modern?

Berbagai tumpukan buku dengan arah horizontal dan vertikal

Penyusun

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Apa itu tumpukan data modern?

Tumpukan data modern (modern data stack, MDS) mengacu pada alat dan teknologi terintegrasi berbasis cloud yang memungkinkan pengumpulan, penyerapan, penyimpanan, pembersihan, transformasi, analisis, dan tata kelola data.Sesuai namanya, tumpukan data atau “platform data” membuat lapisan alat yang dibutuhkan organisasi untuk memelihara kualitas data dan mengoptimalkan nilai informasi mereka.

Tumpukan data lama (legacy data stack, LDS) tradisional bergantung pada infrastruktur lokal yang kaku, yang mungkin kesulitan menangani skalabilitas, fleksibilitas, dan pemrosesan real-time. Sebaliknya, MDS menawarkan solusi modular cloud-native yang dirancang untuk menyederhanakan otomatisasi, mengoptimalkan biaya, dan mempercepat insight. Mungkin, yang paling menonjol, MDS memberdayakan aplikasi analisis layanan mandiri dan kecerdasan buatan (AI) yang diandalkan banyak perusahaan saat ini.

Platform data berfungsi sebagai tulang punggung pengembangan perangkat lunak modern yang menawarkan jaringan alat dan kerangka kerja untuk membangun dan mengelola aplikasi secara efisien. Anggaplah MDS sebagai jalur perakitan operasi digital. Setiap komponennya memainkan peran dalam memindahkan data secara mulus dari tahap pengumpulan ke analisis. Dengan mengotomatiskan dan menskalakan alur kerja, MDS memastikan bahwa organisasi dapat memproses, menyimpan, dan menggunakan data dengan presisi, sehingga mendorong pengambilan keputusan dan inovasi yang lebih baik.

Fungsi utama MDS meliputi:

  • Penyimpanan: Mengonsolidasikan data di gudang data cloud, data lake, atau data lakehouse hybrid.
  • Penyerapan: Memindahkan data dari berbagai sumber ke pipeline data untuk analisis.
  • Transformasi: Mengubah data mentah menjadi format terstruktur melalui proses seperti pembersihan, normalisasi, dan agregasi.
  • Intelijen Bisnis (business intelligence, BI) dan analisis: Menggunakan alat analisis untuk menghasilkan insight, memvisualisasikan tren, dan mendukung model Machine Learning (ML).
  • Observabilitas data: Memantau, mengelola, dan memelihara data untuk memastikan kualitas, ketersediaan, dan keandalan.
Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa tumpukan data modern penting?

Selama tahun 2012 hingga 2016, perubahan besar dalam alur kerja data merombak cara organisasi menyimpan dan memproses data. Platform berbasis cloud seperti Snowflake, Google BigQuery, dan Amazon Redshift mempopulerkan gudang data cloud dengan menawarkan skalabilitas, daya komputasi, dan efisiensi yang jauh lebih baik dari sebelumnya.

Pada saat yang sama, organisasi beralih dari alur kerja ekstrak, transformasi, muat (extract, transform, load (ETL)) tradisional yang mentransformasi data sebelum disimpan, menjadi ekstrak, muat, ubah (extract, load, transform (ELT)) yang menyimpan data terlebih dahulu dan memprosesnya kemudian. Pendekatan ini meningkatkan fleksibilitas dan membuat insight real-time lebih mudah diakses dengan menggunakan konektor, atau ekstensi, untuk menyederhanakan pergerakan data.

Selama periode ini, alat seperti Fivetran dan Airflow mengotomatiskan penyerapan data, sementara platform seperti Tableau, Power BI, dan Looker merevolusi BI. ETL terbalik meningkatkan aliran data dengan mendorong insight dari gudang ke sistem operasional seperti sistem manajemen hubungan pelanggan (customer relationship management, CRM). Ini memungkinkan otomatisasi, pengambilan keputusan, dan personalisasi yang lebih baik. Inovasi ini memberikan fondasi bagi MDS, yang memungkinkan alur kerja data lebih dapat diskalakan, otomatis, dan fleksibel. Dengan menyederhanakan pergerakan dan integrasi data, organisasi berhasil meningkatkan ketangkasan operasional.

Tumpukan data lama vs. tumpukan data modern

Untuk memahami pentingnya MDS, ada baiknya kita membandingkannya dengan LDS:

Beberapa perbedaan utama dalam sekilas

  • Infrastruktur: LDS mengandalkan server fisik; MDS bersifat cloud native.
  • Skalabilitas: LDS memerlukan penskalaan manual; MDS dapat diskalakan secara dinamis sesuai permintaan.
  • Integrasi: LDS bergantung pada alur kerja khusus; MDS mengotomatiskan penyerapan data.
  • Fleksibilitas: LDS bersifat monolitik; MDS bersifat modular sehingga memungkinkan integrasi alat yang mulus.
  • Analisis: LDS mendukung pelaporan batch; MDS menawarkan insight real-time dan dasbor interaktif.
  • Biaya: LDS membutuhkan investasi awal yang besar; MDS menggunakan model bayar sesuai pemakaian.

LDS tradisional dibangun pada infrastruktur lokal, membutuhkan investasi besar untuk perangkat keras, pemeliharaan, dan penskalaan manual. Tumpukan data lama bergantung pada alur kerja ETL. Artinya, data harus dibersihkan dan disusun sebelum disimpan. Meskipun efektif untuk pelaporan statis, LDS mengalami kesulitan dalam pemrosesan waktu nyata, skalabilitas, dan penanganan data tidak terstruktur seperti log sensor, gambar, atau audio.

MDS mengatasi tantangan ini dengan pendekatan modular cloud-native, yang memungkinkan organisasi untuk menyimpan, memproses, dan menganalisis sejumlah besar data terstruktur dan tidak terstruktur secara lebih efisien. Alur kerja ELT memberikan fleksibilitas yang lebih besar, sering kali dengan menggunakan skrip berbasis Python untuk otomatisasi dan pemrosesan data.

Tidak seperti LDS yang memerlukan ekspansi infrastruktur berbiaya tinggi, MDS menawarkan skalabilitas sesuai permintaan, dan sifat modularnya memungkinkan bisnis mengintegrasikan alat tumpukan data tanpa keterikatan pada vendor. Pada akhirnya, MDS memungkinkan insight waktu nyata dan analisis serta otomatisasi berbasis AI yang membuat data lebih mudah diakses dan dapat ditindaklanjuti di seluruh organisasi.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Komponen dasar tumpukan data modern

MDS terdiri dari beberapa komponen inti, termasuk:

  • Penyimpanan data
  • Konsumsi data
  • Transformasi data
  • BI dan analisis
  • Observabilitas data

Penyimpanan data

Lapisan penyimpanan data berfungsi sebagai fondasi MDS dengan menyediakan lingkungan terpusat untuk mengelola data terstruktur dan tidak terstruktur. Organisasi dapat memilih solusi penyimpanan dari berbagai penyedia, misalnya IBM, AWS, atau Microsoft, berdasarkan faktor-faktor seperti kebutuhan biaya, kinerja, dan skalabilitas.

Jenis penyimpanan data:

  • Gudang data: Data terstruktur dari berbagai sumber dikumpulkan menjadi satu penyimpanan data terpusat yang dioptimalkan untuk analisis, AI, dan ML. Penyedianya meliputi Snowflake, GoogleBigQuery, dan Amazon Redshift.
  • Data lake: Data lake menyimpan data mentah, terstruktur, dan tidak terstruktur dalam berbagai format. Jenis penyimpanan data ini memungkinkan organisasi menyimpan data dalam jumlah besar, sering kali mencapai skala petabyte dan bahkan lebih besar untuk aplikasi AI, ML, dan penelitian. Banyak data lake pada awalnya dibangun pada Hadoop, tetapi sebagian besar arsitektur modern saat ini menggunakan solusi penyimpanan objek cloud seperti AWS S3 dan IBM Cloud Object Storage (COS).
  • Data lakehouse: Pendekatan hybrid yang menggabungkan skalabilitas data lake dengan kemampuan kueri terstruktur dari gudang data. Dengan kata lain, ini merupakan arsip yang tampaknya tak terbatas dengan indeks berpresisi tinggi. Lakehouse menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur, sekaligus mendukung beban kerja BI, analisis, dan ML.

Konsumsi data

Penyerapan data adalah proses pengumpulan dan pemindahan data dari berbagai sumber ke sistem penyimpanan terpusat untuk diproses dan dianalisis. Efektivitas pipeline data tergantung pada seberapa baik big data diserap dan terintegrasi. Insinyur data memainkan peran penting, karena kesalahan pada tahap ini dapat menyebabkan masalah hilir dalam analisis dan model AI.

Jenis penyerapan data:

  • Pemrosesan batch: Sebagai metode penyerapan yang paling umum, pemrosesan batch mengumpulkan data dalam kelompok (atau batch) dan mengirimkannya ke penyimpanan pada interval yang dijadwalkan. Pendekatan ini hemat biaya dan cocok bagi data yang tidak memerlukan pembaruan real-time.
  • Pemrosesan real-time: Juga disebut sebagai "pemrosesan aliran", metode ini terus-menerus menyerap dan memproses data saat data dihasilkan. Metode ini sangat penting untuk aplikasi AI, deteksi penipuan, dan analisis real-time. Namun, dibutuhkan sumber daya komputasi yang lebih tinggi.

Alat penyerapan otomatis seperti Apache Airflow, Stitch, dan Fivetran membantu organisasi memindahkan data dengan lancar antara sistem, sehingga mengurangi upaya manual dan meningkatkan efisiensi integrasi data.

Transformasi data

Data mentah sering kali tidak konsisten atau tidak terstruktur saat diserap, sehingga sulit untuk dianalisis dalam format aslinya. Lapisan transformasi data memastikan bahwa data bersih, terstruktur, dan dioptimalkan untuk tugas-tugas seperti analisis, pelaporan, dan ML.

Tugas transformasi data umum:

  • Pembersihan data: Menghapus kesalahan, nilai nihil, dan duplikat.
  • Normalisasi: Membuat standar format data demi konsistensi.
  • Agregasi: Merangkum kumpulan data besar untuk pelaporan.
  • Penggabungan: Menggabungkan data dari beberapa sumber ke dalam kumpulan data terpadu.

Secara historis, transformasi data mengikuti alur kerja ETL. Namun, dengan munculnya solusi penyimpanan berbasis cloud, sebagian besar organisasi kini menggunakan proses ELT. Alat transformasi data seperti dbt dan Dataform mengotomatiskan alur kerja dan membantu memastikan bahwa data akurat, konsisten, dan siap dianalisis.

BI dan analisis

Lapisan BI dan analitik mengubah data mentah menjadi insight yang dapat ditindaklanjuti melalui analisis data, visualisasi, analisis tren, pembuatan kueri bahasa kueri terstruktur (structured query language, SQL), dan otomatisasi berbasis AI. Alat seperti Tableau, Power BI, dan Looker menyediakan dasbor interaktif dan analisis data real-time yang membantu organisasi melacak kinerja dan menyempurnakan strategi.

Selain dari visualisasi data, analisis berdukungan AI dan ilmu data meningkatkan pengambilan keputusan dengan mendeteksi anomali, memprediksi tren, dan mengotomatiskan alur kerja. Semua ini mengandalkan praktik manajemen data yang baik. Baik digunakan untuk analisis perilaku pelanggan,perkiraan, maupun optimalisasi rantai pasokan, alat BI memastikan bahwa bisnis dapat menggunakan data untuk lingkungan strategis dan operasional.

Observabilitas data 

Observabilitas data memastikan kualitas, ketersediaan, dan keandalan data dengan terus memantau kesehatan data. Lapisan ini membantu tim data mendeteksi pipeline yang rusak, kumpulan data yang hilang, atau pemrosesan yang lambat sebelum berdampak pada analisis.

Alat observabilitas seperti Monte Carlo dan Datadog memberikan insight tentang aliran data, sehingga insinyur dapat mendiagnosis dan meningkatkan alur kerja secara real-time. Dengan menyelesaikan masalah secara proaktif, organisasi dapat mempertahankan integritas data dan meningkatkan pengambilan keputusan berbasis data. Praktik observabilitas yang kuat mendukung model data yang terstruktur dengan baik dan memastikan bahwa para pemangku kepentingan dapat memercayai insight di seluruh siklus proses data.

Lapisan tumpukan data modern tambahan

Di luar lima lapisan dasar, MDS sering menyertakan komponen lain untuk meningkatkan aksesibilitas dan fungsionalitas. Komponen-komponen ini dapat mencakup: 

  • Penemuan data: Penemuan data membantu organisasi mengungkap dan menilai sumber data yang tersembunyi atau terisolasi, dan memastikan tim data dapat mengekstrak informasi berharga serta memanfaatkannya secara efektif.
  • Tata kelola data: Penetapan kebijakan dan perlindungan dapat membantu memastikan keamanan, kepatuhan terhadap peraturan, dan konsistensi data. Dengan mengelola aliran data dan menerapkan model data terstruktur, tata kelola mendukung alur kerja yang efisien dan membantu memastikan pemantauan kepatuhan secara real-time.
  • Katalogisasi data: Tim dapat menggunakan metadata untuk membuat inventaris aset data terstruktur di berbagai gudang data, data lake, dan lingkungan penyimpanan lainnya. Katalog yang terpelihara dengan baik mendukung seluruh siklus proses data dan memungkinkan pemangku kepentingan untuk mengakses dan menggunakan informasi penting dengan cepat.
  • ML dan AI: Beberapa platform data mengintegrasikan ML dan AI untuk menyempurnakan pemrosesan data, meningkatkan pemodelan prediktif, mengotomatiskan insight, dan meningkatkan deteksi anomali. Model ML juga mengoptimalkan alur kerja dengan mengidentifikasi inefisiensi dan menyarankan perbaikan real-time untuk tim data.

Contoh penggunaan tumpukan data modern

Perusahaan dapat menerapkan MDS mereka sendiri untuk meningkatkan personalisasi, insight pelanggan, logistik, dan deteksi penipuan yang didukung AI.

Personalisasi yang didukung AI

MDS memungkinkan bisnis menyediakan personalisasi AI berbasis data. Personalisasi ini dapat membantu mengoptimalkan pengalaman pengguna di berbagai area, seperti e-commerce, platform streaming, dan aplikasi perangkat lunak sebagai layanan (software as a service, SaaS). Dengan menggunakan Apache Spark untuk pemrosesan real-time dan Databricks untuk analisis yang dapat diskalakan, ilmuwan data dapat menganalisis preferensi dan interaksi pelanggan guna meningkatkan mesin rekomendasi dan jaringan pengiriman konten.

Insight pelanggan dan optimalisasi penjualan

Perusahaan menggunakan alat analisis MDS dan SaaS untuk melacak perilaku pelanggan dan menyempurnakan strategi pemasaran. Platform cloud seperti Snowflake dan Looker menghasilkan dasbor real-time untuk kategori seperti pola pembelian dan optimalisasi harga. Semua ini dapat membantu bisnis meningkatkan tingkat konversi dan retensi.

Optimalisasi logistik dan rantai pasokan

Dengan mengintegrasikan Fivetran untuk penyerapan data dan dbt untuk transformasi, perusahaan dapat memantau inventaris secara real time dan memprediksi gangguan. Integrasi ini dapat mempercepat pemenuhan, memangkas biaya dan meningkatkan perencanaan permintaan di industri seperti retail, manufaktur, dan transportasi.

Deteksi penipuan dan manajemen risiko

Lembaga keuangan dan platform e-commerce menggunakan MDS untuk mendeteksi penipuan dan mencegah pelanggaran data. Dengan menggunakan model ML, antarmuka pemrograman aplikasi (application programming interface, API) dan layanan seperti Amazon Redshift, organisasi dapat mengidentifikasi transaksi mencurigakan dan mengotomatiskan deteksi penipuan.

Bisnis apa saja yang membutuhkan tumpukan data modern?

Bisnis yang mengandalkan pengambilan keputusan real-time, otomatisasi, dan insight berbasis AI menggunakan MDS untuk meningkatkan aksesibilitas data dan menyederhanakan operasi. Industri teknologi, keuangan, layanan kesehatan, e-commerce dan logistik sering menggunakan MDS untuk mengintegrasikan sumber data berskala besar, meningkatkan kemampuan analisis, dan mendukung pengambilan keputusan dan orkestrasi yang lebih efisien.

Namun, di dunia di mana data menjadi landasan bagi hampir setiap aspek operasi bisnis, pertanyaan sebenarnya bukanlah industri mana yang mendapat manfaat dari MDS, melainkan bagaimana MDS dapat membantu organisasi meningkatkan efisiensi dan kemampuan beradaptasi. Karena adopsi AI, alat sumber terbuka, dan pemrosesan data real-time terus berkembang, MDS menjadi pendekatan yang lebih umum bagi berbagai organisasi untuk memodernisasi arsitektur data mereka.

Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

Jelajahi StreamSets
Solusi susunan data

Rancang arsitektur data yang mempercepat kesiapan data untuk AI generatif dan membuka produktivitas yang tak tertandingi untuk tim data.

Jelajahi solusi susunan data
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Temukan IBM DataStage, alat ETL (Extract, Transform, Load) yang menawarkan antarmuka visual untuk merancang, mengembangkan, dan menerapkan pipeline data. Alat ini tersedia sebagai SaaS terkelola di IBM Cloud untuk hosting mandiri dan sebagai add-on pada IBM Cloud Pak for Data.

Jelajahi DataStage Jelajahi layanan analitik