Apa itu tumpukan data modern?

Penyusun

Staff Writer

IBM Think

Staff Editor

IBM Think

Apa itu tumpukan data modern?

Tumpukan data modern (modern data stack, MDS) mengacu pada alat dan teknologi terintegrasi berbasis cloud yang memungkinkan pengumpulan, penyerapan, penyimpanan, pembersihan, transformasi, analisis, dan tata kelola data.Sesuai namanya, tumpukan data atau “platform data” membuat lapisan alat yang dibutuhkan organisasi untuk memelihara kualitas data dan mengoptimalkan nilai informasi mereka.

Tumpukan data lama (legacy data stack, LDS) tradisional bergantung pada infrastruktur lokal yang kaku, yang mungkin kesulitan menangani skalabilitas, fleksibilitas, dan pemrosesan real-time. Sebaliknya, MDS menawarkan solusi modular cloud-native yang dirancang untuk menyederhanakan otomatisasi, mengoptimalkan biaya, dan mempercepat insight. Mungkin, yang paling menonjol, MDS memberdayakan aplikasi analisis layanan mandiri dan kecerdasan buatan (AI) yang diandalkan banyak perusahaan saat ini.

Platform data berfungsi sebagai tulang punggung pengembangan perangkat lunak modern yang menawarkan jaringan alat dan kerangka kerja untuk membangun dan mengelola aplikasi secara efisien. Anggaplah MDS sebagai jalur perakitan operasi digital. Setiap komponennya memainkan peran dalam memindahkan data secara mulus dari tahap pengumpulan ke analisis. Dengan mengotomatiskan dan menskalakan alur kerja, MDS memastikan bahwa organisasi dapat memproses, menyimpan, dan menggunakan data dengan presisi, sehingga mendorong pengambilan keputusan dan inovasi yang lebih baik.

Fungsi utama MDS meliputi:

Penyimpanan: Mengonsolidasikan data di gudang data cloud, data lake, atau data lakehouse hybrid.
Penyerapan: Memindahkan data dari berbagai sumber ke pipeline data untuk analisis.
Transformasi: Mengubah data mentah menjadi format terstruktur melalui proses seperti pembersihan, normalisasi, dan agregasi.
Intelijen Bisnis (business intelligence, BI) dan analisis: Menggunakan alat analisis untuk menghasilkan insight, memvisualisasikan tren, dan mendukung model Machine Learning (ML).
Observabilitas data: Memantau, mengelola, dan memelihara data untuk memastikan kualitas, ketersediaan, dan keandalan.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Mengapa tumpukan data modern penting?

Selama tahun 2012 hingga 2016, perubahan besar dalam alur kerja data merombak cara organisasi menyimpan dan memproses data. Platform berbasis cloud seperti Snowflake, Google BigQuery, dan Amazon Redshift mempopulerkan gudang data cloud dengan menawarkan skalabilitas, daya komputasi, dan efisiensi yang jauh lebih baik dari sebelumnya.

Pada saat yang sama, organisasi beralih dari alur kerja ekstrak, transformasi, muat (extract, transform, load (ETL)) tradisional yang mentransformasi data sebelum disimpan, menjadi ekstrak, muat, ubah (extract, load, transform (ELT)) yang menyimpan data terlebih dahulu dan memprosesnya kemudian. Pendekatan ini meningkatkan fleksibilitas dan membuat insight real-time lebih mudah diakses dengan menggunakan konektor, atau ekstensi, untuk menyederhanakan pergerakan data.

Selama periode ini, alat seperti Fivetran dan Airflow mengotomatiskan penyerapan data, sementara platform seperti Tableau, Power BI, dan Looker merevolusi BI. ETL terbalik meningkatkan aliran data dengan mendorong insight dari gudang ke sistem operasional seperti sistem manajemen hubungan pelanggan (customer relationship management, CRM). Ini memungkinkan otomatisasi, pengambilan keputusan, dan personalisasi yang lebih baik. Inovasi ini memberikan fondasi bagi MDS, yang memungkinkan alur kerja data lebih dapat diskalakan, otomatis, dan fleksibel. Dengan menyederhanakan pergerakan dan integrasi data, organisasi berhasil meningkatkan ketangkasan operasional.

Tumpukan data lama vs. tumpukan data modern

Untuk memahami pentingnya MDS, ada baiknya kita membandingkannya dengan LDS:

Beberapa perbedaan utama dalam sekilas

Infrastruktur: LDS mengandalkan server fisik; MDS bersifat cloud native.
Skalabilitas: LDS memerlukan penskalaan manual; MDS dapat diskalakan secara dinamis sesuai permintaan.
Integrasi: LDS bergantung pada alur kerja khusus; MDS mengotomatiskan penyerapan data.
Fleksibilitas: LDS bersifat monolitik; MDS bersifat modular sehingga memungkinkan integrasi alat yang mulus.
Analisis: LDS mendukung pelaporan batch; MDS menawarkan insight real-time dan dasbor interaktif.
Biaya: LDS membutuhkan investasi awal yang besar; MDS menggunakan model bayar sesuai pemakaian.

LDS tradisional dibangun pada infrastruktur lokal, membutuhkan investasi besar untuk perangkat keras, pemeliharaan, dan penskalaan manual. Tumpukan data lama bergantung pada alur kerja ETL. Artinya, data harus dibersihkan dan disusun sebelum disimpan. Meskipun efektif untuk pelaporan statis, LDS mengalami kesulitan dalam pemrosesan waktu nyata, skalabilitas, dan penanganan data tidak terstruktur seperti log sensor, gambar, atau audio.

MDS mengatasi tantangan ini dengan pendekatan modular cloud-native, yang memungkinkan organisasi untuk menyimpan, memproses, dan menganalisis sejumlah besar data terstruktur dan tidak terstruktur secara lebih efisien. Alur kerja ELT memberikan fleksibilitas yang lebih besar, sering kali dengan menggunakan skrip berbasis Python untuk otomatisasi dan pemrosesan data.

Tidak seperti LDS yang memerlukan ekspansi infrastruktur berbiaya tinggi, MDS menawarkan skalabilitas sesuai permintaan, dan sifat modularnya memungkinkan bisnis mengintegrasikan alat tumpukan data tanpa keterikatan pada vendor. Pada akhirnya, MDS memungkinkan insight waktu nyata dan analisis serta otomatisasi berbasis AI yang membuat data lebih mudah diakses dan dapat ditindaklanjuti di seluruh organisasi.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Buka episode

Komponen dasar tumpukan data modern

MDS terdiri dari beberapa komponen inti, termasuk:

Penyimpanan data
Konsumsi data
Transformasi data
BI dan analisis
Observabilitas data

Penyimpanan data

Lapisan penyimpanan data berfungsi sebagai fondasi MDS dengan menyediakan lingkungan terpusat untuk mengelola data terstruktur dan tidak terstruktur. Organisasi dapat memilih solusi penyimpanan dari berbagai penyedia, misalnya IBM, AWS, atau Microsoft, berdasarkan faktor-faktor seperti kebutuhan biaya, kinerja, dan skalabilitas.

Jenis penyimpanan data:

Gudang data: Data terstruktur dari berbagai sumber dikumpulkan menjadi satu penyimpanan data terpusat yang dioptimalkan untuk analisis, AI, dan ML. Penyedianya meliputi Snowflake, GoogleBigQuery, dan Amazon Redshift.
Data lake: Data lake menyimpan data mentah, terstruktur, dan tidak terstruktur dalam berbagai format. Jenis penyimpanan data ini memungkinkan organisasi menyimpan data dalam jumlah besar, sering kali mencapai skala petabyte dan bahkan lebih besar untuk aplikasi AI, ML, dan penelitian. Banyak data lake pada awalnya dibangun pada Hadoop, tetapi sebagian besar arsitektur modern saat ini menggunakan solusi penyimpanan objek cloud seperti AWS S3 dan IBM Cloud Object Storage (COS).
Data lakehouse: Pendekatan hybrid yang menggabungkan skalabilitas data lake dengan kemampuan kueri terstruktur dari gudang data. Dengan kata lain, ini merupakan arsip yang tampaknya tak terbatas dengan indeks berpresisi tinggi. Lakehouse menyimpan data terstruktur, semi-terstruktur, dan tidak terstruktur, sekaligus mendukung beban kerja BI, analisis, dan ML.

Penyerapan data

Penyerapan data adalah proses pengumpulan dan pemindahan data dari berbagai sumber ke sistem penyimpanan terpusat untuk diproses dan dianalisis. Efektivitas pipeline data tergantung pada seberapa baik big data diserap dan terintegrasi. Insinyur data memainkan peran penting, karena kesalahan pada tahap ini dapat menyebabkan masalah hilir dalam analisis dan model AI.

Jenis penyerapan data:

Pemrosesan batch: Sebagai metode penyerapan yang paling umum, pemrosesan batch mengumpulkan data dalam kelompok (atau batch) dan mengirimkannya ke penyimpanan pada interval yang dijadwalkan. Pendekatan ini hemat biaya dan cocok bagi data yang tidak memerlukan pembaruan real-time.
Pemrosesan real-time: Juga disebut sebagai "pemrosesan aliran", metode ini terus-menerus menyerap dan memproses data saat data dihasilkan. Metode ini sangat penting untuk aplikasi AI, deteksi penipuan, dan analisis real-time. Namun, dibutuhkan sumber daya komputasi yang lebih tinggi.

Alat penyerapan otomatis seperti Apache Airflow, Stitch, dan Fivetran membantu organisasi memindahkan data dengan lancar antara sistem, sehingga mengurangi upaya manual dan meningkatkan efisiensi integrasi data.

Transformasi data

Data mentah sering kali tidak konsisten atau tidak terstruktur saat diserap, sehingga sulit untuk dianalisis dalam format aslinya. Lapisan transformasi data memastikan bahwa data bersih, terstruktur, dan dioptimalkan untuk tugas-tugas seperti analisis, pelaporan, dan ML.

Tugas transformasi data umum:

Pembersihan data: Menghapus kesalahan, nilai nihil, dan duplikat.
Normalisasi: Membuat standar format data demi konsistensi.
Agregasi: Merangkum kumpulan data besar untuk pelaporan.
Penggabungan: Menggabungkan data dari beberapa sumber ke dalam kumpulan data terpadu.

Secara historis, transformasi data mengikuti alur kerja ETL. Namun, dengan munculnya solusi penyimpanan berbasis cloud, sebagian besar organisasi kini menggunakan proses ELT. Alat transformasi data seperti dbt dan Dataform mengotomatiskan alur kerja dan membantu memastikan bahwa data akurat, konsisten, dan siap dianalisis.

BI dan analisis

Lapisan BI dan analitik mengubah data mentah menjadi insight yang dapat ditindaklanjuti melalui analisis data, visualisasi, analisis tren, pembuatan kueri bahasa kueri terstruktur (structured query language, SQL), dan otomatisasi berbasis AI. Alat seperti Tableau, Power BI, dan Looker menyediakan dasbor interaktif dan analisis data real-time yang membantu organisasi melacak kinerja dan menyempurnakan strategi.

Selain dari visualisasi data, analisis berdukungan AI dan ilmu data meningkatkan pengambilan keputusan dengan mendeteksi anomali, memprediksi tren, dan mengotomatiskan alur kerja. Semua ini mengandalkan praktik manajemen data yang baik. Baik digunakan untuk analisis perilaku pelanggan,perkiraan, maupun optimalisasi rantai pasokan, alat BI memastikan bahwa bisnis dapat menggunakan data untuk lingkungan strategis dan operasional.

Observabilitas data

Observabilitas data memastikan kualitas, ketersediaan, dan keandalan data dengan terus memantau kesehatan data. Lapisan ini membantu tim data mendeteksi pipeline yang rusak, kumpulan data yang hilang, atau pemrosesan yang lambat sebelum berdampak pada analisis.

Alat observabilitas seperti Monte Carlo dan Datadog memberikan insight tentang aliran data, sehingga insinyur dapat mendiagnosis dan meningkatkan alur kerja secara real-time. Dengan menyelesaikan masalah secara proaktif, organisasi dapat mempertahankan integritas data dan meningkatkan pengambilan keputusan berbasis data. Praktik observabilitas yang kuat mendukung model data yang terstruktur dengan baik dan memastikan bahwa para pemangku kepentingan dapat memercayai insight di seluruh siklus proses data.

Lapisan tumpukan data modern tambahan

Di luar lima lapisan dasar, MDS sering menyertakan komponen lain untuk meningkatkan aksesibilitas dan fungsionalitas. Komponen-komponen ini dapat mencakup:

Penemuan data: Penemuan data membantu organisasi mengungkap dan menilai sumber data yang tersembunyi atau terisolasi, dan memastikan tim data dapat mengekstrak informasi berharga serta memanfaatkannya secara efektif.
Tata kelola data: Penetapan kebijakan dan perlindungan dapat membantu memastikan keamanan, kepatuhan terhadap peraturan, dan konsistensi data. Dengan mengelola aliran data dan menerapkan model data terstruktur, tata kelola mendukung alur kerja yang efisien dan membantu memastikan pemantauan kepatuhan secara real-time.
Katalogisasi data: Tim dapat menggunakan metadata untuk membuat inventaris aset data terstruktur di berbagai gudang data, data lake, dan lingkungan penyimpanan lainnya. Katalog yang terpelihara dengan baik mendukung seluruh siklus proses data dan memungkinkan pemangku kepentingan untuk mengakses dan menggunakan informasi penting dengan cepat.
ML dan AI: Beberapa platform data mengintegrasikan ML dan AI untuk menyempurnakan pemrosesan data, meningkatkan pemodelan prediktif, mengotomatiskan insight, dan meningkatkan deteksi anomali. Model ML juga mengoptimalkan alur kerja dengan mengidentifikasi inefisiensi dan menyarankan perbaikan real-time untuk tim data.

Contoh penggunaan tumpukan data modern

Perusahaan dapat menerapkan MDS mereka sendiri untuk meningkatkan personalisasi, insight pelanggan, logistik, dan deteksi penipuan yang didukung AI.

Personalisasi yang didukung AI

MDS memungkinkan bisnis menyediakan personalisasi AI berbasis data. Personalisasi ini dapat membantu mengoptimalkan pengalaman pengguna di berbagai area, seperti e-commerce, platform streaming, dan aplikasi perangkat lunak sebagai layanan (software as a service, SaaS). Dengan menggunakan Apache Spark untuk pemrosesan real-time dan Databricks untuk analisis yang dapat diskalakan, ilmuwan data dapat menganalisis preferensi dan interaksi pelanggan guna meningkatkan mesin rekomendasi dan jaringan pengiriman konten.

Insight pelanggan dan optimalisasi penjualan

Perusahaan menggunakan alat analisis MDS dan SaaS untuk melacak perilaku pelanggan dan menyempurnakan strategi pemasaran. Platform cloud seperti Snowflake dan Looker menghasilkan dasbor real-time untuk kategori seperti pola pembelian dan optimalisasi harga. Semua ini dapat membantu bisnis meningkatkan tingkat konversi dan retensi.

Optimalisasi logistik dan rantai pasokan

Dengan mengintegrasikan Fivetran untuk penyerapan data dan dbt untuk transformasi, perusahaan dapat memantau inventaris secara real time dan memprediksi gangguan. Integrasi ini dapat mempercepat pemenuhan, memangkas biaya dan meningkatkan perencanaan permintaan di industri seperti retail, manufaktur, dan transportasi.

Deteksi penipuan dan manajemen risiko

Lembaga keuangan dan platform e-commerce menggunakan MDS untuk mendeteksi penipuan dan mencegah pelanggaran data. Dengan menggunakan model ML, antarmuka pemrograman aplikasi (application programming interface, API) dan layanan seperti Amazon Redshift, organisasi dapat mengidentifikasi transaksi mencurigakan dan mengotomatiskan deteksi penipuan.

Bisnis apa saja yang membutuhkan tumpukan data modern?

Bisnis yang mengandalkan pengambilan keputusan real-time, otomatisasi, dan insight berbasis AI menggunakan MDS untuk meningkatkan aksesibilitas data dan menyederhanakan operasi. Industri teknologi, keuangan, layanan kesehatan, e-commerce dan logistik sering menggunakan MDS untuk mengintegrasikan sumber data berskala besar, meningkatkan kemampuan analisis, dan mendukung pengambilan keputusan dan orkestrasi yang lebih efisien.

Namun, di dunia di mana data menjadi landasan bagi hampir setiap aspek operasi bisnis, pertanyaan sebenarnya bukanlah industri mana yang mendapat manfaat dari MDS, melainkan bagaimana MDS dapat membantu organisasi meningkatkan efisiensi dan kemampuan beradaptasi. Karena adopsi AI, alat sumber terbuka, dan pemrosesan data real-time terus berkembang, MDS menjadi pendekatan yang lebih umum bagi berbagai organisasi untuk memodernisasi arsitektur data mereka.

Render 3D dari spiral beberapa ikon yang berbaris seperti kamera, kenop volume, dan clipboard

Baca panduan Pemimpin Data untuk mempelajari cara Anda dapat membuat data organisasi Anda yang siap untuk AI.

Sumber daya

Render 3D dari beberapa ikon berjajar seperti mikrofon dan kamera

Agen AI berjalan pada data. Apakah data Anda siap?

Data Anda adalah keunggulan kompetitif Anda. Pelajari cara memanfaatkan dengan aman dan mendorong ROI terukur dari AI di webinar singkat ini.

Penjelasan tentang manajemen data

Techsplainers oleh IBM menjelaskan dasar-dasar data untuk AI, dari konsep kunci ke contoh penggunaan dunia nyata. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Rendering 3D dari beberapa ikon berjajar, seperti tombol volume dan clipboard

Satukan dan akses data Anda untuk membantu meningkatkan skala AI Anda

Pelajari mengapa jalur menuju data yang siap untuk AI sering dimulai dengan akses efektif ke data terstruktur dan tidak terstruktur dan tantangan yang dapat menghambat para pemimpin data.

Biaya hukum berubah menjadi insight strategis

Pelajari bagaimana agen hukum yang didukung AI membantu mempercepat pengambilan keputusan, mengurangi pekerjaan manual, dan meningkatkan kepatuhan.

Akademi AI: Membangun Strategi data untuk AI perusahaan

Dalam episode ini, Cathy Reese menjelaskan bagaimana organisasi saat ini membutuhkan strategi data yang siap untuk AI canggih, yang akan mengharuskan mereka untuk memanfaatkan aset data kualitas tertinggi mereka.

Render 3D dari beberapa ikon berjajar seperti kamera dan pesawat kertas

Data lakehouse hybrid terbuka untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.

Laporan Biaya Pelanggaran Data 2025

Biaya pelanggaran data telah mencapai rekor tertingginya. Dapatkan insight terkini tentang ancaman keamanan siber dan dampak keuangannya terhadap organisasi.

Render 3D dari dua baris dari beberapa ikon seperti kamera, kenop volume, dan clipboard

Panduan pemimpin data untuk data siap AI

Pahami langkah-langkah yang dapat ditindaklanjuti yang dapat diambil oleh pemimpin data untuk mengatasi tantangan data, membangun dasar untuk landasan data tepercaya, dan membantu menyiapkan data organisasi Anda untuk AI.

Render 3D dari beberapa ikon berbaris seperti kamera, kenop volume, dan clipboard

Bagaimana C-suite mengubah informasi menjadi dampak

Jelajahi insight dari 1.700 CDO dalam laporan lintas-industri untuk pemimpin data ini.

Solusi terkait

Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data

IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data

Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik

Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Apa itu tumpukan data modern?

Apa itu tumpukan data modern?

Berita teknologi terbaru, didukung oleh insight dari pakar

Terima kasih! Anda telah berlangganan.

Mengapa tumpukan data modern penting?

Tumpukan data lama vs. tumpukan data modern

Apakah manajemen data merupakan rahasia AI generatif?

Komponen dasar tumpukan data modern

Penyimpanan data

Penyerapan data

Transformasi data

BI dan analisis

Observabilitas data

Lapisan tumpukan data modern tambahan

Contoh penggunaan tumpukan data modern

Bisnis apa saja yang membutuhkan tumpukan data modern?

Share

Sumber daya