Data mesh adalah arsitektur data terdesentralisasi yang mengatur data berdasarkan domain bisnis tertentu, misalnya, pemasaran, penjualan, layanan pelanggan, dan lainnya, untuk memberikan lebih banyak kepemilikan kepada produsen kumpulan data tertentu.
Pemahaman produsen tentang data domain memposisikan mereka untuk menetapkan kebijakan tata kelola data yang berfokus pada dokumentasi, kualitas, dan akses. Hal ini, pada gilirannya, memungkinkan penggunaan layanan mandiri di seluruh organisasi. Meskipun pendekatan terfederasi ini menghilangkan banyak hambatan operasional yang terkait dengan sistem monolitik terpusat, hal itu tidak berarti bahwa Anda tidak dapat menggunakan sistem penyimpanan tradisional, seperti danau data atau gudang data. Itu hanya berarti bahwa penggunaannya telah bergeser dari satu platform data terpusat ke beberapa repositori data terdesentralisasi.
Perlu dicatat bahwa data mesh mempromosikan adopsi teknologi cloud native dan platform cloud untuk meningkatkan skala dan mencapai tujuan manajemen data. Konsep ini umumnya dibandingkan dengan layanan mikro untuk membantu audiens memahami penggunaannya dalam lingkungan ini. Karena arsitektur terdistribusi ini sangat membantu dalam meningkatkan kebutuhan data di seluruh organisasi, dapat disimpulkan bahwa data mesh mungkin tidak diperuntukkan bagi semua jenis bisnis; dengan kata lain, bisnis yang lebih kecil mungkin tidak memperoleh manfaat dari data mesh karena data perusahaan mereka mungkin tidak serumit organisasi yang lebih besar.
Zhamak Dehghani, direktur teknologi untuk perusahaan konsultan TI ThoughtWorks, dipuji karena mempromosikan konsep data mesh sebagai solusi untuk tantangan yang melekat pada struktur data yang tersentralisasi dan monolitik, seperti aksesibilitas dan organisasi data. Adopsi ini semakin didorong oleh pandemi COVID-19 dalam upaya mendorong perubahan budaya dan mengurangi kompleksitas organisasi seputar data.
Data mesh melibatkan perubahan budaya dalam cara perusahaan berpikir tentang data mereka. Alih-alih data bertindak sebagai produk sampingan dari sebuah proses, data menjadi produk, di mana produsen data bertindak sebagai pemilik produk data. Secara historis, tim infrastruktur terpusat akan mempertahankan kepemilikan data di seluruh domain, tetapi fokus pemikiran produk di bawah model data mesh mengalihkan kepemilikan ini ke produsen karena mereka adalah pakar dalam bidangnya. Pemahaman mereka tentang konsumen data utama dan bagaimana mereka memanfaatkan data operasional dan analitik domain memungkinkan mereka untuk merancang API dengan mempertimbangkan kepentingan terbaik.
Meskipun desain berbasis domain ini juga membuat produsen data bertanggung jawab untuk mendokumentasikan definisi semantik, membuat katalog metadata, dan menetapkan kebijakan untuk izin dan penggunaan, namun masih ada tim tata kelola data terpusat untuk menegakkan standar dan prosedur di sekitar data tersebut. Selain itu, meskipun tim domain bertanggung jawab atas pipeline data ETL mereka di bawah arsitektur data mesh, hal ini tidak menghilangkan kebutuhan akan tim rekayasa data yang terpusat. Namun, tanggung jawab mereka menjadi lebih terfokus pada penentuan solusi infrastruktur data terbaik untuk produk data yang disimpan.
Mirip dengan bagaimana arsitektur layanan mikro memasangkan layanan ringan bersama-sama untuk menyediakan fungsionalitas ke aplikasi yang berhadapan dengan bisnis atau konsumen, jaring data menggunakan domain fungsional sebagai cara untuk mengatur parameter di sekitar data, memungkinkannya diperlakukan sebagai produk yang dapat diakses oleh pengguna di seluruh organisasi. Dengan cara ini, jaring data memungkinkan integrasi data yang lebih fleksibel dan fungsionalitas yang dapat dioperasikan, di mana data dari berbagai domain dapat segera dikonsumsi oleh pengguna untuk analitik bisnis, eksperimen ilmu data, dan banyak lagi.
Seperti yang telah dinyatakan sebelumnya, data mesh adalah arsitektur data terdistribusi, di mana data diatur berdasarkan domainnya agar lebih mudah diakses oleh pengguna di seluruh organisasi. Danau data adalah lingkungan penyimpanan berbiaya rendah, yang biasanya menampung petabyte data terstruktur, semi-terstruktur, dan tidak terstruktur untuk analitik bisnis, machine learning, dan aplikasi luas lainnya. Sebuah data mesh adalah pendekatan arsitektur terhadap data, yang dapat menjadi bagiannya dengan data lake. Namun, data lake pusat lebih sering digunakan sebagai tempat pembuangan data karena sering kali digunakan untuk menyerap data yang belum memiliki tujuan yang jelas. Akibatnya, ia dapat menjadi korban untuk menjadi rawa data, yaitu danau data yang tidak memiliki kualitas data dan tata kelola data yang sesuai untuk memberikan pembelajaran yang berwawasan luas.
Fabric data adalah konsep arsitektur, dan berfokus pada otomatisasi integrasi data, rekayasa data, dan tata kelola dalam rantai nilai data antara penyedia data dan konsumen data. Struktur data didasarkan pada gagasan "metadata aktif" yang menggunakan grafik pengetahuan, semantik, dan teknologi kecerdasan buatan/machine learning untuk menemukan pola dalam berbagai jenis metadata (misalnya log sistem, sosial, dll.) dan menerapkan insight ini untuk mengotomatiskan dan mengatur rantai nilai data (misalnya memungkinkan konsumen data menemukan produk data dan kemudian menyediakan produk data tersebut secara otomatis). Fabric data adalah pelengkap mesh data, bukan yang saling eksklusif. Bahkan, fabric data membuat data mesh menjadi lebih baik karena dapat mengotomatiskan bagian-bagian penting dari data mesh seperti membuat produk data dengan lebih cepat, menerapkan tata kelola global, dan memudahkan untuk mengatur kombinasi beberapa produk data.
Demokratisasi data: Arsitektur data mesh memfasilitasi aplikasi layanan mandiri dari berbagai sumber data, memperluas akses data di luar sumber daya yang lebih teknis, seperti ilmuwan data, insinyur data, dan pengembang. Dengan membuat data lebih mudah ditemukan dan dapat diakses melalui desain berbasis domain ini, ini mengurangi silo data dan hambatan operasional, memungkinkan pengambilan keputusan yang lebih cepat dan membebaskan pengguna teknis untuk memprioritaskan tugas yang memanfaatkan keahlian mereka dengan lebih baik.
Efisiensi biaya: Arsitektur terdistribusi ini berpindah dari pemrosesan data batch dan sebagai gantinya, mempromosikan adopsi platform data cloud dan alur streaming untuk mengumpulkan data secara real-time. Penyimpanan cloud memberikan keuntungan biaya tambahan dengan memungkinkan tim data untuk memutar klaster besar sesuai kebutuhan, hanya membayar untuk penyimpanan yang ditentukan. Artinya, jika Anda membutuhkan daya komputasi tambahan untuk menjalankan pekerjaan dalam beberapa jam dibandingkan beberapa hari, Anda dapat dengan mudah melakukannya di platform data cloud dengan membeli node komputasi tambahan. Ini juga berarti meningkatkan visibilitas ke dalam biaya penyimpanan, memungkinkan alokasi anggaran dan sumber daya yang lebih baik untuk tim teknik.
Utang teknis yang lebih sedikit: Infrastruktur data terpusat menyebabkan lebih banyak utang teknis karena kompleksitas dan kolaborasi yang diperlukan untuk memelihara sistem. Saat data terakumulasi dalam suatu repositori, hal itu juga mulai memperlambat sistem secara keseluruhan. Dengan mendistribusikan jalur data berdasarkan kepemilikan domain, tim data dapat lebih memenuhi tuntutan konsumen data mereka dan mengurangi beban teknis pada sistem penyimpanan. Mereka juga dapat menyediakan aksesibilitas yang lebih besar ke data dengan menyediakan API agar dapat berinteraksi, sehingga mengurangi volume keseluruhan permintaan individual.
Interoperabilitas: Di bawah model data mesh, pemilik data menyetujui cara menstandardisasi bidang data domain-agnostik di awal, yang memfasilitasi interoperabilitas. Dengan cara ini, saat tim domain menyusun kumpulan data masing-masing, mereka menerapkan aturan yang relevan untuk memungkinkan keterhubungan data di seluruh domain dengan cepat dan mudah. Beberapa bidang yang umumnya distandarisasi adalah jenis bidang, metadata, tanda skema, dan banyak lagi. Konsistensi di seluruh domain memungkinkan konsumen data berinteraksi dengan API lebih mudah dan mengembangkan aplikasi untuk melayani kebutuhan bisnis mereka dengan lebih tepat.
Keamanan dan kepatuhan: Arsitektur data mesh mendorong praktik tata kelola yang lebih kuat karena membantu menegakkan standar data untuk data domain-agnostik dan kontrol akses untuk data sensitif. Hal ini memastikan bahwa organisasi mengikuti peraturan pemerintah, seperti pembatasan HIPPA, dan struktur ekosistem data ini mendukung kepatuhan ini melalui pemberdayaan audit data. Log dan lacak data dalam arsitektur data mesh menanamkan kemampuan pengamatan ke dalam sistem, sehingga memungkinkan auditor untuk memahami pengguna mana yang mengakses data tertentu dan frekuensi akses tersebut.
Meskipun arsitektur data mesh terdistribusi masih mendapatkan adopsi, arsitektur ini membantu tim mencapai tujuan skalabilitas mereka untuk contoh penggunaan big data umum. Yaitu antara lain:
Mengelola data sebagai produk di seluruh siklus hidup. Pelihara siklus hidup produk data mulai dari penerimaan hingga penghapusan dengan sistem yang andal untuk pembuatan versi, pemeliharaan, dan pembaruan produk data.
Ubah data mentah menjadi insight yang dapat ditindaklanjuti dengan cepat, satukan tata kelola, kualitas, silsilah, dan pembagian data, serta berdayakan konsumen data dengan data yang andal dan kontekstual.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.