Arsitektur data menjelaskan cara pengelolaan data, mulai dari pengumpulan hingga transformasi, distribusi, dan konsumsi. Ini menetapkan cetak biru untuk data dan cara mengalir melalui sistem penyimpanan data. Ini adalah dasar untuk operasi pemrosesan data dan aplikasi kecerdasan buatan (AI).
Desain arsitektur data harus didorong oleh persyaratan bisnis dan kebutuhan data, yang digunakan oleh arsitek data dan insinyur data untuk mendefinisikan model data masing-masing dan struktur data yang mendukungnya. Desain ini biasanya memfasilitasi strategi bisnis atau kebutuhan bisnis, seperti inisiatif pelaporan atau ilmu data.
Ketika sumber data baru muncul dari teknologi baru, seperti Internet of Things (IoT), arsitektur data yang baik membantu memastikan bahwa data dapat dikelola dan berguna, mendukung manajemen siklus hidup data. Lebih khusus lagi, dapat menghindari penyimpanan data yang berlebihan, meningkatkan kualitas data melalui pembersihan dan deduplikasi dan memungkinkan aplikasi baru seperti AI generatif.
Arsitektur data modern juga menyediakan mekanisme untuk mengintegrasikan data lintas domain, seperti antar departemen atau geografi. Mereka memecah silo data tanpa kompleksitas besar yang timbul karena menyimpan semuanya di satu tempat.
Arsitektur data modern sering menggunakan platform cloud untuk mengelola dan memproses data. Meskipun mungkin lebih mahal, skalabilitas komputasinya memungkinkan tugas pemrosesan data penting diselesaikan dengan cepat. Skalabilitas penyimpanan juga membantu mengatasi peningkatan volume data dan memastikan bahwa semua data yang relevan tersedia untuk meningkatkan kualitas aplikasi pelatihan AI.
Dokumentasi arsitektur data mencakup 3 jenis model data:
Arsitektur data dapat diambil dari kerangka kerja arsitektur perusahaan yang populer, termasuk TOGAF, DAMA-DMBOK 2 dan Kerangka Kerja Zachman untuk Arsitektur Perusahaan.
Metodologi arsitektur perusahaan ini dikembangkan pada tahun 1995 oleh The Open Group, di mana IBM adalah Anggota Platinum.
Ada 4 pilar arsitektur:
TOGAF menyediakan kerangka kerja yang lengkap untuk merancang dan mengimplementasikan arsitektur TI perusahaan, termasuk arsitektur datanya.
DAMA International, yang awalnya didirikan sebagai Data Management Association International, adalah organisasi nirlaba yang didedikasikan untuk memajukan manajemen data dan informasi. Data Management Body of Knowledge, DAMA-DMBOK 2, mencakup arsitektur data, tata kelola dan etika, pemodelan dan desain data, penyimpanan, keamanan dan integrasi.
Awalnya dikembangkan oleh John Zachman di IBM pada tahun 1987, kerangka kerja ini menggunakan matriks enam lapisan, dari kontekstual hingga terperinci, yang dipetakan berdasarkan enam pertanyaan, seperti mengapa, bagaimana, dan apa. Kerangka kerja ini menyediakan cara formal untuk mengatur dan menganalisis data tetapi tidak mencakup metode untuk melakukannya.
Arsitektur data menunjukkan perspektif tingkat tinggi tentang cara beberapa sistem manajemen data bekerja sama. Ini termasuk berbagai platform data dan repositori penyimpanan data, seperti data lake, gudang data, pasar data, database, dan banyak lagi.
Bersama-sama, ini dapat membuat arsitektur data, seperti data fabric dan data meshes, yang semakin populer. Arsitektur ini lebih fokus pada data sebagai produk, menciptakan lebih banyak standardisasi di sekitar metadata dan lebih banyak demokratisasi data di seluruh organisasi melalui antarmuka pemrograman aplikasi (API).
Bagian selanjutnya menggali lebih dalam masing-masing komponen penyimpanan dan jenis arsitektur data ini:
Gudang data menggabungkan data dari sumber data relasional yang berbeda di seluruh perusahaan ke dalam repositori tunggal, pusat, dan konsisten. Setelah ekstraksi, data mengalir melalui pipeline data ekstrak, transformasi dan muat (ETL), menjalani berbagai transformasi data untuk memenuhi model data yang telah ditentukan sebelumnya. Ketika dimuat ke dalam sistem data warehousing, data tersebut hidup untuk mendukung berbagai aplikasi intelijen bisnis (BI) dan ilmu data.
Pasar mart adalah versi terfokus dari gudang data yang berisi subset data yang lebih kecil yang penting dan dibutuhkan oleh satu tim atau sekelompok pemangku kepentingan terpilih, seperti departemen SDM. Karena mengandung subsets data yang lebih kecil, pasar data memungkinkan departemen atau lini bisnis untuk menemukan insight yang lebih terfokus dengan cepat daripada yang mungkin ketika bekerja dengan gudang data yang lebih luas.
Pasar data awalnya muncul sebagai tanggapan atas kesulitan yang dihadapi organisasi dalam mendirikan gudang data pada tahun 1990-an. Mengintegrasikan data dari seluruh organisasi pada saat itu membutuhkan banyak upaya pengodean manual dan tidak praktis dan memakan waktu. Ruang lingkup pasar data yang lebih terbatas membuatnya lebih sederhana dan lebih cepat untuk diterapkan daripada gudang data terpusat.
Sementara gudang data menyimpan data yang diproses, danau data menampung data mentah, biasanya petabyte. Data lake dapat menyimpan data terstruktur dan tidak terstruktur, yang membuatnya unik dibandingkan repositori data lainnya. Fleksibilitas dalam penyimpanan ini berguna bagi analis data, ilmuwan data, insinyur data dan pengembang, memungkinkan mereka mengakses data untuk latihan penemuan data dan proyek machine learning (ML).
Data lake awalnya dibuat sebagai respons terhadap kegagalan gudang data dalam menangani volume, kecepatan, dan variasi big data yang terus bertambah. Meskipun data lake lebih lambat daripada gudang data, data lake lebih murah karena hanya sedikit atau bahkan tidak ada persiapan data sebelum dimasukkan. Saat ini, data lake terus berkembang sebagai bagian dari upaya migrasi data ke cloud.
Data lake mendukung berbagai macam contoh penggunaan karena tujuan bisnis untuk data tidak perlu didefinisikan pada saat pengumpulan data. Namun, 2 contoh penggunaan utama meliputi eksplorasi ilmu data dan upaya cadangan serta pemulihan data.
Ilmuwan data dapat menggunakan data lake untuk bukti konseptual. Aplikasi machine learning mendapat manfaat dari kemampuan untuk menyimpan data terstruktur dan tidak terstruktur di tempat yang sama, yang tidak mungkin dilakukan dengan menggunakan sistem basis data relasional.
Data lake juga dapat digunakan untuk menguji dan mengembangkan proyek analitik big data. Setelah aplikasi dikembangkan dan data yang berguna telah dipilih, data dapat diekspor ke gudang data untuk digunakan secara operasional, dan otomatisasi dapat digunakan untuk memperluas skala aplikasi.
Data lake juga dapat digunakan untuk pencadangan dan pemulihan data karena kemampuannya untuk dapat diskalakan dengan biaya rendah. Dengan alasan yang sama, data lake cocok untuk menyimpan data "untuk berjaga-jaga", yang kebutuhan bisnisnya belum ditentukan. Menyimpan data sekarang berarti tersedia nanti saat inisiatif baru muncul.
Data lakehouse adalah platform data yang menggabungkan aspek gudang data dan data lake menjadi satu solusi manajemen data .
Lakehouse menggabungkan penyimpanan berbiaya rendah dengan mesin kueri kinerja tinggi dan tata kelola metadata yang cerdas. Ini memungkinkan organisasi menyimpan data terstruktur dan tidak terstruktur dalam jumlah besar serta menggunakannya dengan mudah untuk keperluan AI, ML, dan analitik.
Database adalah repositori digital dasar untuk menyimpan, mengelola, dan mengamankan data. Setiap jenis basis data menyimpan data dengan cara yang berbeda. Sebagai contoh, database relasional (juga disebut "SQL database") menyimpan data dalam tabel yang ditentukan dengan baris dan kolom. Database nonrelasional (juga disebut "NoSQL database") dapat menyimpannya sebagai berbagai struktur data, termasuk pasangan nilai kunci atau grafik.
Struktur data adalah arsitektur yang berfokus pada otomatisasi integrasi data, rekayasa data dan tata kelola dalam rantai nilai data antara penyedia data dan konsumen data.
Struktur data didasarkan pada gagasan "metadata aktif" yang menggunakan katalog data, grafik pengetahuan, semantik, penambangan data, dan teknologi machine learning untuk menemukan pola dalam berbagai jenis metadata (misalnya, log sistem, sosial, dan lainnya). Kemudian, struktur data menerapkan insight ini untuk mengotomatiskan dan mengatur rantai nilai data.
Misalnya, struktur data dapat memungkinkan konsumen data untuk menemukan produk data dan kemudian menyediakan produk data tersebut secara otomatis. Peningkatan akses data antara produk data dan konsumen data mengarah pada pengurangan silo data dan memberikan gambaran yang lebih lengkap tentang data organisasi.
Struktur data adalah teknologi yang sedang berkembang dengan potensi yang sangat besar. Mereka dapat digunakan untuk meningkatkan profil pelanggan, deteksi penipuan, dan pemeliharaan preventif. Menurut Gartner, struktur data mengurangi waktu desain integrasi hingga 30%, waktu penerapan hingga 30%, dan pemeliharaan hingga 70%.
Data mesh adalah arsitektur data terdesentralisasi yang mengatur data berdasarkan domain bisnis.
Dengan menggunakan data mesh, organisasi harus berhenti menganggap data sebagai produk sampingan dari sebuah proses dan mulai menganggapnya sebagai sebuah produk tersendiri. Produsen data bertindak sebagai pemilik produk data. Sebagai pakar subjek, produsen data dapat menggunakan pemahaman mereka tentang konsumen utama data untuk merancang API bagi mereka. API ini juga dapat diakses dari bagian lain organisasi, menyediakan akses yang lebih luas ke data terkelola.
Sistem penyimpanan tradisional seperti data lake dan gudang data dapat digunakan sebagai beberapa repositori data terdesentralisasi untuk mencapai data mesh. Data mesh juga dapat bekerja dengan struktur data, dengan otomatisasi struktur data yang memungkinkan produk data baru dibuat lebih cepat atau menerapkan tata kelola global.
Arsitektur data yang dibangun dengan baik dapat menawarkan bisnis beberapa manfaat utama, yang meliputi:
Mungkin ada bidang data yang tumpang tindih di berbagai sumber, yang mengakibatkan risiko ketidakkonsistenan, ketidakakuratan data, dan kehilangan peluang untuk integrasi data. Sebuah arsitektur data yang baik dapat menyusun cara penyimpanan data dan mungkin mengurangi duplikasi, menjadi dasar untuk analisis yang lebih baik dan menyeluruh.
Arsitektur data yang dirancang dengan baik dapat memecahkan beberapa tantangan danau data yang dikelola dengan buruk, yang juga dikenal sebagai “rawa data”. Rawa data tidak memiliki standar data yang tepat, termasuk kualitas data dan praktik tata kelola data, untuk memberikan pelajaran yang mendalam.
Arsitektur data dapat membantu menerapkan tata kelola data dan standar keamanan data, sehingga memungkinkan pengawasan yang tepat terhadap jalur data. Dengan meningkatkan kualitas dan tata kelola data, arsitektur data dapat membantu memastikan bahwa data disimpan dengan cara yang membuatnya berguna saat ini dan di masa depan.
Data sering dipisahkan sebagai akibat dari keterbatasan teknis pada penyimpanan data dan hambatan organisasi dalam perusahaan. Arsitektur data saat ini bertujuan untuk mempermudah integrasi data di seluruh domain, sehingga geografi dan fungsi bisnis yang berbeda dapat mengakses data satu sama lain. Hal ini akan menghasilkan pemahaman yang lebih baik dan konsisten tentang metrik umum, seperti pengeluaran, pendapatan dan pendorong terkait. Ini juga memungkinkan pandangan yang lebih holistik tentang pelanggan, produk, dan geografi untuk menginformasikan pengambilan keputusan berbasis data.
Arsitektur data modern dapat menangani bagaimana data dikelola dari waktu ke waktu. Data biasanya menjadi kurang berguna seiring bertambahnya usia dan lebih jarang diakses. Seiring waktu, data dapat dipindahkan ke jenis penyimpanan yang lebih murah dan lebih lambat, sehingga tetap tersedia untuk laporan dan audit, tetapi tanpa memerlukan biaya penyimpanan berkinerja tinggi.
Saat organisasi membangun peta jalan mereka untuk aplikasi masa depan, termasuk AI, blockchain, dan beban kerja Internet of Things (IoT), mereka membutuhkan arsitektur data modern yang dapat mendukung persyaratan data.
Karakteristik utama dari arsitektur data modern adalah:
Gunakan solusi database IBM untuk memenuhi berbagai kebutuhan beban kerja di hybrid cloud.
Jelajahi IBM Db2, database relasional yang menghadirkan kinerja tinggi, skalabilitas, dan keandalan untuk menyimpan dan mengelola data terstruktur. Database ini tersedia sebagai SaaS di IBM Cloud atau untuk hosting mandiri.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.