Apa yang dimaksud dengan arsitektur data?

Apa yang dimaksud dengan arsitektur data?

Arsitektur data menjelaskan cara pengelolaan data, mulai dari pengumpulan hingga transformasi, distribusi, dan konsumsi. Ini menetapkan cetak biru untuk data dan cara mengalir melalui sistem penyimpanan data. Ini adalah dasar untuk operasi pemrosesan data dan aplikasi kecerdasan buatan (AI).

Desain arsitektur data harus didorong oleh persyaratan bisnis dan kebutuhan data, yang digunakan oleh arsitek data dan insinyur data untuk mendefinisikan model data masing-masing dan struktur data yang mendukungnya. Desain ini biasanya memfasilitasi strategi bisnis atau kebutuhan bisnis, seperti inisiatif pelaporan atau ilmu data.

Ketika sumber data baru muncul dari teknologi baru, seperti Internet of Things (IoT), arsitektur data yang baik membantu memastikan bahwa data dapat dikelola dan berguna, mendukung manajemen siklus hidup data. Lebih khusus lagi, dapat menghindari penyimpanan data yang berlebihan, meningkatkan kualitas data melalui pembersihan dan deduplikasi dan memungkinkan aplikasi baru seperti AI generatif.

Arsitektur data modern juga menyediakan mekanisme untuk mengintegrasikan data lintas domain, seperti antar departemen atau geografi. Mereka memecah silo data tanpa kompleksitas besar yang timbul karena menyimpan semuanya di satu tempat.

Arsitektur data modern sering menggunakan platform cloud untuk mengelola dan memproses data. Meskipun mungkin lebih mahal, skalabilitas komputasinya memungkinkan tugas pemrosesan data penting diselesaikan dengan cepat. Skalabilitas penyimpanan juga membantu mengatasi peningkatan volume data dan memastikan bahwa semua data yang relevan tersedia untuk meningkatkan kualitas aplikasi pelatihan AI.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Model data konseptual vs. logis vs. fisik

Dokumentasi arsitektur data mencakup 3 jenis model data:

  • Model data konseptual: Model ini juga disebut sebagai "model domain" dan menawarkan gambaran besar tentang apa yang akan ada di dalam sistem, bagaimana sistem akan diorganisir dan aturan bisnis yang terlibat.

    Model konseptual dibuat sebagai bagian dari proses pengumpulan persyaratan proyek awal. Biasanya, ini mencakup kelas entitas (mendefinisikan jenis-jenis hal yang penting bagi bisnis untuk direpresentasikan dalam model data), karakteristik dan batasannya, hubungan di antara mereka, dan persyaratan keamanan dan integritas data yang relevan.
  • Model data logis: Model ini tidak terlalu abstrak dan memberikan detail yang lebih besar tentang konsep dan hubungan dalam domain yang sedang Anda pertimbangkan. Salah satu dari beberapa sistem notasi pemodelan data formal diikuti. Ini menunjukkan atribut data, seperti tipe data dan panjang yang sesuai, dan menunjukkan hubungan di antara entitas. Model data logis tidak menentukan persyaratan sistem teknis apa pun.
  • Model data fisik: Model data fisik adalah yang paling terperinci dan spesifik dari ketiganya. Model ini mendefinisikan implementasi database yang sebenarnya, termasuk struktur tabel, indeks, penyimpanan, dan pertimbangan kinerja. Model berfokus pada aspek teknis tentang bagaimana data akan disimpan dan diakses, dan digunakan untuk pembuatan dan pengoptimalan skema basis data.
Mixture of Experts | 25 April, episode 52

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Kerangka kerja arsitektur data populer

Arsitektur data dapat diambil dari kerangka kerja arsitektur perusahaan yang populer, termasuk TOGAF, DAMA-DMBOK 2 dan Kerangka Kerja Zachman untuk Arsitektur Perusahaan.

Open Group Architecture Framework (TOGAF)

Metodologi arsitektur perusahaan ini dikembangkan pada tahun 1995 oleh The Open Group, di mana IBM adalah Anggota Platinum.

Ada 4 pilar arsitektur:

  • Arsitektur bisnis, yang mendefinisikan struktur organisasi, strategi data, dan proses perusahaan.

  • Arsitektur data, yang menggambarkan aset data konseptual, logis, dan fisik serta cara aset-aset tersebut disimpan dan dikelola sepanjang siklus hidupnya.

  • Arsitektur aplikasi, yang mewakili sistem aplikasi dan cara mereka berhubungan dengan proses bisnis utama dan satu sama lain.

  • Arsitektur teknis, yang menggambarkan infrastruktur data (perangkat keras, perangkat lunak, dan jaringan) yang diperlukan untuk mendukung aplikasi yang sangat penting.

TOGAF menyediakan kerangka kerja yang lengkap untuk merancang dan mengimplementasikan arsitektur TI perusahaan, termasuk arsitektur datanya.

DAMA-DMBOK 2

DAMA International, yang awalnya didirikan sebagai Data Management Association International, adalah organisasi nirlaba yang didedikasikan untuk memajukan manajemen data dan informasi. Data Management Body of Knowledge, DAMA-DMBOK 2, mencakup arsitektur data, tata kelola dan etika, pemodelan dan desain data, penyimpanan, keamanan dan integrasi.

Kerangka Kerja Zachman untuk Arsitektur Perusahaan

Awalnya dikembangkan oleh John Zachman di IBM pada tahun 1987, kerangka kerja ini menggunakan matriks enam lapisan, dari kontekstual hingga terperinci, yang dipetakan berdasarkan enam pertanyaan, seperti mengapa, bagaimana, dan apa. Kerangka kerja ini menyediakan cara formal untuk mengatur dan menganalisis data tetapi tidak mencakup metode untuk melakukannya.

Jenis arsitektur data dan komponen yang mendasarinya

Arsitektur data menunjukkan perspektif tingkat tinggi tentang cara beberapa sistem manajemen data bekerja sama. Ini termasuk berbagai platform data dan repositori penyimpanan data, seperti data lake, gudang data, pasar data, database, dan banyak lagi.

Bersama-sama, ini dapat membuat arsitektur data, seperti data fabric dan data meshes, yang semakin populer. Arsitektur ini lebih fokus pada data sebagai produk, menciptakan lebih banyak standardisasi di sekitar metadata dan lebih banyak demokratisasi data di seluruh organisasi melalui antarmuka pemrograman aplikasi (API).

Bagian selanjutnya menggali lebih dalam masing-masing komponen penyimpanan dan jenis arsitektur data ini:

Jenis sistem manajemen data

Gudang data
.

Gudang data menggabungkan data dari sumber data relasional yang berbeda di seluruh perusahaan ke dalam repositori tunggal, pusat, dan konsisten. Setelah ekstraksi, data mengalir melalui pipeline data ekstrak, transformasi dan muat (ETL), menjalani berbagai transformasi data untuk memenuhi model data yang telah ditentukan sebelumnya. Ketika dimuat ke dalam sistem data warehousing, data tersebut hidup untuk mendukung berbagai aplikasi intelijen bisnis (BI) dan ilmu data.

Pasar data
.

Pasar mart adalah versi terfokus dari gudang data yang berisi subset data yang lebih kecil yang penting dan dibutuhkan oleh satu tim atau sekelompok pemangku kepentingan terpilih, seperti departemen SDM. Karena mengandung subsets data yang lebih kecil, pasar data memungkinkan departemen atau lini bisnis untuk menemukan insight yang lebih terfokus dengan cepat daripada yang mungkin ketika bekerja dengan gudang data yang lebih luas.

Pasar data awalnya muncul sebagai tanggapan atas kesulitan yang dihadapi organisasi dalam mendirikan gudang data pada tahun 1990-an. Mengintegrasikan data dari seluruh organisasi pada saat itu membutuhkan banyak upaya pengodean manual dan tidak praktis dan memakan waktu. Ruang lingkup pasar data yang lebih terbatas membuatnya lebih sederhana dan lebih cepat untuk diterapkan daripada gudang data terpusat.

Data lake
.

Sementara gudang data menyimpan data yang diproses, danau data menampung data mentah, biasanya petabyte. Data lake dapat menyimpan data terstruktur dan tidak terstruktur, yang membuatnya unik dibandingkan repositori data lainnya. Fleksibilitas dalam penyimpanan ini berguna bagi analis data, ilmuwan data, insinyur data dan pengembang, memungkinkan mereka mengakses data untuk latihan penemuan data dan proyek machine learning (ML).

Data lake awalnya dibuat sebagai respons terhadap kegagalan gudang data dalam menangani volume, kecepatan, dan variasi big data yang terus bertambah. Meskipun data lake lebih lambat daripada gudang data, data lake lebih murah karena hanya sedikit atau bahkan tidak ada persiapan data sebelum dimasukkan. Saat ini, data lake terus berkembang sebagai bagian dari upaya migrasi data ke cloud.

Data lake mendukung berbagai macam contoh penggunaan karena tujuan bisnis untuk data tidak perlu didefinisikan pada saat pengumpulan data. Namun, 2 contoh penggunaan utama meliputi eksplorasi ilmu data dan upaya cadangan serta pemulihan data.

Ilmuwan data dapat menggunakan data lake untuk bukti konseptual. Aplikasi machine learning mendapat manfaat dari kemampuan untuk menyimpan data terstruktur dan tidak terstruktur di tempat yang sama, yang tidak mungkin dilakukan dengan menggunakan sistem basis data relasional.

Data lake juga dapat digunakan untuk menguji dan mengembangkan proyek analitik big data. Setelah aplikasi dikembangkan dan data yang berguna telah dipilih, data dapat diekspor ke gudang data untuk digunakan secara operasional, dan otomatisasi dapat digunakan untuk memperluas skala aplikasi.

Data lake juga dapat digunakan untuk pencadangan dan pemulihan data karena kemampuannya untuk dapat diskalakan dengan biaya rendah. Dengan alasan yang sama, data lake cocok untuk menyimpan data "untuk berjaga-jaga", yang kebutuhan bisnisnya belum ditentukan. Menyimpan data sekarang berarti tersedia nanti saat inisiatif baru muncul.

Data lakehouse

Data lakehouse adalah platform data yang menggabungkan aspek gudang data dan data lake menjadi satu solusi manajemen data .

Lakehouse menggabungkan penyimpanan berbiaya rendah dengan mesin kueri kinerja tinggi dan tata kelola metadata yang cerdas. Ini memungkinkan organisasi menyimpan data terstruktur dan tidak terstruktur dalam jumlah besar serta menggunakannya dengan mudah untuk keperluan AI, ML, dan analitik.

Basis Data

Database adalah repositori digital dasar untuk menyimpan, mengelola, dan mengamankan data. Setiap jenis basis data menyimpan data dengan cara yang berbeda. Sebagai contoh, database relasional (juga disebut "SQL database") menyimpan data dalam tabel yang ditentukan dengan baris dan kolom. Database nonrelasional (juga disebut "NoSQL database") dapat menyimpannya sebagai berbagai struktur data, termasuk pasangan nilai kunci atau grafik.

Jenis arsitektur data

Struktur data
.

Struktur data adalah arsitektur yang berfokus pada otomatisasi integrasi data, rekayasa data dan tata kelola dalam rantai nilai data antara penyedia data dan konsumen data.

Struktur data didasarkan pada gagasan "metadata aktif" yang menggunakan katalog data, grafik pengetahuan, semantik, penambangan data, dan teknologi machine learning untuk menemukan pola dalam berbagai jenis metadata (misalnya, log sistem, sosial, dan lainnya). Kemudian, struktur data menerapkan insight ini untuk mengotomatiskan dan mengatur rantai nilai data.

Misalnya, struktur data dapat memungkinkan konsumen data untuk menemukan produk data dan kemudian menyediakan produk data tersebut secara otomatis. Peningkatan akses data antara produk data dan konsumen data mengarah pada pengurangan silo data dan memberikan gambaran yang lebih lengkap tentang data organisasi.

Struktur data adalah teknologi yang sedang berkembang dengan potensi yang sangat besar. Mereka dapat digunakan untuk meningkatkan profil pelanggan, deteksi penipuan, dan pemeliharaan preventif. Menurut Gartner, struktur data mengurangi waktu desain integrasi hingga 30%, waktu penerapan hingga 30%, dan pemeliharaan hingga 70%.

Data mesh
.

Data mesh adalah arsitektur data terdesentralisasi yang mengatur data berdasarkan domain bisnis.

Dengan menggunakan data mesh, organisasi harus berhenti menganggap data sebagai produk sampingan dari sebuah proses dan mulai menganggapnya sebagai sebuah produk tersendiri. Produsen data bertindak sebagai pemilik produk data. Sebagai pakar subjek, produsen data dapat menggunakan pemahaman mereka tentang konsumen utama data untuk merancang API bagi mereka. API ini juga dapat diakses dari bagian lain organisasi, menyediakan akses yang lebih luas ke data terkelola.

Sistem penyimpanan tradisional seperti data lake dan gudang data dapat digunakan sebagai beberapa repositori data terdesentralisasi untuk mencapai data mesh. Data mesh juga dapat bekerja dengan struktur data, dengan otomatisasi struktur data yang memungkinkan produk data baru dibuat lebih cepat atau menerapkan tata kelola global.

Manfaat arsitektur data

Arsitektur data yang dibangun dengan baik dapat menawarkan bisnis beberapa manfaat utama, yang meliputi:

  • Mengurangi redundansi
  • Meningkatkan kualitas data
  • Mengaktifkan integrasi
  • Manajemen siklus proses data

Mengurangi redundansi
.

Mungkin ada bidang data yang tumpang tindih di berbagai sumber, yang mengakibatkan risiko ketidakkonsistenan, ketidakakuratan data, dan kehilangan peluang untuk integrasi data. Sebuah arsitektur data yang baik dapat menyusun cara penyimpanan data dan mungkin mengurangi duplikasi, menjadi dasar untuk analisis yang lebih baik dan menyeluruh.

Meningkatkan kualitas data
.

Arsitektur data yang dirancang dengan baik dapat memecahkan beberapa tantangan danau data yang dikelola dengan buruk, yang juga dikenal sebagai “rawa data”. Rawa data tidak memiliki standar data yang tepat, termasuk kualitas data dan praktik tata kelola data, untuk memberikan pelajaran yang mendalam.

Arsitektur data dapat membantu menerapkan tata kelola data dan standar keamanan data, sehingga memungkinkan pengawasan yang tepat terhadap jalur data. Dengan meningkatkan kualitas dan tata kelola data, arsitektur data dapat membantu memastikan bahwa data disimpan dengan cara yang membuatnya berguna saat ini dan di masa depan.

Mengaktifkan integrasi
.

Data sering dipisahkan sebagai akibat dari keterbatasan teknis pada penyimpanan data dan hambatan organisasi dalam perusahaan. Arsitektur data saat ini bertujuan untuk mempermudah integrasi data di seluruh domain, sehingga geografi dan fungsi bisnis yang berbeda dapat mengakses data satu sama lain. Hal ini akan menghasilkan pemahaman yang lebih baik dan konsisten tentang metrik umum, seperti pengeluaran, pendapatan dan pendorong terkait. Ini juga memungkinkan pandangan yang lebih holistik tentang pelanggan, produk, dan geografi untuk menginformasikan pengambilan keputusan berbasis data.

Manajemen siklus proses data
.

Arsitektur data modern dapat menangani bagaimana data dikelola dari waktu ke waktu. Data biasanya menjadi kurang berguna seiring bertambahnya usia dan lebih jarang diakses. Seiring waktu, data dapat dipindahkan ke jenis penyimpanan yang lebih murah dan lebih lambat, sehingga tetap tersedia untuk laporan dan audit, tetapi tanpa memerlukan biaya penyimpanan berkinerja tinggi.

Arsitektur data modern

Saat organisasi membangun peta jalan mereka untuk aplikasi masa depan, termasuk AI, blockchain, dan beban kerja Internet of Things (IoT), mereka membutuhkan arsitektur data modern yang dapat mendukung persyaratan data.

Karakteristik utama dari arsitektur data modern adalah:

  • Cloud native dan cloud-enabled sehingga arsitektur data dapat memperoleh manfaat dari penskalaan elastis dan ketersediaan tinggi cloud.

  • Alur data yang kuat, terukur, dan portabel, yang menggabungkan alur kerja cerdas, analisis kognitif dan integrasi waktu nyata dalam satu kerangka kerja.

  • Integrasi data yang mulus, menggunakan antarmuka API standar untuk terhubung ke aplikasi lama.

  • Pemberdayaan data real-time, termasuk validasi, klasifikasi, manajemen, dan tata kelola.

  • Dipisahkan dan dapat diperluas, sehingga tidak ada ketergantungan antara layanan, dan standar terbuka yang memungkinkan interoperabilitas.

  • Berdasarkan domain data, peristiwa dan layanan mikro.

  • Dioptimalkan untuk menyeimbangkan biaya dan kemudahan.
Solusi terkait
Perangkat lunak dan solusi database

Gunakan solusi database IBM untuk memenuhi berbagai kebutuhan beban kerja di hybrid cloud.

Jelajahi solusi database
Database cloud native dengan IBM Db2

Jelajahi IBM Db2, database relasional yang menghadirkan kinerja tinggi, skalabilitas, dan keandalan untuk menyimpan dan mengelola data terstruktur. Database ini tersedia sebagai SaaS di IBM Cloud atau untuk hosting mandiri.

Jelajahi Db2
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Gunakan solusi database IBM untuk memenuhi berbagai kebutuhan beban kerja di hybrid cloud.

Jelajahi solusi database Jelajahi IBM Db2