Apa yang dimaksud dengan arsitektur data?

Gambar bangunan kaca modern geometris

Penyusun

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Apa yang dimaksud dengan arsitektur data?

Arsitektur data menjelaskan cara data dikelola, mulai dari pengumpulan hingga transformasi, distribusi, dan konsumsi—yang menetapkan cetak biru tentang bagaimana data mengalir melalui sistem penyimpanan data. Ini adalah dasar untuk operasi pemrosesan data dan aplikasi kecerdasan buatan (AI).

Desain arsitektur data sering kali didasarkan pada persyaratan bisnis dan kebutuhan data, yang digunakan oleh data architect dan insinyur data untuk mendefinisikan model data dan struktur data mendasar yang mendukungnya. Desain biasanya memfasilitasi strategi bisnis atau kebutuhan bisnis, seperti pelaporan atau inisiatif ilmu data.

Berita teknologi terbaru, didukung oleh insight dari pakar

Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Mengapa arsitektur data penting?

Ketika organisasi menskalakan data mereka, kebutuhan akan arsitektur yang terstruktur dengan baik dan mudah beradaptasi telah menjadi yang terpenting. Namun, 94% pemimpin data menyebutkan tidak adanya arsitektur data yang terdefinisi sebagai salah satu tantangan utama mereka.1

Arsitektur data modern dapat membantu menyatukan dan menstandardisasi data perusahaan, yang memungkinkan berbagi data tanpa batas di seluruh domain bisnis. Ini juga memberikan dasar yang dapat diskalakan untuk contoh penggunaan tingkat lanjut seperti analitik data real-time dan AI generatif, yang membantu tim mengekstrak nilai dari data dengan lebih cepat dan lebih andal.

Karena teknologi seperti Internet of Things (IoT) menghasilkan sumber data baru, arsitektur yang dirancang dengan baik memastikan bahwa data tetap dapat dikelola, terintegrasi, dan bermanfaat sepanjang siklus hidupnya. Hal ini dapat mengurangi redundansi, meningkatkan kualitas data, dan membantu menghilangkan silo dengan menghubungkan sistem di seluruh perusahaan.

Jika dilakukan dengan benar, arsitektur data bukan hanya sekadar struktur teknis: arsitektur data merupakan kemampuan strategis yang mengubah data mentah menjadi aset yang dapat digunakan kembali.

Gabungan Para Pakar | 28 Agustus, episode 70

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Istilah-istilah penting dalam arsitektur data

Arsitektur data menyatukan beberapa konsep yang tumpang tindih. Berikut ini dapat membantu menentukan lingkungan:

  • Platform: Lingkungan teknologi dasar yang menampung dan menjalankan sistem data. Ini termasuk alat berbasis cloudatau on premises.
  • Model data: Representasi terperinci tentang bagaimana data diatur dalam suatu sistem. Ini mendefinisikan entitas, hubungan, dan format.
  • Kerangka kerja: Metodologi strategis yang digunakan untuk merancang dan mengelola arsitektur perusahaan. Kerangka kerja memberikan pendekatan terstruktur untuk menyelaraskan sistem data dengan tujuan bisnis.
  • Pola: Solusi yang dapat diulang untuk tantangan arsitektur yang umum. Pola seperti struktur data atau data mesh menggambarkan cara-cara yang telah teruji untuk meningkatkan skalabilitas, tata kelola, atau aksesibilitas.

Jenis arsitektur data

Arsitektur data modern cenderung mengikuti salah satu dari dua pendekatan inti: terpusat atau terdesentralisasi. Model-model ini memandu bagaimana data perusahaan dikumpulkan, disimpan, dan diatur.

Arsitektur terpusat membawa data ke dalam platform terpadu—seperti data lake atau gudang data—dikeloladi bawah model tata kelola data tunggal. Hal ini membantu mengurangi redundansi, meningkatkan kualitas data, dan mendukung pemodelan data terstruktur menggunakan bahasa kueri terstruktur (SQL) dan database relasional lainnya.

Arsitektur terdesentralisasi mendistribusikan kepemilikan data di seluruh domain bisnis. Tim mengelola data secara lokal, sering kali menggunakan sistem database nonrelasional (juga disebut "database NoSQL") atau pipeline berbasis peristiwa dengan skemametadata, dan kontrol akses mereka sendiri. Pendekatan ini mendukung integrasi dan pemrosesan data real-time, streaming data, dan contoh penggunaan machine learning (ML).

Sebagian besar organisasi menggabungkan kedua model untuk menyeimbangkan skalabilitas, integrasi data, dan ketangkasan. Pendekatan hybrid ini dapat membantu mendukung sumber data yang berbeda, mengurangi silo data, dan mengaktifkan operasi cloud-native pada sejumlah platform seperti AWS atau Microsoft Azure.

Terlepas dari model arsitektur mana yang diadopsi oleh sebuah organisasi, keberhasilan tergantung pada seberapa baik data yang mendasarinya terstruktur. Di situlah pemodelan data berperan.

Apa tiga jenis model data?

Sementara arsitektur data berfokus pada bagaimana data mengalir di seluruh sistem, pemodelan data berfokus pada bagaimana data disusun dalam sistem tersebut. Model data menentukan bentuk, hubungan, dan kendala informasi saat bergerak melalui arsitektur.

Dokumentasi arsitektur data biasanya mencakup tiga jenis model:

  • Model data konseptual
  • Model data logis
  • Model data fisik

Model data konseptual

Juga disebut sebagai "model domain", model data konseptual menawarkan pandangan holistik tentang apa yang akan berisi sistem, bagaimana sistem akan diorganisir dan aturan bisnis mana yang berlaku. Model-model ini biasanya dibuat selama tahap awal perencanaan proyek dan mencakup kelas entitas (item yang ditentukan untuk dilacak dalam model data), karakteristik dan batasannya, hubungan di antara mereka dan persyaratan keamanan atau integritas data yang relevan.

Model data logis

Model data logis kurang abstrak dibandingkan model konseptual dan memberikan lebih banyak detail tentang entitas dan hubungan dalam domain tertentu. Model data ini mengikuti notasi pemodelan data formal dan mendefinisikan atribut data—seperti tipe dan panjang data—sembari mengilustrasikan bagaimana entitas terhubung. Yang terpenting, model logis tetap agnostik teknologi dan tidak menyertakan persyaratan khusus sistem.

Model data fisik

Model data fisik adalah yang paling detail dari tiga model data, yang menggambarkan bagaimana database akan diimplementasikan. Mereka mendefinisikan struktur tabel, indeks, format penyimpanan dan pertimbangan kinerja. Model-model ini berfokus pada aspek teknis terkait bagaimana data terstruktur disimpan dan diakses, dan digunakan untuk memandu pembuatan skema, konfigurasi dan pengoptimalan.

Model data membentuk struktur informasi dalam suatu sistem. Dari sana, kerangka kerja arsitektur yang lebih luas memandu bagaimana model dan sistem di sekitarnya diimplementasikan.

Kerangka kerja arsitektur data populer

Arsitektur data dapat diambil dari kerangka kerja arsitektur perusahaan yang populer, termasuk TOGAF, DAMA-DMBOK 2 dan Kerangka Kerja Zachman untuk Arsitektur Perusahaan.

Open Group Architecture Framework (TOGAF)

Metodologi arsitektur perusahaan ini dikembangkan pada tahun 1995 oleh The Open Group. Arsitekturnya terdiri dari empat pilar:

  • Arsitektur bisnis mendefinisikan struktur organisasi, strategi data, dan proses perusahaan.
  • Arsitektur data menggambarkan aset data konseptual, logis, dan fisik serta cara aset-aset tersebut disimpan dan dikelola sepanjang siklus hidupnya.
  • Arsitektur aplikasi mewakili sistem aplikasi dan bagaimana mereka berhubungan dengan proses bisnis utama dan satu sama lain.
  • Arsitektur teknis menggambarkan infrastruktur data (perangkat keras, perangkat lunak, dan jaringan) yang diperlukan untuk mendukung aplikasi yang sangat penting.

TOGAF menyediakan kerangka kerja yang lengkap untuk merancang dan mengimplementasikan arsitektur TI perusahaan, termasuk arsitektur datanya.

DAMA-DMBOK 2

DAMA International, yang awalnya didirikan sebagai Data Management Association International, adalah organisasi nirlaba yang didedikasikan untuk memajukan manajemen data dan informasi. Data Management Body of Knowledge, DAMA-DMBOK 2, mencakup arsitektur data, tata kelola dan etika, pemodelan dan desain data, penyimpanan, keamanan, dan integrasi.

Kerangka Kerja Zachman untuk Arsitektur Perusahaan

Awalnya dikembangkan oleh John Zachman di IBM pada tahun 1987, kerangka kerja ini menggunakan matriks 6 lapisan—dari kontekstual hingga detail—yang dipetakan dengan enam pertanyaan (seperti apa, mengapa dan bagaimana). Kerangka kerja ini menyediakan cara formal untuk mengatur dan menganalisis data tetapi tidak mencakup metode untuk melakukannya.

Komponen arsitektur data

Arsitektur data dibangun dari beberapa komponen yang saling bergantung yang mengatur bagaimana data dipindahkan, disimpan, diatur, dan diakses. Elemen-elemen ini membentuk fondasi operasional sistem data, yang mendukung segala hal mulai dari konsumsi/penyerapan hingga analisis.

Komponen arsitektur data biasanya jatuh ke dalam empat kategori, masing-masing dengan beberapa subkategori:

Alur dan integrasi

Data diambil dari sumber eksternal dan internal dan pindah ke sistem untuk pemrosesan dan penyimpanan.

Pipeline data

Pipeline menyerap, mengubah, dan mengangkut data dari titik asalnya ke tempat data diproses dan disimpan. Sistem ini dapat mengikuti pola batch, seperti ekstrak, transformasi, muat (ETL) dan ekstrak, muat, transformasi (ELT). Sistem ini juga dapat mengalirkan data nyaris seketika. Alur modern sering kali menyertakan logika transformasi, pemeriksaan kualitas, dan validasi skema sebagai bagian dari alur.

API dan konektor

Antarmuka pemrograman aplikasi (API) dan konektor bawaan memungkinkan integrasi yang mulus antara sistem data, aplikasi, dan alat analitik. Mereka menyediakan cara standar untuk menyederhanakan akses data di berbagai platform dan merupakan pusat dari pertukaran data real-time.

Sistem penyimpanan

Setelah dicerna, data disimpan dalam sistem dapat diskalakan—baik terstruktur maupun tidak terstruktur—di mana data tersebut tersedia untuk digunakan dan dianalisis lebih lanjut.

Gudang data

Sebuah gudang data mengumpulkan data dari berbagai sumber data relasional di seluruh perusahaan ke dalam repositori tunggal, terpusat, dan konsisten. Setelah ekstraksi, data mengalir melalui pipeline ETL, menjalani berbagai transformasi untuk memenuhi model data yang telah ditentukan sebelumnya. Ketika dimuat ke dalam sistem pergudangan data, data menjadi tersedia untuk mendukung berbagai aplikasi intelijen bisnis (BI) dan ilmu data.

Pasar data

Sebuah pasar data adalah versi terfokus dari gudang data yang berisi subset data yang lebih kecil yang relevan dengan satu tim atau kelompok pemangku kepentingan. Dengan mempersempit ruang lingkup, pasar data memungkinkan insight yang lebih cepat dan lebih bertarget daripada bekerja dengan kumpulan data gudang yang lebih luas.

Data lake

Data lake menyimpan data mentah yang belum diproses—termasuk format terstruktur dan tidak terstruktur—dalam skala besar. Tidak seperti gudang data, data lake tidak memerlukan pemodelan data atau persiapan sebelumnya, menjadikannya ideal untuk beban kerja big data.

Data lakehouse

Data lakehouse menggabungkan aspek gudang data dan data lake menjadi satu solusi manajemen data. Ini menggabungkan penyimpanan berbiaya rendah dengan mesin kueri berkinerja tinggi dan tata kelola metadata cerdas.

Basis Data

Database adalah repositori digital dasar untuk menyimpan, mengelola, dan mengamankan data. Setiap jenis database menyimpan data dengan cara yang berbeda. Misalnya, database relasional (juga disebut "SQL Database") menyimpan data dalam tabel dengan baris dan kolom yang ditentukan. Database NoSQL dapat menyimpannya sebagai berbagai struktur data, termasuk pasangan atau grafik nilai kunci.

Tata kelola dan metadata

Saat data mengalir dan terakumulasi, perangkat tata kelola memastikan data tersebut tertata dengan baik, aman, dan dapat ditemukan di sepanjang siklus hidupnya.

Katalog data

Katalog data adalah inventaris terpusat aset data organisasi. Ini menggunakan metadata untuk memberikan konteks tentang setiap kumpulan data, termasuk asal, struktur, kepemilikan, riwayat penggunaan, dan kualitasnya. Katalog data membantu pengguna menemukan dan mengevaluasi data, mendukung upaya tata kelola dan kepatuhan, serta memfasilitasi kolaborasi antar tim.

Silsilah dan observabilitas

Alat silsilah melacak perjalanan data lintas sistem, menunjukkan bagaimana data diubah dan dari mana asalnya. Visibilitas ini sangat penting untuk audit, pemecahan masalah, dan pemahaman dependensi. Platform observabilitas dapat melengkapi silsilah dengan memantau kinerja pipeline dan metrik kualitas data.  

Akses dan konsumsi

Terakhir, data menjangkau orang-orang dan sistem yang menggunakannya melalui dasbor, kueri, atau alat bantu yang disematkan yang mendorong keputusan.

Dasbor dan alat analitik

Platform intelijen bisnis dapat meningkatkan akses data melalui visualisasi dan dasbor. Alat-alat ini membantu pengguna non-teknis menginterpretasikan tren, memantau indikator kinerja utama (KPI), dan membuat keputusan berbasis data.

Mesin kueri dan komputasi

Titik akhir SQL dan antarmuka kueri lainnya memungkinkan analis dan ilmuwan data untuk menjelajahi dan menganalisis data secara langsung. Alat-alat seperti Apache Spark dan IBM watsonx.data menyediakan lapisan komputasi yang diperlukan untuk menjalankan kueri di seluruh kumpulan data terdistribusi dalam skala besar.

Produk data tertanam

Beberapa arsitektur mendukung pengiriman data langsung ke aplikasi, alur kerja, atau API. Produk data tertanam ini menghadirkan insight ke dalam operasi harian, yang memungkinkan pengambilan keputusan berbasis data.

Pelatihan AI dan ML

Data dari seluruh arsitektur juga dapat mengisi alur kerja AI dan ML. Data pelatihan sering kali bersumber dari data lakes, diubah melalui pipeline dan digunakan untuk mengembangkan dan melatih kembali model. Model-model ini selanjutnya dapat diterapkan ke dalam produk, dasbor, atau proses bisnis untuk meningkatkan otomatisasi dan prediksi.

Bagaimana arsitektur data diimplementasikan?

Menerapkan arsitektur data melibatkan penerjemahan kebutuhan bisnis ke dalam peta jalan untuk pengumpulan data, organisasi, keamanan, dan aksesibilitas. Kendati tidak ada dua implementasi yang identik, sebagian besar mengikuti pendekatan yang bergerak dari perencanaan ke eksekusi.

Langkah 1: Selaraskan dengan tujuan bisnis

Prosesnya dimulai dengan menentukan apa yang dibutuhkan bisnis dari datanya—apakah hal tersebut memungkinkan penggunaan machine learning atau mendukung kepatuhan. Ini menunjukkan prioritas arsitektur, sumber data mana yang harus disertakan dan sistem apa yang memerlukan integrasi.

Langkah 2: Tentukan model data dan tata kelola

Arsitek data mengembangkan model data konseptual, logis, dan fisik untuk memandu struktur dan aliran. Model ini membantu mengidentifikasi entitas utama, hubungan, persyaratan data, dan kontrol akses. Pada saat yang bersamaan, kebijakan tata kelola ditetapkan untuk menentukan kepemilikan, hak akses, dan aturan siklus hidup data.

Langkah 3: Desain arsitektur

Dengan model dan kebijakan yang ada, tim merancang arsitekturnya sendiri dengan memilih teknologi untuk penyimpanan, integrasi, pengelolaan metadata, dan konsumsi. Ini termasuk menetapkan cara data akan berpindah antara sistem dan di mana data akan berada di seluruh sistem penyimpanan.

Langkah 4: Membangun dan mengintegrasikan

Implementasi biasanya melibatkan menerapkan pipeline penyerapan, membuat API, mengonfigurasi lapisan tata kelola, dan mengaktifkan titik akses seperti dasbor atau titik akhir kueri. Persyaratan keamanan dan kepatuhan disematkan selama tahap ini guna melindungi data.

Langkah 5: Memantau, mengembangkan, dan menskalakan

Setelah digunakan, arsitektur data harus terus dipantau dan disempurnakan. Volume data bertumbuh; contoh penggunaan berkembang; peraturan bergeser. Organisasi sering kali meninjau kembali dan mengoptimalkan kembali arsitektur mereka, terutama karena mereka mengadopsi platform cloud dan mengadopsi pola arsitektur modern.

Fitur utama dari arsitektur data modern

Seiring dengan perkembangan skala organisasi, kebutuhan akan arsitektur data yang fleksibel dan tangguh juga meningkat. Arsitektur data modern memprioritaskan interoperabilitas, akses real-time, dan kemampuan untuk mengelola data sebagai produk, bukan hanya aset. Ini juga memungkinkan standardisasi yang lebih besar, manajemen metadata, dan demokratisasi melalui API.

Karakteristik utama dari arsitektur data modern meliputi:

  • Desain cloud-native, yang menawarkan skalabilitas elastis dan ketersediaan tinggi.
  • Pipeline data cerdas, yang menggabungkan integrasi real-time, streaming data, dan analisis kognitif.
  • Integrasi berbasis API yang mulus dengan aplikasi modern dan lama.
  • Pemberdayaan data secara real-time, termasuk validasi, klasifikasi, dan tata kelola.
  • Layanan yang dapat dipisahkan dan diperluas, yang mendukung pertumbuhan modular dan interoperabilitas terbuka.
  • Organisasi berbasis domain, menggunakan acara dan layanan mikro untuk mencerminkan struktur bisnis.
  • Pengoptimalan bawaan, keseimbangan kinerja, biaya, dan kesederhanaan.

Pola arsitektur data modern

Organisasi yang memodernisasi infrastruktur data mereka mengadopsi strategi data baru yang mencerminkan kompleksitas lingkungan hybrid dan multicloud saat ini. Pergeseran ini telah memunculkan pola arsitektur baru—terutama struktur data dan jaring data.

Struktur data

Struktur data berfokus pada otomatisasi integrasi dan pengelolaan data di seluruh lingkungan hybrid. Metadata aktif dan machine learning digunakan untuk menemukan hubungan lintas sistem dan mengatur aliran data. Struktur data dapat menyediakan produk data secara otomatis dan mengirimkannya sesuai permintaan—sehingga meningkatkan efisiensi operasional dan mengurangi silo data.

Jaring data

Jaring data mendesentralisasi kepemilikan data dengan menyelaraskan arsitektur dengan domain bisnis. Hal ini mendorong produsen data—mereka yang paling dekat dengan sumbernya—untuk memperlakukan data sebagai produk dan merancang API dengan mempertimbangkan konsumen. Model ini membantu menghilangkan kemacetan dan mendukung demokratisasi data yang dapat diskalakan di seluruh perusahaan.

Dan meskipun pendekatan ini berbeda, mereka tidak saling eksklusif. Banyak organisasi menerapkan elemen keduanya, menggunakan otomatisasi struktur untuk menskalakan tata kelola terdesentralisasi jaring.

Manfaat arsitektur data

Arsitektur data yang dibangun dengan baik dapat menawarkan keuntungan yang signifikan bagi bisnis, termasuk:

  • Mengurangi redundansi
  • Meningkatkan kualitas data
  • Mengaktifkan integrasi
  • Manajemen siklus proses data

Mengurangi redundansi

Bidang data yang tumpang tindih di berbagai sumber dapat menyebabkan inkonsistensi, ketidakakuratan, dan peluang yang terlewatkan untuk integrasi data. Arsitektur data yang baik dapat menstandarkan cara data disimpan dan berpotensi mengurangi redundansi, yang memungkinkan analisis holistik dan kualitas yang lebih baik.

Meningkatkan kualitas data

Arsitektur data yang dirancang dengan baik dapat memecahkan beberapa tantangan data lake yang dikelola dengan buruk, yang juga dikenal sebagai “data swamp.” Data swamp tidak memiliki standar data yang sesuai—termasuk kualitas data dan praktik tata kelola data—untuk memberikan insight yang bermakna. Arsitektur data dapat membantu menerapkan tata kelola data dan standar keamanan data, sehingga memungkinkan pengawasan jalur data yang sesuai.

Mengaktifkan integrasi

Data sering kali dipisahkan karena keterbatasan teknis pada penyimpanan data dan hambatan organisasi di dalam perusahaan. Arsitektur data saat ini bertujuan untuk mempermudah integrasi data di seluruh domain, sehingga geografi dan fungsi bisnis yang berbeda dapat mengakses data satu sama lain. Hal ini dapat mengarah pada pemahaman yang lebih baik dan lebih konsisten tentang metrik umum dan memungkinkan pandangan bisnis yang lebih holistik untuk menginformasikan pengambilan keputusan berbasis data.

Manajemen siklus proses data

Arsitektur data modern dapat menangani bagaimana data dikelola dari waktu ke waktu. Data biasanya menjadi kurang berguna seiring bertambahnya usia dan lebih jarang diakses. Seiring waktu, data dapat dipindahkan ke jenis penyimpanan yang lebih murah dan lebih lambat, sehingga tetap tersedia untuk laporan dan audit, tetapi tanpa memerlukan biaya penyimpanan berkinerja tinggi.

Solusi terkait
Alat dan solusi analitik

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
IBM Cognos Analytics

Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.

Jelajahi Cognos Analytics
Ambil langkah selanjutnya

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik Temukan layanan analitik