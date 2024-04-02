Diterbitkan: 5 April 2024
Kontributor: Tim Mucci, Mark Scapicchio, Cole Stryker
DataOps adalah serangkaian praktik manajemen data kolaboratif yang dimaksudkan untuk mempercepat pengiriman, menjaga kualitas, mendorong kolaborasi, dan memberikan nilai maksimum dari data. Dimodelkan setelah praktik DevOps, DataOps bertujuan untuk memastikan bahwa fungsi pengembangan yang sebelumnya terpisah-pisah menjadi otomatis dan tangkas. Kendati DevOps berkaitan dengan menyederhanakan tugas-tugas pengembangan perangkat lunak, DataOps berfokus pada mengotomatiskan proses manajemen data dan analisis data.
DataOps memanfaatkan teknologi otomatisasi untuk menyederhanakan beberapa fungsi manajemen data. Fungsi-fungsi ini termasuk secara otomatis mentransfer data di antara sistem yang berbeda kapan pun diperlukan dan mengotomatiskan proses untuk mengidentifikasi dan mengatasi inkonsistensi dan kesalahan dalam data. DataOps memprioritaskan otomatisasi tugas berulang dan manual untuk membebaskan tim data untuk pekerjaan yang lebih strategis.
Mengotomatiskan proses-proses ini melindungi kumpulan data dan membuatnya tersedia dan dapat diakses untuk tujuan analisis, sekaligus memastikan bahwa tugas-tugas dilakukan secara konsisten dan akurat untuk meminimalkan kesalahan manusia. Alur kerja yang efisien ini menghasilkan pengiriman data yang lebih cepat saat dibutuhkan karena pipeline otomatis dapat menangani volume data yang lebih besar dengan lebih efektif. Selain itu, DataOps mendorong pengujian dan pemantauan jalur data secara terus-menerus untuk menjamin jalur tersebut berfungsi dan diatur dengan benar.
Tugas pengelolaan data manual memakan waktu dan kebutuhan bisnis selalu berkembang. Pendekatan yang disederhanakan terhadap seluruh proses pengelolaan data, mulai dari pengumpulan hingga pengiriman, memastikan organisasi cukup tangkas untuk menangani inisiatif beberapa langkah yang menantang. Hal ini juga memungkinkan tim data untuk mengelola pertumbuhan data yang eksplosif selagi mengembangkan produk data.
Tujuan utama dari DataOps adalah untuk memecah silo antara produsen data (pengguna hulu) dan konsumen data (pengguna hilir) untuk mengamankan akses ke sumber data yang dapat diandalkan. Silo data efektif dalam membatasi akses dan analisis, jadi dengan menyatukan data di seluruh departemen, DataOps mendorong kolaborasi antartim yang dapat mengakses dan menganalisis data yang relevan untuk kebutuhan unik mereka. Menekankan komunikasi dan kolaborasi antara data dan tim bisnis, DataOps mendorong peningkatan kecepatan, keandalan, jaminan kualitas, dan tata kelola. Selain itu, kolaborasi lintas disiplin ilmu yang mengikutinya memungkinkan pandangan yang lebih menyeluruh terhadap data, yang dapat menghasilkan analisis yang lebih mendalam.
Dalam kerangka kerja DataOps, tim data yang terdiri dari ilmuwan data, insinyur, analis, operasi TI, manajemen data, tim pengembangan perangkat lunak, dan pemangku kepentingan bisnis bekerja sama untuk mendefinisikan dan memenuhi tujuan bisnis. Jadi, DataOps membantu menghindari tantangan umum dalam pengelolaan dan pengiriman yang menjadi hambatan seiring dengan bertambahnya volume dan jenis data serta munculnya berbagai contoh penggunaan baru di kalangan pengguna bisnis dan ilmuwan data. DataOps melibatkan penerapan proses seperti orkestrasi pipeline data, pemantauan kualitas data, tata kelola, keamanan, dan platform akses data layanan mandiri.
Alat orkestrasi pipeline mengelola aliran data dan mengotomatiskan tugas-tugas seperti jadwal ekstraksi, transformasi data, dan proses pemuatan. Alat ini juga mengotomatiskan alur kerja yang kompleks dan memastikan alur data berjalan dengan lancar, menghemat waktu dan sumber daya tim data.
Pemantauan kualitas data memberikan identifikasi kualitas data secara proaktif dan real-time, yang memastikan bahwa data yang digunakan untuk analisis dapat diandalkan dan dapat dipercaya.
Proses tata kelola memastikan data terlindungi dan selaras dengan berbagai peraturan dan kebijakan organisasi. Proses ini juga mendefinisikan siapa yang bertanggung jawab atas aset data tertentu, mengatur siapa yang memiliki izin untuk mengakses atau memodifikasi data, serta melacak asal-usul dan transformasi ketika data mengalir melalui saluran pipa untuk transparansi yang lebih baik.
Bekerja bersama dengan tata kelola, proses keamanan melindungi data dari akses yang tidak sah, modifikasi, atau kehilangan. Proses keamanan meliputi enkripsi data, menambal kelemahan dalam penyimpanan data atau pipeline dan memulihkan data dari pelanggaran keamanan.
Dengan menambahkan akses data layanan mandiri, proses DataOps memungkinkan para pemangku kepentingan hilir seperti analis data dan pengguna bisnis untuk mengakses dan mengeksplorasi data dengan lebih mudah. Akses layanan mandiri mengurangi ketergantungan pada TI untuk pengambilan data dan mengotomatiskan pemeriksaan kualitas data menghasilkan analisis dan wawasan yang lebih akurat.
DataOps menggunakan filosofi pengembangan Agile untuk menghadirkan kecepatan, fleksibilitas, dan kolaborasi untuk manajemen data. Prinsip-prinsip yang menentukan aspek Agile adalah pengembangan berulang dan peningkatan berkelanjutan berdasarkan umpan balik dan kemampuan beradaptasi, dengan tujuan memberikan nilai kepada pengguna lebih awal dan lebih sering.
DataOps meminjam prinsip-prinsip inti ini dari metodologi Tangkas dan menerapkannya pada manajemen data. Pengembangan iteratif adalah membangun sesuatu dalam langkah-langkah kecil, mendapatkan umpan balik dan melakukan penyesuaian sebelum melanjutkan ke langkah selanjutnya. Dalam DataOps, hal ini berarti memecah pipeline data menjadi beberapa tahapan yang lebih kecil untuk pengembangan, pengujian, dan penerapan yang lebih cepat. Hal ini memungkinkan penyampaian wawasan data yang lebih cepat (perilaku pelanggan, inefisiensi proses, pengembangan produk) dan memberikan ruang bagi tim data untuk beradaptasi dengan kebutuhan yang terus berubah.
Pemantauan dan umpan balik yang terus menerus pada jalur data memungkinkan perbaikan yang berkelanjutan, yang memastikan pengiriman data tetap efisien. Siklus iterasi memudahkan untuk menangani sumber daya data baru, perubahan kebutuhan pengguna atau kebutuhan bisnis, sehingga memastikan proses manajemen data tetap relevan. Perubahan data didokumentasikan menggunakan sistem kontrol versi, seperti Git, untuk melacak modifikasi model data dan memungkinkan pengembalian yang lebih sederhana.
Kolaborasi dan komunikasi sangat penting bagi Tangkas dan DataOps mencerminkan hal ini. Insinyur, analis, dan tim bisnis bekerja sama untuk menentukan tujuan dan memastikan pipeline memberikan nilai bisnis dalam bentuk data yang dapat dipercaya dan dapat digunakan. Para pemangku kepentingan, ilmuwan TI dan data memiliki kesempatan untuk menambah nilai pada proses dalam lingkaran umpan balik yang berkelanjutan untuk membantu memecahkan masalah, membangun produk yang lebih baik, dan memberikan wawasan data yang dapat dipercaya.
Misalnya, jika tujuannya adalah memperbarui produk untuk menyenangkan dan menyenangkan pengguna, tim DataOps dapat memeriksa data organisasi untuk mendapatkan wawasan tentang apa yang dicari pelanggan dan menggunakan informasi tersebut untuk meningkatkan penawaran produk.
DataOps mendorong ketangkasan suatu organisasi dengan mendorong komunikasi, yang mengotomatiskan proses dan menggunakan kembali data daripada membuat apa pun dari awal. Menerapkan prinsip-prinsip DataOps di seluruh alur meningkatkan kualitas data sekaligus membebaskan anggota tim data dari tugas yang memakan waktu.
Otomatisasi dapat dengan cepat menangani pengujian dan memberikan observabilitas menyeluruh di setiap lapisan tumpukan data, jadi jika terjadi kesalahan, tim data akan segera diberi tahu. Kombinasi otomatisasi dan observabilitas ini memungkinkan tim data untuk secara proaktif menangani insiden waktu henti, sering kali sebelum insiden ini dapat memengaruhi pengguna atau aktivitas hilir.
Hasilnya, tim bisnis memiliki data yang berkualitas lebih baik, lebih sedikit mengalami masalah, dan dapat membangun kepercayaan dalam pengambilan keputusan berbasis data di seluruh organisasi. Hal ini mengarah pada siklus pengembangan yang lebih pendek untuk produk data dan pendekatan organisasi yang merangkul demokratisasi akses data.
Dengan meningkatnya penggunaan data, muncul tantangan peraturan dalam cara data digunakan. Peraturan pemerintah seperti peraturan perlindungan data umum(GDPR) dan California consumer privacy act (CCPA) telah memperumit cara perusahaan menangani data dan jenis data apa saja yang dapat mereka kumpulkan dan gunakan. Transparansi proses yang hadir dengan DataOps mengatasi masalah tata kelola dan keamanan dengan menyediakan akses langsung ke jalur pipa sehingga tim data dapat mengamati siapa yang menggunakan data, ke mana data pergi, dan siapa yang memiliki izin ke hulu atau ke hilir.
Dalam hal implementasi, DataOps dimulai dengan membersihkan data mentah dan mengembangkan infrastruktur teknologi yang membuatnya tersedia.
Setelah proses DataOps suatu organisasi berjalan, kolaborasi adalah kuncinya. DataOps menekankan kolaborasi antar tim bisnis dan data, mendorong komunikasi terbuka dan menghilangkan silo. Seperti dalam pengembangan perangkat lunak Tangkas, proses data dipecah menjadi bagian-bagian yang lebih kecil dan dapat disesuaikan untuk iterasi yang lebih cepat. Otomatisasi digunakan untuk menyederhanakan jalur data dan meminimalkan kesalahan manusia.
Membangun budaya berbasis data juga merupakan langkah penting. Berinvestasi dalam literasi data memberdayakan pengguna untuk memanfaatkan data secara efektif, sehingga menciptakan umpan balik berkelanjutan yang menghimpun wawasan untuk meningkatkan kualitas data dan memprioritaskan peningkatan infrastruktur data.
DataOps memperlakukan data itu sendiri sebagai sebuah produk, sehingga sangat penting bagi para pemangku kepentingan untuk terlibat dalam menyelaraskan KPI dan mengembangkan perjanjian tingkat layanan (SLA) untuk data penting sejak dini. Menemukan konsensus tentang hal yang memenuhi syarat sebagai data yang baik di dalam organisasi membantu menjaga tim tetap fokus pada hal-hal yang penting.
Alat otomatisasi dan layanan mandiri memberdayakan pengguna dan meningkatkan kecepatan pengambilan keputusan. Alih-alih tim operasi memenuhi permintaan sementara dari tim bisnis, yang memperlambat pengambilan keputusan, pemangku kepentingan bisnis selalu memiliki akses ke data yang mereka butuhkan. Dengan memprioritaskan kualitas data yang tinggi, perusahaan memastikan wawasan yang andal untuk semua tingkatan organisasi.
Berikut adalah beberapa praktik terbaik yang terkait dengan implementasi:
Siklus ini dirancang untuk meningkatkan kualitas data, mempercepat analitik, dan mendorong kolaborasi di seluruh organisasi.
Tahap ini melibatkan kolaborasi antara bisnis, produk, dan teknik untuk mendefinisikan metrik kualitas dan ketersediaan data.
Di sini, para insinyur dan ilmuwan data membangun produk data dan model machine learning yang akan digunakan untuk mendukung aplikasi.
Tahap ini berfokus pada menghubungkan kode dan produk data dengan tumpukan teknologi organisasi yang ada. Seperti mengintegrasikan model data dengan alat otomatisasi alur kerja untuk eksekusi otomatis.
Pengujian yang ketat memastikan akurasi data sesuai dengan kebutuhan bisnis. Pengujian dapat melibatkan pemeriksaan integritas dan kelengkapan data dan bahwa data mematuhi aturan bisnis.
Data pertama kali dipindahkan ke lingkungan pengujian untuk validasi. Setelah divalidasi, data dapat digunakan ke lingkungan produksi untuk digunakan untuk aplikasi dan analis.
Penerapan alat dan teknologi yang tepat mendukung otomatisasi yang diperlukan untuk berhasil menjalankan DataOps. Otomatisasi yang digunakan di lima bidang penting membantu membangun praktik DataOps yang solid dalam suatu organisasi. Selain itu, karena DataOps adalah kerangka kerja holistik untuk mengelola data di seluruh organisasi, alat bantu terbaik akan memanfaatkan otomatisasi dan fitur layanan mandiri lainnya yang memungkinkan lebih banyak kebebasan dan wawasan bagi tim DataOps.
Implementasi alat adalah cara untuk menunjukkan kemajuan dalam penerapan DataOps, tetapi keberhasilan implementasi proses tersebut memerlukan visi organisasi yang holistik. Perusahaan yang berfokus pada satu elemen dan merugikan elemen lainnya kemungkinan besar tidak akan mendapatkan manfaat apa pun dari implementasi proses DataOps. Peralatan tidak menggantikan perencanaan, sumber daya manusia, dan proses yang sedang berjalan; hal ini ada untuk mendukung dan mempertahankan budaya mengutamakan data yang sudah mengakar kuat.
Berikut adalah area yang paling diuntungkan dari otomatisasi:
DataOps pertama-tama dan utamanya mengandalkan arsitektur data organisasi. Apakah datanya tepercaya? Apakah tersedia? Bisakah kesalahan dideteksi dengan cepat? Bisakah perubahan dilakukan tanpa merusak jalur data?
Mengotomatiskan tugas kurasi data seperti pembersihan data, transformasi, dan standardisasi memastikan data berkualitas tinggi di seluruh pipeline analitik, menghilangkan kesalahan manual dengan cepat untuk membebaskan insinyur data untuk pekerjaan yang lebih strategis.
Mengotomatiskan pengambilan metadata dan pelacakan silsilah menciptakan pemahaman yang jelas tentang asal data, cara data tersebut diubah, dan cara penggunaannya. Transparansi ini sangat penting untuk tata kelola data dan membantu pengguna memahami kepercayaan wawasan data. Proses DataOps semakin menggunakan metadata aktif sebagai pendekatan untuk mengelola informasi tentang data. Tidak seperti metadata tradisional yang sering kali statis dan terpisah, metadata aktif bersifat dinamis dan terintegrasi di seluruh tumpukan data untuk memberikan tampilan aset data yang lebih kaya dan lebih kontekstual.
Dalam hal tata kelola data, otomatisasi menerapkan aturan kualitas data dan kontrol akses dalam saluran. Hal ini mengurangi risiko kesalahan atau akses tidak sah, sehingga meningkatkan keamanan dan kepatuhan data.
Mengotomatiskan tugas-tugas seperti deduplikasi dan sinkronisasi data di berbagai sistem memastikan sumber kebenaran tunggal untuk entitas bisnis inti seperti pelanggan atau produk, yang merupakan kunci manajemen data yang efektif. Ini menghilangkan inkonsistensi dan meningkatkan keandalan data untuk analitik dan pelaporan.
Otomatisasi juga memberdayakan pengguna bisnis dengan alat layanan mandiri untuk akses dan eksplorasi data. Dengan menerapkan otomatisasi pada interaksi layanan mandiri, pengguna dapat menemukan dan menyiapkan data yang mereka butuhkan tanpa bergantung pada TI, sehingga mempercepat pengambilan keputusan berbasis data di seluruh organisasi.
Dengan platform DataOps yang kuat, organisasi dapat mengatasi masalah pembuatan dan pemrosesan data yang tidak efisien dan meningkatkan kualitas data yang buruk yang disebabkan oleh kesalahan dan inkonsistensi. Berikut adalah fungsi inti yang disediakan platform tersebut:
Konsumsi data: Umumnya, langkah pertama dalam siklus data dimulai dengan memasukkannya ke dalam data lake atau gudang data untuk mengubahnya menjadi wawasan yang dapat digunakan melalui pipa. Organisasi membutuhkan alat yang kompeten yang dapat menangani konsumsi data dalam skala besar. Seiring dengan pertumbuhan organisasi, diperlukan solusi yang efisien untuk konsumsi data.
Orkestrasi data: Volume dan jenis data dalam organisasi akan terus bertambah dan penting untuk mengelola pertumbuhan tersebut sebelum jumlahnya menjadi tidak terkendali. Sumber daya yang tak terbatas adalah sebuah kemustahilan, sehingga orkestrasi data berfokus pada pengorganisasian beberapa tugas pipeline menjadi satu proses menyeluruh yang memungkinkan data bergerak secara terprediksi melalui platform pada waktu dan di tempat yang diperlukan tanpa adanya insinyur untuk membuat kode secara manual.
Transformasi data: Transformasi data adalah tempat data mentah dibersihkan, dimanipulasi, dan disiapkan untuk dianalisis. Organisasi harus berinvestasi dalam alat yang menjadikan pembuatan model kompleks lebih cepat dan mengelolanya dengan andal seiring berkembangnya tim dan volume data yang bertambah.
Katalog data: Katalog data seperti perpustakaan untuk semua aset data dalam suatu organisasi. Katalog ini mengatur, mendeskripsikan, dan membuat data mudah ditemukan dan dipahami. Di DataOps, katalog data dapat membantu membangun landasan yang kuat untuk kelancaran pengoperasian data. Katalog data berfungsi sebagai satu titik referensi untuk semua kebutuhan data.
Pengamatan data: Tanpa observabilitas data, sebuah organisasi tidak menerapkan praktik DataOps yang tepat. Observabilitas melindungi keandalan dan keakuratan produk data yang dihasilkan dan membuat data yang dapat diandalkan tersedia untuk pengguna hulu dan hilir.
DataOps mengandalkan lima pilar observabilitas data untuk memantau kualitas dan mencegah waktu henti/downtime. Dengan memantau lima pilar, tim DataOps mendapatkan gambaran umum tentang kesehatan data mereka dan dapat secara proaktif mengatasi masalah yang memengaruhi kualitas dan keandalannya. Alat bantu observabilitas terbaik harus menyertakan silsilah otomatis sehingga para insinyur dapat memahami kesehatan data organisasi di setiap titik dalam siklus.
Kapan data terakhir diperbarui? Apakah data diserap dengan cepat?
Apakah nilai data berada dalam batas yang dapat diterima? Apakah data diformat dengan benar? Apakah data konsisten?
Apakah ada data yang hilang? Apakah semua data berhasil diserap?
Apa struktur data saat ini? Apakah ada perubahan pada struktur? Apakah perubahan tersebut disengaja?
IBM watsonx.data memungkinkan organisasi untuk mengukur analitik dan AI dengan penyimpanan data yang sesuai dengan tujuan yang dibangun di atas arsitektur data lakehouse terbuka untuk mengukur beban kerja AI, menggunakan semua data Anda, di mana pun data berada.
Databand adalah perangkat lunak observabilitas untuk pipeline dan gudang data yang secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan peringatan triase untuk memperbaiki masalah kualitas data. Berikan data yang tepercaya dan andal dengan observabilitas data yang dapat diamati secara terus-menerus.
IBM Cloud Pak for Data adalah seperangkat komponen perangkat lunak terintegrasi modular untuk analisis data, organisasi, dan manajemen. Ini tersedia untuk hosting mandiri, atau sebagai layanan terkelola di IBM Cloud.
Terapkan observabilitas data proaktif dengan IBM Databand hari ini—sehingga Anda dapat mengetahui adanya masalah kesehatan data sebelum pengguna Anda menyadarinya.