Apa itu pipeline data?

Dinding tirai kaca berwarna emas mal di China Hong Kong City

Penyusun

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu pipeline data?

Pipeline data adalah metode dimana data mentah dicerna dari berbagai sumber data, ditransformasikan, dan kemudian diangkut ke penyimpanan data, seperti data lake atau gudang data, untuk dianalisis.

Sebelum data mengalir ke repositori data, biasanya dilakukan beberapa pemrosesan data. Ini termasuk transformasi data, seperti penyaringan, masking, dan agregasi, yang memastikan integrasi dan standardisasi data yang tepat. Ini sangat penting ketika tujuan untuk kumpulan data adalah basis data relasional. Jenis repositori data ini memiliki skema yang ditetapkan yang membutuhkan penyesuaian—yaitu, pencocokan kolom dan jenis data—untuk memperbarui data yang ada dengan data yang baru.

Seperti namanya, pipeline data bertindak sebagai “saluran” untuk proyek ilmu data atau dasbor intelijen bisnis. Data dapat bersumber melalui berbagai tempat —API, basis data SQL dan NoSQL, file, dan lain-lain—tetapi sayangnya, data itu biasanya tidak siap untuk digunakan segera. Selama pengadaan, silsilah data dilacak untuk mendokumentasikan hubungan antara data perusahaan di berbagai aplikasi bisnis dan TI, misalnya, di mana data saat ini berada dan bagaimana data disimpan di lingkungan, seperti di lokasi, di data lake, atau di gudang data.

Tugas persiapan data biasanya berada di pundak ilmuwan data atau insinyur data, yang menyusun data untuk memenuhi kebutuhan contoh penggunaan bisnis dan menangani data dalam jumlah besar. Jenis pemrosesan data yang dibutuhkan oleh pipeline data biasanya ditentukan melalui perpaduan antara analisis data eksploratif dan kebutuhan bisnis yang telah ditentukan. Setelah data disaring, digabungkan, dan diringkas dengan tepat, data tersebut kemudian dapat disimpan dan muncul untuk digunakan. Data pipeline yang terorganisir dengan baik menyediakan dasar untuk berbagai proyek data; hal ini dapat termasuk analisis data eksploratif, visualisasi data, dan tugas-tugas machine learning.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Jenis pipeline data

Ada beberapa jenis pipeline data, masing-masing sesuai untuk tugas-tugas tertentu pada platform tertentu. Jenis umum termasuk

  • Pipa pemrosesan batch
  • Pipa data streaming
  • Pipa integrasi data
  • Pipa cloud native

Pemrosesan batch

Pengembangan pemrosesan batch merupakan langkah penting dalam membangun infrastruktur data yang dapat diandalkan dan dapat diskalakan. Pada tahun 2004, MapReduce, sebuah algoritma pemrosesan batch, dipatenkan dan kemudian diintegrasikan ke dalam sistem sumber terbuka, seperti Hadoop, CouchDB, dan MongoDB.

Seperti namanya, pemrosesan batch memuat "batch" data ke dalam repositori selama interval waktu yang ditentukan, yang biasanya dijadwalkan selama jam kerja di luar jam sibuk. Dengan cara ini, beban kerja lain tidak terpengaruh karena pekerjaan pemrosesan batch cenderung bekerja dengan volume data yang besar, yang dapat membebani sistem secara keseluruhan. Pemrosesan batch biasanya merupakan jalur data yang optimal ketika tidak ada kebutuhan mendesak untuk menganalisis kumpulan data tertentu (misalnya, akuntansi bulanan), dan ini lebih terkait dengan proses integrasi data ETL, yang merupakan singkatan dari “extract, transform, and load (ekstrak, transformasi, dan muat)."

Pekerjaan pemrosesan batch membentuk alur kerja perintah yang diurutkan, di mana output dari satu perintah menjadi input dari perintah berikutnya. Misalnya, satu perintah mungkin memulai penyerapan data, perintah berikutnya dapat memicu pemfilteran kolom tertentu, dan perintah berikutnya dapat menangani agregasi. Rangkaian perintah ini akan berlanjut hingga kualitas data benar-benar diubah dan ditulis ulang menjadi repositori data.

Data streaming

Tidak seperti pemrosesan batching, pipeline data streaming—juga dikenal sebagai arsitektur berbasis peristiwa — terus memproses peristiwa yang dihasilkan oleh berbagai sumber, seperti sensor atau interaksi pengguna dalam aplikasi. Peristiwa diproses dan dianalisis, dan kemudian disimpan dalam basis data atau dikirim ke hilir untuk dianalisis lebih lanjut.

Data streaming dimanfaatkan ketika diperlukan agar data terus diperbarui. Sebagai contoh, aplikasi atau sistem titik penjualan membutuhkan data real-time untuk memperbarui inventaris dan riwayat penjualan produk mereka; dengan begitu, penjual dapat memberi tahu konsumen apakah suatu produk tersedia atau tidak. Satu tindakan, seperti penjualan produk, dianggap sebagai "peristiwa", dan peristiwa terkait, seperti menambahkan item ke checkout, biasanya dikelompokkan bersama sebagai "topik" atau "aliran". Peristiwa ini kemudian dibawa melalui sistem pesan atau perantara pesan, seperti penawaran sumber terbuka, Apache Kafka.

Karena peristiwa data diproses sesaat setelah terjadi, sistem pemrosesan streaming memiliki latensi yang lebih rendah daripada sistem batch, tetapi tidak dapat diandalkan seperti sistem pemrosesan batch karena pesan dapat secara tidak sengaja terlewat atau menghabiskan waktu yang lama dalam antrean. Perantara pesan membantu mengatasi masalah ini melalui pengakuan, di mana konsumen mengonfirmasi pemrosesan pesan kepada broker untuk menghapusnya dari antrean.

Pipeline integrasi data

Pipeline integrasi data berkonsentrasi pada penggabungan data dari berbagai sumber ke dalam satu tampilan terpadu. Pipeline ini sering kali melibatkan proses ekstrak, transformasi, dan muat (ETL) yang membersihkan, memperkaya, atau memodifikasi data mentah sebelum menyimpannya di tempat penyimpanan terpusat seperti gudang data atau data lake. Pipeline integrasi data sangat penting untuk menangani sistem yang berbeda yang menghasilkan format atau struktur yang tidak kompatibel. Misalnya, koneksi dapat ditambahkan ke Amazon S3 (Amazon Simple Storage Service)—layanan yang ditawarkan oleh Amazon Web Services (AWS) yang menyediakan penyimpanan objek melalui antarmuka layanan web.

Pipeline data cloud native

Platform data modern mencakup rangkaian produk piranti lunak cloud-first, cloud native yang memungkinkan pengumpulan, pembersihan, transformasi, dan analisis data organisasi untuk membantu meningkatkan pengambilan keputusan. Pipeline data saat ini telah menjadi semakin kompleks dan penting untuk analitik data dan membuat keputusan berbasis data. Platform data modern membangun kepercayaan pada data ini dengan menyerap, menyimpan, memproses, dan mengubahnya dengan cara yang memastikan informasi yang akurat dan tepat waktu, mengurangi silo data, memungkinkan layanan mandiri, dan meningkatkan kualitas data.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Arsitektur pipeline data

Tiga langkah inti membentuk arsitektur pipeline data. 

1. Konsumsi data: Data dikumpulkan dari berbagai sumber—termasuk platform perangkat lunak sebagai layanan (SaaS), perangkat internet-of-things (IoT), dan perangkat mobile—dan berbagai struktur data, baik data terstruktur maupun data tidak terstruktur. Dalam data streaming, sumber data mentah ini biasanya dikenal sebagai produsen, penerbit, atau pengirim. Meskipun bisnis dapat memilih untuk mengekstrak data hanya ketika siap untuk memprosesnya, tetapi merupakan praktik yang lebih baik untuk menyimpan data mentah di dalam penyedia gudang data cloud terlebih dahulu. Dengan cara ini, bisnis dapat memperbarui data historis apa pun jika mereka perlu melakukan penyesuaian pada pekerjaan pemrosesan data. Selama proses penyerapan data ini, berbagai validasi dan pemeriksaan dapat dilakukan untuk memastikan konsistensi dan keakuratan data.

2. Transformasi data: Pada langkah ini, beberapa tugas dijalankan untuk memproses data menjadi format yang dibutuhkan oleh repositori data tujuan. Pekerjaan ini menanamkan otomatisasi dan pengelolaan untuk aliran kerja yang berulang, seperti laporan bisnis, memastikan bahwa data dibersihkan dan diubah secara konsisten. Sebagai contoh, aliran data mungkin datang dalam format JSON bersarang, dan tahap transformasi data akan bertujuan untuk membuka JSON tersebut untuk mengekstrak bidang-bidang utama untuk analisis.

3. Penyimpanan data: Data yang telah ditransformasikan kemudian disimpan dalam repositori data, di mana data tersebut dapat dipaparkan ke berbagai pemangku kepentingan. Dalam data streaming, data yang diubah ini biasanya dikenal sebagai konsumen, pelanggan, atau penerima.

Pipeline data vs. pipeline ETL

Anda mungkin menemukan bahwa beberapa istilah, seperti pipeline data dan pipeline ETL, digunakan secara bergantian dalam percakapan. Namun, Anda harus memikirkan pipeline ETL sebagai subkategori pipeline data. Kedua jenis saluran pipa ini dibedakan oleh tiga fitur utama:

  • Pipeline ETL mengikuti urutan tertentu. Seperti yang disiratkan oleh singkatan, mereka mengekstrak data, mengubah data, lalu memuat dan menyimpan data dalam repositori data. Tidak semua alur data harus mengikuti urutan ini. Faktanya, pipeline ELT (ekstrak, muat, transformasi) telah menjadi lebih populer dengan munculnya alat bantu cloud native di mana data dapat dihasilkan dan disimpan di berbagai sumber dan platform. Meskipun konsumsi data masih terjadi terlebih dahulu dengan jenis pipeline ini, transformasi apa pun diterapkan setelah data dimuat ke dalam gudang data berbasis cloud.

  • Pipeline ETL juga cenderung menyiratkan penggunaan pemrosesan batch, tetapi seperti disebutkan di atas, ruang lingkup pipa data lebih luas. Mereka juga dapat mencakup pemrosesan aliran.

  • Terakhir, meskipun kecil kemungkinannya, pipeline data secara keseluruhan tidak perlu mengalami transformasi data, seperti halnya pipeline ETL. Sangat jarang melihat pipeline data yang tidak memanfaatkan transformasi untuk mempermudah analisis data.

Contoh penggunaan pipeline data

Ketika big data terus tumbuh, manajemen data menjadi prioritas yang terus meningkat. Sementara pipeline data melayani berbagai fungsi, berikut ini adalah untuk aplikasi bisnis:

  • Analisis data eksplorasi: Ilmuwan data menggunakan analisis data eksploratif (EDA) untuk menganalisis dan menyelidiki kumpulan data serta meringkas karakteristik utamanya, yang sering kali menggunakan metode visualisasi data. Hal ini membantu menentukan cara terbaik memanipulasi sumber data untuk mendapatkan jawaban yang dibutuhkan, sehingga memudahkan ilmuwan data menemukan pola, menemukan anomali, menguji hipotesis, atau memeriksa asumsi.

  • Visualisasi data: Untuk merepresentasikan data melalui grafik umum, visualisasi data seperti bagan, plot, infografis, dan bahkan dapat berupa animasi. Tampilan visual informasi ini menyampaikan hubungan data yang kompleks dan insight berbasis data dengan cara yang mudah dipahami.

  • Machine learning: Sebuah cabang dari kecerdasan buatan (AI) dan ilmu komputer, machine learning berfokus pada penggunaan data dan algoritma untuk meniru cara manusia belajar, yang secara bertahap meningkatkan keakuratannya. Melalui penggunaan metode statistik, algoritma dilatih untuk membuat klasifikasi atau prediksi, yang mengungkap insight utama dalam proyek penambangan data.

  • Observabilitas data: Untuk memverifikasi keakuratan dan keamanan data yang digunakan, observabilitas data menggunakan berbagai alat untuk memantau, melacak, dan memperingatkan perkiraan kejadian dan anomali.
Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

Jelajahi StreamSets
IBM Databand

Temukan IBM Databand, perangkat lunak observabilitas untuk saluran data. Secara otomatis mengumpulkan metadata untuk membangun garis dasar historis, mendeteksi anomali, dan membuat alur kerja untuk memperbaiki masalah kualitas data.

Jelajahi Databand
Solusi integrasi data

Buat pipeline data yang tangguh, berkinerja tinggi, dan hemat biaya untuk kebutuhan inisiatif AI generatif Anda, analitik real-time, modernisasi gudang, dan operasional dengan solusi integrasi data IBM.

Temukan solusi integrasi data
Ambil langkah selanjutnya

Temukan IBM DataStage, alat ETL (Extract, Transform, Load) yang menawarkan antarmuka visual untuk merancang, mengembangkan, dan menerapkan pipeline data. Alat ini tersedia sebagai SaaS terkelola di IBM Cloud untuk hosting mandiri dan sebagai add-on pada IBM Cloud Pak for Data.

Jelajahi DataStage Jelajahi layanan analitik