Pendekatanlatensi rendah ini berbeda dari pemrosesan batch tradisional, di mana tugas dikelompokkan bersama dan dieksekusi selama waktu yang dijadwalkan. Sebaliknya, melalui streaming data real-time, pemrosesan langsung dari “data yang bergerak” berarti perusahaan dapat mengakses informasi terbaru dan terkini. Sumber data real-time meliputi:
Analisis informasi tersebut menghasilkan insight yang dapat mendukung pengambilan keputusan tepat waktu dan aplikasi real-time, termasuk kecerdasan buatan agen (AI). Manfaat tambahan dari streaming data real-time termasuk peningkatan efisiensi operasional, retensi data, manajemen risiko , dan personalisasi pelanggan.
Streaming data real time dimungkinkan oleh infrastruktur yang terdiri dari lapisan konsumsi, mesin pemrosesan real time, dan lapisan penyimpanan dan penyajian. Solusi seperti kerangka kerja sumber terbuka dan platform streaming data mendukung infrastruktur streaming real-time dan membantu perusahaan mengelola jutaan catatan secara efisien di ribuan pipeline data.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Bayangkan sebuah air mancur yang menyemburkan air. Seorang pejalan kaki yang haus berhenti dan mencoba untuk meneguk beberapa kali, tetapi air mengalir begitu kencang sehingga mereka hampir tidak bisa menelan apa pun. Sebagian besar cairan terciprat keluar dari mulut mereka, meninggalkan genangan air di kaki mereka. Untuk memuaskan dahaga mereka, mereka harus berdiri di sana sebentar — begitu lama, pada kenyataannya, sehingga mereka mungkin memutuskan upaya itu tidak sepadan sejak awal.
Itulah dilema yang dihadapi perusahaan ketika mencoba memanfaatkan kekuatan aliran informasi yang bergerak cepat—salah satu sumber intelijen bisnis yang paling berharga saat ini.
Mencoba menangkap dan memproses data menggunakan metode tradisional mirip dengan tantangan yang dihadapi pelancong yang haus di air mancur di luar kendali: Mencapai tujuan mereka, baik itu insight yang dapat ditindaklanjuti atau hidrasi yang memadai, dapat menjadi proses yang berantakan yang membutuhkan waktu yang sangat lama.
Streaming data real-time menawarkan perusahaan cara untuk memanfaatkan data real-time dengan cepat, tanpa kekacauan.
Melalui penyerapan dan pemrosesan data real-time, bisnis dapat mengambil data yang mengalir cepat dan berkelanjutan dan memasukkannya ke dalam sistem analitik real-time — yang kemudian menghasilkan insight yang tepat waktu dan dapat ditindaklanjuti. Insight real time tersebut memberikan keunggulan kompetitif dalam berbagai industri dan disiplin ilmu.
Pengecer dapat secara dinamis menyesuaikan harga berdasarkan kecerdasan langsung tentang permintaan konsumen. Bank dapat menganalisis data transaksi dan melakukan deteksi penipuan secara real time. Produsen dapat deteksi kegagalan mesin dan mengalamatnya sebelum waktu henti yang signifikan terjadi.
Ketangkasan yang dimungkinkan oleh data real-time diperkuat saat dipasangkan dengan AI agen. AI agen memanfaatkan data real-time untuk mendukung pengambilan keputusan dunia nyata yang cepat dan otonom, seperti mengidentifikasi dan menanggapi ancaman keamanan siber atau menyesuaikan rute pengiriman selama penundaan lalu lintas.
Tanpa streaming data real-time, bisnis tidak akan dapat mewujudkan manfaat ini. Sebaliknya, mereka akan mengandalkan bentuk konsumsi dan pemrosesan data tradisional yang lebih lambat.
Sebagai solusi pemrosesan data modern, streaming data real-time-dan mengelola data streaming secara keseluruhan—berbeda dengan pendekatan pemrosesan data tradisional: pemrosesan batch.
Dalam streaming data real-time, setiap titik data individu yang masuk diproses saat memasuki sistem target. Dalam pemrosesan batch, organisasi mengumpulkan dan menganalisis kumpulan data dalam batch (data batch) pada interval tetap.
Pemrosesan batch dapat mengotomatiskan beban kerja berulang, seperti pembuatan laporan rutin. Ini juga memungkinkan organisasi untuk mengoptimalkan penggunaan sumber daya dengan mengatur pekerjaan batch selama periode yang nyaman, seperti semalam, ketika sistem tidak banyak digunakan sebaliknya.
Namun, pemrosesan batch gagal dalam hal kebutuhan bisnis yang tidak sabar menunggu dijadwalkan berikutnya. Untuk perputaran yang lebih cepat, perusahaan beralih ke proses yang lebih cepat, termasuk streaming data real-time.
Perusahaan yang menggunakan streaming data real-time memiliki banyak pengalaman, termasuk:
Informasi segar dapat menghasilkan insight yang lebih akurat, terutama dalam situasi di mana bahkan data berjam-jam dapat dianggap basi, apakah itu menyangkut perawatan kesehatan atau perdagangan saham. Dengan data real-time yang masuk, bisnis juga diberdayakan untuk membuat keputusan untuk efisiensi operasional, seperti mengidentifikasi dan mengalamatkan hambatan produksi.
Terlalu sering, perusahaan menyerap dan menyimpan volume besar data yang sebenarnya tidak mereka butuhkan. “Penimbunan data” semacam itu dapat berarti akumulasi catatan duplikat yang menghabiskan ruang penyimpanan mahal, merusak proyek analisis data dan menjadi hambatan keseluruhan pada kinerja sistem.
Namun, penyaringan awal yang dimungkinkan oleh streaming data real time dapat membantu organisasi menghindari penyimpanan data yang berlebihan, mengurangi kemungkinan penimbunan data dan konsekuensinya.
Perusahaan dapat menggabungkan data streaming real-time dengan data historis untuk mendukung analisis prediktif. Bentuk analisis data holistik ini dapat mendukung contoh penggunaan seperti praktik pertanian cerdas dan pengalaman pelanggan yang dipersonalisasi.
Analisis prediktif yang didukung oleh data real-time juga dapat meningkatkan manajemen risiko: Akses ke data sensitif waktu tentang kondisi cuaca berbahaya hingga transaksi keuangan yang mencurigakan dapat membantu perusahaan menemukan dan mengurangi ancaman terhadap operasi dan keuntungan mereka.
Streaming data real-time sering digunakan secara bergantian dengan istilah “streaming peristiwa” untuk alasan yang bagus—perbedaan antara keduanya tidak kentara.
Streaming peristiwa menangkap aliran catatan yang disebut “peristiwa”—kejadian atau perubahan dalam sistem atau lingkungan—dari berbagai sumber data seperti aplikasi dan perangkat IoT, kemudian mengangkutnya untuk pemrosesan segera dan kemudian analitik atau penyimpanan. Event streams biasanya terdiri dari data waktu-nyata.
Namun, selama streaming peristiwa, pemfilteran data terjadi sebelum pergerakannya, secara signifikan mengurangi tuntutan pada sistem target. Meskipun ini dapat membuktikan manfaat utama bagi beberapa organisasi, streaming peristiwa juga dapat datang dengan kelemahan: Analisis deret waktu dan pemrosesan sinyal (manipulasi data sensor dan informasi lain untuk membuka nilai) lebih menantang untuk streaming peristiwa daripada streaming data real-time.
Terlepas dari perbedaan ini, solusi untuk streaming data real-time dan streaming peristiwa adalah sama. Platform streaming data yang dominan, seperti Apache Kafka, Amazon Kinesis dari Amazon Web Services (AWS) dan Redpanda, juga dikenal sebagai platform streaming peristiwa.
Arsitektur data yang mendukung streaming data real-time adalah arsitektur streaming, dengan komponen rekayasa data yang dirancang untuk menjaga agar data tetap bergerak dan menghindari kebekuan. Tiga komponen dasar tersebut adalah:
Berbagai sumber terus menghasilkan dan memancarkan titik data. Data yang masuk ini sering tidak terbatas, artinya dihasilkan dan terus mengalir tanpa titik akhir yang tetap. Informasi itu ditangkap oleh alat penyerapan data dengan konektor streaming dan kemudian dikirim ke prosesor. Antarmuka pemrograman aplikasi (API) juga dapat membantu mengotomatiskan transmisi data real-time dari berbagai sumber.
Dalam pemrosesan aliran (kadang-kadang disebut sebagai pemrosesan data real-time), data disaring, diperkaya, ditransformasikan, atau dianalisis saat data tiba. AI dan machine learning dapat digunakan untuk menerapkan analisis data dan membedakan pola dan insight lainnya.
Data yang diproses dikirim ke tujuan untuk penggunaan langsung (dalam aplikasi atau dasbor, misalnya) atau penyimpanan. Organisasi sering mengandalkan data lake dan data lakehouse untuk penyimpanan data streaming karena mereka dapat mengakomodasi volume data yang tinggi dengan biaya yang relatif rendah. Streaming data juga dapat disimpan di gudang data, yang menggunakan proses ETL (extract, transform, load) untuk transformasi data, organisasi dan visualisasi.
Alat streaming yang tepat dan kemampuan pemrosesan sangat penting untuk membangun saluran streaming data real-time. Ini termasuk kerangka kerja streaming sumber terbuka, platform dan alat streaming data berbasis cloud, dan solusi integrasi data.
Apache Kafka, Apache Flink, dan Apache Spark Streaming adalah kerangka kerja dan alat sumber terbuka utama untuk streaming data real-time.
Solusi streaming sumber terbuka dapat memberikan dasar untuk streaming data real-time. Namun, perusahaan sering mengandalkan penyedia cloud dan platform berbasis cloud khusus untuk dukungan tambahan untuk mengelola data streaming, membangun aplikasi streaming, dan memastikan skalabilitas.
Alat dan platform populer termasuk Amazon Kinesis, Confluent, Microsoft Azure Stream Analytics, Dataflow Google Cloud dan IBM Event Streams.
Berbagai jenis pemrosesan data memerlukan berbagai jenis alat integrasi data. Platform data streaming mencakup fitur integrasi, tetapi munculnya jenis solusi integrasi yang lebih komprehensif dapat membantu bisnis mengintegrasikan alur kerja data streaming real-time dan jenis alur kerja pemrosesan lainnya—batch dan ETL, misalnya—dalam solusi yang sama. Kemampuan ini dapat membantu mengurangi penyebaran alat.
Agar berhasil memanfaatkan streaming data real-time, akan sangat membantu untuk mempertimbangkan dan merencanakan tantangan yang melekat dalam implementasinya.
Penyerapan, pemrosesan, dan analitik data sesuai permintaan — terutama untuk volume data yang besar dan kompleks, juga dikenal sebagai data besar— adalah upaya yang mahal dan padat sumber daya. Dalam menentukan apakah akan menginvestasikan dana dan sumber daya untuk streaming data real-time, perusahaan harus menyeimbangkan biayanya terhadap biaya data basi dan pengambilan keputusan yang lebih lambat.
Toleransi kesalahan (kemampuan sistem untuk terus berfungsi meskipun ada kegagalan komponen) sangat penting untuk keberhasilan streaming data real-time. Gangguan dan waktu henti dalam sistem streaming data real-time dapat mengakibatkan hilangnya data sambil merusak kecepatan yang membedakan streaming dari metode pemrosesan lainnya.
Tampilan komprehensif ke dalam saluran data streaming diperlukan untuk menghindari kegagalan pipeline dan memastikan kinerja yang optimal. Memantau metrik kualitas data utama dan dengan cepat mengidentifikasi masalah-seperti perubahan skema dan pergeseran data-dapat membantu perusahaan memastikan integritas data dan keandalan pipeline.
Streaming data real-time dapat mencakup aliran data sensitif atau informasi identifikasi pribadi (PII) yang tunduk pada peraturan privasi data. Langkah-langkah untuk memastikan jalur pipa yang aman, termasuk enkripsi data dan kontrol akses, dapat membantu perusahaan mematuhi rezim peraturan dan menghindari pelanggaran data.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.