Seperti namanya, rekayasa data AI agen adalah perpaduan rekayasa data data dan AI agen. Yang pertama adalah praktik mengembangkan dan memelihara infrastruktur data dan pipeline data integral dengan manajemen data.
Yang terakhir merujuk pada sistem kecerdasan buatan yang dapat mencapai tujuan tertentu dengan pengawasan manusia yang terbatas. Dalam kerangka kerja sistem multiagen, subtugas yang dilakukan oleh beberapa agen AI— model machine learning yang meniru pengambilan keputusan manusia—dikoordinasikan melalui orkestrasi AI.
Dalam rekayasa data, agen AI dapat melakukan proses pemecahan masalah multi-langkah yang penting untuk memastikan data berkualitas tinggi tersedia untuk contoh penggunaan perusahaan. Proses-proses ini termasuk merancang pipeline data dan melaksanakan tugas-tugas pemrosesan data penting, seperti melakukan transformasi data dan mendeteksi masalah data.
Juga dikenal sebagai rekayasa data agen, rekayasa data AI agen dapat secara signifikan mengurangi beban kerja tim rekayasa data sekaligus mengoptimalkan kinerja saluran data. Selain itu, rekayasa data AI agen dapat memberdayakan pengguna bisnis untuk mengakses dan memperoleh insight dari data perusahaan meskipun mereka tidak memiliki keterampilan teknis.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Untuk memahami mengapa sistem AI agen diadopsi untuk rekayasa data, akan sangat membantu untuk melihat lebih dekat sifat rekayasa data modern.
Rekayasa data sangat penting bagi perusahaan yang ingin membuka nilai dari ekosistem data yang makin luas dan kompleks. Insinyur data membantu menyusun dan memastikan fungsionalitas alur kerja yang mengubah data mentah menjadi output yang memberikan nilai bisnis dunia nyata. Ketika berhasil dieksekusi, rekayasa data menghasilkan pengiriman kumpulan data yang bersih, akurat, dan tepat waktu yang dapat dianalisis untuk menghasilkan insight yang dapat ditindaklanjuti atau digunakan untuk mendorong inisiatif AI.
Ketika organisasi mempercepat ketergantungan mereka pada pengambilan keputusan berbasis data, termasuk pengambilan keputusan yang sensitif terhadap waktu berdasarkan data real-time, kebutuhan akan pipeline data yang andal tidak pernah lebih besar. Namun, tantangan dalam memelihara pipeline tersebut juga tidak pernah lebih besar dari ini—para insinyur data kini ditugaskan untuk mengawasi tumpukan data dan proses orkestrasi yang makin kompleks.
Tak pelak lagi, itu berarti tim data menghabiskan banyak waktu mereka untuk "memadamkan kebakaran.” Dengan kata lain, mereka berkonsentrasi pada pemeliharaan dan pemecahan masalah untuk mengatasi masalah pipeline data dan, lebih buruk lagi, kegagalan saluran data.
“Ketika tim rekayasa data membangun pipeline, para insinyur sering bergantung pada campuran pekerjaan terjadwal, prosedur tersimpan, skrip rumit, serta logika transformasi. Dan masing-masing bekerja bersama hanya untuk menjaga agar data tetap mengalir. Kadang-kadang ketika perubahan skema tunggal atau penggantian nama kolom terjadi pada sistem sumber, ini dapat memicu berjam-jam debugging dan pengujian ulang,” Justin Yan, manajer produk senior untuk IBM Data & AI, menjelaskan dalam video Teknologi IBM.
Untungnya, agen AI sekarang dapat menerapkan untuk menangani sebagian besar pekerjaan ini—dan untuk mencegah timbulnya masalah sejak awal. Agen cerdas dapat “memecahkan masalah dalam integrasi data, membantu merencanakan, memantau, dan beradaptasi dengan tantangan data sehingga data tiba di tempat yang dibutuhkan dengan kualitas dan ketepatan waktu yang dibutuhkan beban kerja Anda,” kata Yan.
Kombinasi teknologi mendukung penerapan AI agen untuk rekayasa data.
Agen AI adalah sistem yang secara mandiri melakukan tugas dengan merancang alur kerja dengan alat yang tersedia—termasuk alur kerja data. Agen menggunakan teknik pemrosesan bahasa alami dari model bahasa besar untuk memahami dan menanggapi input pengguna secara langkah demi langkah dan untuk menentukan kapan harus memanggil alat eksternal.
Pemrosesan bahasa alami (NLP) adalah subbidang ilmu komputer dan AI yang menggunakan machine learning untuk memungkinkan komputer memahami dan berkomunikasi dengan bahasa manusia. NLP memainkan peran yang berkembang dalam solusi perusahaan yang membantu merampingkan dan mengotomatiskan operasi bisnis.
Machine learning adalah bagian dari AI yang berfokus pada algoritma yang dapat “mempelajari” pola data pelatihan. Algoritma tersebut kemudian menggunakan pengenalan pola itu untuk membuat kesimpulan yang akurat tentang data baru. Machine learning menyediakan tulang punggung sebagian besar sistem AI modern, termasuk model bahasa besar dan alat AI generatif lainnya.
Model bahasa besar (LLM) adalah jenis model pembelajaran mendalam yang mampu memahami dan menghasilkan bahasa alami dan jenis konten lainnya untuk melakukan banyak tugas. Kemampuan mereka berasal dari teknik pemrosesan bahasa alami dan pelatihan pada sejumlah besar data yang membantu mereka menangani bahasa manusia yang tidak terstruktur dalam skala besar.
Sementara penggunaan agen otonom untuk rekayasa data dapat bervariasi menurut sistem data dan tim teknik, berikut adalah ikhtisar tentang bagaimana sistem yang didukung AI dapat menangani berbagai proses dan tugas rekayasa data di seluruh siklus hidup data.
Rekayasa data AI agen memungkinkan organisasi untuk mengotomatiskan pembuatan pipeline data. Pengguna dapat menyatakan niat mereka mengenai apa yang diberikan pipeline menggunakan bahasa alami tanpa menggambarkan langkah-langkah yang diperlukan untuk mencapai hasil yang diinginkan—terserah agen AI untuk menentukan bagaimana pipeline akan bekerja. Ini dikenal sebagai penulisan pipeline deklaratif dan merupakan alternatif dari pendekatan yang lebih praktis untuk pengodean setiap langkah pipeline.
Setelah pengguna mengirimkan permintaan bahasa alami, LLM mengurai permintaan dan memahami niat pengguna. Kemudian, agen AI merancang dan sering mengimplementasikan proses end-to-end yang meliputi:
Pengguna dengan pengetahuan teknis lebih dapat memilih untuk menentukan struktur pipeline data yang mereka minta. Mereka dapat melakukannya dengan menggunakan kit pengembangan perangkat lunak Python (SDK) yang memungkinkan LLM untuk menulis dan menjalankan skrip Python berdasarkan permintaan pengguna untuk berbagai tugas terkait data, seperti memilih sumber data atau terlibat dalam pembersihan data.
Setelah pipeline dirancang, sistem AI agen dapat mengeksekusi beban kerja. Agen AI terlibat dalam panggilan alat untuk berinteraksi dengan alat eksternal, antarmuka pemrograman aplikasi (API) atau sistem yang diperlukan untuk menghubungkan ke sumber data, memahami metadata, dan melakukan transformasi.
Agen juga memilih jalur eksekusi optimal untuk alur kerja data di seluruh lingkungan hybrid. Ini termasuk secara dinamis memilih pendekatan Integrasi terbaik (streaming real-time, batch ETL/ELT atau replikasi) dan lingkungan waktu proses (on premises, di lingkungan cloud atau melalui pushdown dan mesin jarak jauh) untuk setiap bagian pekerjaan.
Pembelajaran penguatan dapat membantu agen meningkatkan rencana pipeline dari waktu ke waktu dengan memberi penghargaan pada proses pipeline yang dikonfigurasi dan diselesaikan dengan benar.
Sistem agen dapat memungkinkan observabilitas dengan terus memantau pipeline. Agen dapat deteksi penyimpangan skema, anomali data, dan masalah kualitas data. Mereka juga dapat mendukung analisis akar masalah untuk masalah pipeline, merekomendasikan langkah-langkah remediasi dan menjalankan langkah-langkah tersebut.
Eksekusi perbaikan pipeline secara otonom dapat sangat membantu pada saat-saat yang tidak nyaman. “Bagaimana jika pekerjaan malam gagal? Alih-alih menghubungi seseorang, agen dapat mencoba lagi proses, meningkatkan mesin dan menyesuaikan logika aliran secara otomatis,” IBM Product Manager John Wen menjelaskan dalam video Teknologi IBM.
Rekayasa data AI agen memberikan sejumlah manfaat bagi organisasi, tim data mereka, dan pengguna bisnis mereka. Yaitu antara lain:
Tantangan mendasar yang dihadapi insinyur data saat ini adalah memperebutkan data di lingkungan yang kompleks dan terkotak-kotak: berbagai cloud, gudang data, data lake, server lokal, dan banyak lagi. Beberapa data diatur dalam spreadsheet dan database SQL , tetapi sebagian besar tidak terstruktur dalam dokumen, email, transkrip, dan gambar. Dalam sistem perusahaan, agen AI dapat terhubung ke berbagai sumber data dan mengintegrasikan berbagai format data, menciptakan platform data terpadu yang memungkinkan analitik yang lebih kaya dan forecasting yang lebih akurat.
Agen AI dapat mengotomatiskan profil data, validasi data, pembuatan aturan, pemantauan, dan remediasi. "Para agen akan dapat mendeteksi perubahan kolom atau ketidaksesuaian jenis secara dini dan mengusulkan perbaikan sebelum pekerjaan gagal. Pemeriksaan terus-menerus untuk anomali, pengisian ulang otomatis, dan pengalihan di sekitar sumber data yang gagal akan membantu menjaga data tetap dapat dipercaya untuk penggunaan hilir dalam sistem AI,” Yan menjelaskan.
Agen AI dapat mengevaluasi strategi eksekusi yang berbeda dan mengidentifikasi potensi hambatan dan komplikasi, seperti dependensi tersembunyi di tumpukan aplikasi yang berbeda. Dengan memasukkan informasi ini ke dalam desain pipeline, mereka dapat menyusun rencana yang meminimalkan konsumsi sumber daya dan waktu operasional sambil tetap mencapai tujuan data.
Selain itu, ketika infrastruktur atau skema berubah, sistem agen dapat menyesuaikan dan menggunakan kembali pipeline yang ada, membantu perusahaan menghindari akumulasi pipeline usang dan hutang teknis.
Desain pipeline dan pemantauan berkelanjutan oleh agen AI dapat memastikan bahwa data sensitif patuh dengan undang-undang privasi data seperti Undang-Undang Portabilitas dan Akuntabilitas Asuransi Kesehatan AS tahun 1996 (HIPAA) dan Peraturan Perlindungan Data Umum Uni Eropa (GDPR). Selain itu, pelacakan silsilah oleh agen AI dapat mendukung transparansi dan auditabilitas.
Pengguna bisnis dengan keahlian teknis minimal atau tanpa keahlian teknis tidak lagi harus bergantung secara eksklusif pada profesional data untuk membantu mereka memenuhi kebutuhan data mereka. Mereka dapat meminta pembuatan atau pengiriman kumpulan data dari agen AI daripada menunggu bantuan dari praktisi data, membantu mereka mencapai insight lebih cepat.
Agen AI dapat merancang, membangun, dan menjalankan pipeline data yang berfungsi penuh dalam sepersekian waktu yang dibutuhkan tim data untuk membuat kode pipeline tersebut secara manual. Agen AI juga dapat membuat pipeline ini mudah beradaptasi dan “penyembuhan mandiri” — yaitu, mereka dapat memantau dan mengatasi masalah sebelum mengganggu proses hilir. Secara keseluruhan, ini berarti perusahaan dapat dengan percaya diri melanjutkan menambahkan pipeline saat data estate dan kebutuhan data mereka tumbuh dan berkembang.
Dengan mengalihkan tugas desain pipeline, pemeliharaan, dan pemecahan masalah ke sistem AI agen, para insinyur data dapat meningkatkan produktivitas mereka dan mendapatkan lebih banyak bandwidth untuk mengejar tugas-tugas bernilai tinggi dan pekerjaan yang berarti, seperti membangun dan mengujicobakan kemampuan baru.
Seperti contoh penggunaan AI lainnya, perusahaan harus mempertimbangkan beberapa tantangan potensial saat mereka berusaha menerapkan AI agen untuk rekayasa data.
Solusi dan platform perangkat lunak dapat membantu perusahaan mengatasi tantangan menggabungkan AI agen, termasuk sistem berbasis AI untuk rekayasa data, ke dalam alur kerja sehari-hari.
Alat tata kelola AI yang kuat memungkinkan menanamkan pembatas untuk membatasi perilaku agen yang tidak diinginkan dan penerapan metrik khusus untuk mengevaluasi kinerja agen. Solusi orkestrasi AI dapat membantu menjembatani kesenjangan antara teknologi AI canggih dan sistem perusahaan lama tanpa rekayasa ulang yang berlarut-larut.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.