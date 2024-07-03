Organisasi perlu fokus membangun fondasi data yang terbuka dan tepercaya untuk memastikan akses terhadap data andal bagi AI. Keterbukaan menciptakan dasar untuk menyimpan, mengelola, mengintegrasikan, dan mengakses data melalui kemampuan yang mencakup penerapan hybrid cloud, penyimpanan, format data, mesin kueri, tata kelola, dan metadata. Pendekatan ini memudahkan integrasi dengan investasi teknologi yang sudah ada, menghilangkan silo data, dan mempercepat transformasi berbasis data.

Menciptakan fondasi data tepercaya memungkinkan pengelolaan data dan metadata yang berkualitas tinggi, andal, aman, dan terkelola sehingga dapat digunakan untuk aplikasi analitik dan AI sambil memenuhi kebutuhan privasi dan kepatuhan regulasi. Empat komponen berikut membantu membangun fondasi data yang terbuka dan tepercaya.

1. Memodernisasi infrastruktur data Anda menjadi hybrid cloud untuk aplikasi, analitik, dan gen AI

Mengadopsi strategi multicloud dan hybrid kini menjadi keharusan, menuntut basis data yang mendukung penerapan fleksibel di hybrid cloud. Gartner memprediksi bahwa 95% (tautan berada di luar ibm.com) inisiatif digital baru akan dikembangkan pada platform cloud-native, yang penting bagi teknologi AI yang membutuhkan penyimpanan data dan skalabilitas besar.

2. Memberdayakan aplikasi berbasis data, analitik, dan AI dengan basis data yang tepat dan strategi open data lakehouse

Untuk menyimpan dan menganalisis data, Anda perlu menggunakan basis data yang tepat sesuai beban kerja, tipe data, dan kinerja harga. Ini memastikan fondasi data Anda dapat berkembang mengikuti kebutuhan, di mana pun data berada. Strategi data Anda harus mencakup basis data yang dibangun dengan komponen terbuka dan terintegrasi, memungkinkan penyatuan dan akses data secara mulus untuk analitik lanjutan dan aplikasi AI dalam platform data. Dengan demikian, organisasi Anda dapat mengekstrak insight bernilai dan mendorong pengambilan keputusan yang lebih tepat.

Misalnya, organisasi memerlukan basis datatransaksional yang berkinerja tinggi, aman, dan tangguh untuk mengelola data operasional paling penting. Dengan kemampuan hybrid cloud, mereka dapat memanfaatkan basis data tersebut untuk memodernisasi aplikasi lama, membangun aplikasi cloud-native baru, serta mendukung asisten AI dan aplikasi perusahaan.

Seiring bertambahnya jenis data dan aplikasi, Anda mungkin memerlukan basis data NoSQL khusus untuk menangani struktur data yang beragam dan kebutuhan aplikasi tertentu. Ini mencakup basis data deret waktu, dokumentasi, pesan, key-value, pencarian teks lengkap, dan basis data dalam memori, yang mendukung berbagai kebutuhan seperti IoT, manajemen konten, dan aplikasi geospasial.

Untuk memperkuat beban kerja AI dan analitik di seluruh basis data transaksional maupun basis data khusus, Anda perlu memastikan semuanya terintegrasi dengan lancar bersama dengan arsitektur data lakehouse terbuka tanpa duplikasi atau proses ekstraksi, transformasi, dan pemuatan (ETL) tambahan. Dengan data lakehouse terbuka, Anda dapat mengakses satu salinan data di mana pun data tersebut berada.

Data lakehouse terbuka mendukung berbagai format terbuka (seperti Apache Iceberg melalui cloud object storage) dan menggabungkan data dari berbagai sumber dan repositori di seluruh hybrid cloud. Data lakehouse dengan kinerja harga terbaik juga memungkinkan pemisahan penyimpanan dan komputasi, penggunaan beberapa mesin kueri sumber terbuka, serta integrasi dengan analytics engine lain untuk mengoptimalkan beban kerja demi kinerja dan efisiensi biaya yang lebih tinggi.

Ini mencakup integrasi dengan mesin gudang data Anda, yang kini harus menyeimbangkan pemrosesan data real-time dan pengambilan keputusan dengan penyimpanan objek yang hemat biaya, teknologi sumber terbuka, serta lapisan metadata bersama untuk berbagi data dengan lancar bersama dengan data lakehouse Anda. Dengan arsitektur data lakehouse terbuka, Anda dapat mengoptimalkan beban kerja gudang data untuk kinerja dan biaya, sekaligus memodernisasi data lakehouse tradisional dengan kinerja lebih baik dan tata kelola yang mendukung AI.

Perusahaan juga mungkin memiliki petabyte, bahkan exabyte, data kepemilikan berharga yang tersimpan di mainframe dan perlu dibuka untuk memperoleh insight baru dan mengembangkan model AI/ML. Dengan data lakehouse yang mendukung sinkronisasi data antara mainframe dan format terbuka seperti Iceberg, organisasi dapat lebih efektif mengidentifikasi penipuan, memahami perilaku konstituen, serta membangun model AI untuk memahami, mengantisipasi, dan memengaruhi hasil bisnis tingkat lanjut.

Sebelum membangun AI generatif tepercaya bagi bisnis Anda, Anda memerlukan arsitektur data yang tepat untuk menyiapkan dan mengubah jenis data berbeda menjadi data berkualitas. Untuk AI generatif, fondasi data yang baik dapat mencakup beragam knowledge store, seperti basis data NoSQL untuk percakapan, basis data transaksional untuk data kontekstual, arsitektur data lakehouse untuk mengakses dan menyiapkan data bagi AI dan analitik, serta kemampuan penyimpanan dan pengambilan embedding vektor untuk retrieval-augmented generation (RAG) (RAG). Lapisan metadata bersama dan tata kelola yang mengatur katalog serta garis keturunan data memungkinkan terciptanya output AI yang andal.

3. Membangun fondasi kepercayaan: Kualitas data dan tata kelola untuk AI perusahaan

Karena organisasi semakin bergantung pada kecerdasan buatan (AI) untuk mendukung pengambilan keputusan penting, kualitas data dan tata kelola menjadi sangat krusial. Menurut Gartner, 30% proyek AI generatif diperkirakan akan ditinggalkan pada 2025 akibat kualitas data yang buruk, kontrol risiko yang lemah, biaya yang meningkat, atau nilai bisnis yang tidak jelas. Dampak penggunaan data berkualitas rendah sangat luas, mulai dari hilangnya kepercayaan pelanggan hingga ketidakpatuhan regulasi serta kerugian finansial dan reputasi.

Manajemen kualitas data yang efektif sangat penting untuk mengurangi risiko tersebut. Strategi arsitektur data yang dirancang dengan baik menjadi kunci untuk mencapainya. Data fabric menyediakan kerangka kerja yang kuat bagi para pemimpin data untuk melakukan profil data, merancang dan menerapkan aturan kualitas data, mendeteksi pelanggaran kualitas, membersihkan, dan memperkaya data. Pendekatan ini memastikan inisiatif kualitas data menghasilkan akurasi, aksesibilitas, ketepatan waktu, dan relevansi.

Selain itu, data fabric memungkinkan pemantauan berkelanjutan atas kualitas data melalui kemampuan observabilitas, sehingga organisasi dapat mengidentifikasi masalah sebelum berkembang menjadi persoalan yang lebih besar. Transparansi terhadap aliran data ini juga membantu pemimpin data dan AI mengenali potensi isu dan memastikan data yang tepat digunakan untuk pengambilan keputusan.

Dengan memprioritaskan kualitas dan tata kelola data, organisasi dapat membangun kepercayaan pada sistem AI, meminimalkan risiko, dan memaksimalkan nilai data mereka. Penting disadari bahwa kualitas data bukan sekadar masalah teknis, tetapi kebutuhan bisnis yang memerlukan perhatian dan investasi. Dengan mengadopsi strategi arsitektur data yang tepat, organisasi dapat membuka potensi penuh inisiatif AI mereka dan mendorong kesuksesan bisnis.

4. Mengelola dan mengirimkan data untuk AI

Data sangat penting bagi AI, mulai dari membangun model dengan kumpulan data yang tepat, menyetel model AI menggunakan data perusahaan yang spesifik industri, hingga memanfaatkan embedding vektor untuk membangun aplikasi RAG (seperti chatbot, sistem rekomendasi yang dipersonalisasi, dan pencarian kesamaan gambar).

Data yang tepercaya dan terkelola dengan baik sangat penting untuk memastikan akurasi, relevansi, dan presisi AI. Untuk membuka nilai penuh data bagi AI, perusahaan harus mampu menavigasi lingkungan TI mereka yang kompleks, memecah silo data, menyatukan data, serta menyiapkan dan menyediakan data tepercaya yang terkelola dengan baik bagi model dan aplikasi AI mereka.

Dengan arsitektur data lakehouse berbasis format terbuka yang terhubung ke data penting di data estate Anda (termasuk gudang data, danau data, dan lingkungan mainframe), Anda dapat menggunakan satu salinan data perusahaan untuk membangun dan melakukan tuning model serta aplikasi AI.

Dengan lapisan semantik, Anda dapat memperkaya data sehingga klien dapat menemukan dan memahami data yang sebelumnya tersembunyi dan terstruktur secara efektif di seluruh data estate melalui pencarian semantik dalam bahasa alami. Ini mempercepat penemuan data dan membuka insight lebih cepat tanpa perlu menggunakan SQL.

Dengan menggunakan basis data vektor yang tertanam langsung dalam lakehouse, Anda dapat menyimpan dan mengkueri data dengan lancar sebagai embedding vektor untuk contoh penggunaan RAG, sehingga meningkatkan relevansi dan ketepatan output AI.