Cara membangun strategi data untuk mendukung aplikasi AI generatif Anda

Dinding layar melengkung besar di ruangan gelap

AI Generatif, juga dikenal sebagai gen AI, adalah kecerdasan buatan (AI) yang dapat menghasilkan teks, gambar, video, audio, dan bahkan kode perangkat lunak sebagai respons terhadap permintaan pengguna. Saat ini, organisasi mengantre untuk membangun aplikasi AI generatif baru, tetapi mereka sering mengabaikan langkah-langkah yang diperlukan untuk menyusun strategi data yang efektif yang mendukungnya.

Model AI generatif—program komputer yang telah dilatih untuk membuat keputusan serupa dengan otak manusia—membutuhkan volume data yang sangat besar untuk dilatih. Dan sementara organisasi mungkin memiliki ide cemerlang untuk sebuah aplikasi, jika data yang mendasarinya tidak ditangani dengan benar, aplikasi bisa gagal.

Dari biaya pengumpulan dan pemrosesan data, hingga infrastruktur mendasar yang diperlukan untuk menyimpannya dengan aman, hingga persyaratan tata kelola data yang berkembang, penting bagi organisasi untuk mengambil pendekatan strategis agar aplikasi berhasil.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

ChatGPT dan dorongan untuk aplikasi bisnis AI generatif baru

Pada tahun 2022, peluncuran ChatGPT memulai era baru inovasi dalam AI generatif, yang mendorong organisasi untuk mencari cara memanfaatkan teknologi untuk aplikasi bisnis. ChatGPT adalah chatbot AI, dilatih pada model bahasa besar (LLM), yang berinteraksi dengan pengguna dalam gaya percakapan. Sejak diluncurkan, berbagai organisasi telah berupaya menerapkan teknologi yang mendasarinya ke berbagai masalah bisnis, termasuk otomatisasi, peningkatan produktivitas, dan insight konsumen.

Berbagai risiko dan tantangan telah menjadi jelas juga. Di bidang medis, misalnya, meskipun telah membantu mengotomatiskan diagnosis tertentu, itu juga meningkatkan masalah privasi dan keamanan.1 Selain itu, kondisi yang dikenal sebagai halusinasi AI tetap ada, menyebabkan beberapa model AI generatif ‘mengarang’ fakta ketika mereka tidak dapat menemukan jawaban dari sebuah pertanyaan.

Namun, sementara masalah ini—dan masalah lainnya—masih terus ada, organisasi dari berbagai ukuran dan industri terus berinvestasi besar-besaran di bidang ini, mencari cara baru untuk memanfaatkan kekuatannya. Menurut Menlo Ventures, dari tahun 2022 hingga 2023, investasi perusahaan dalam AI generatif meningkat enam kali lipat, dari 2,3 miliar menjadi 13,8 miliar USD.

Akademi AI

Bangkitnya AI generatif untuk bisnis

Pelajari tentang sejarah kebangkitan AI generatif dan apa pengaruhnya bagi bisnis.

Aplikasi AI generatif membawa tantangan baru pada infrastruktur AI

Infrastruktur AI adalah istilah yang menggambarkan solusi perangkat keras dan perangkat lunak yang diperlukan untuk membangun aplikasi AI. Di era AI generatif, infrastruktur AI harus berkembang untuk memenuhi tuntutan yang lebih tinggi pada sumber daya komputasi, kapasitas penyimpanan data, bandwidth dan lebih banyak yang terkait dengan teknologi ini. Tetapi organisasi sangat terburu-buru untuk menerapkan aplikasi AI generatif baru, mereka terkadang mengabaikan kebutuhan AI dan infrastruktur data.

Ketika organisasi berusaha memanfaatkan AI generatif dan semua potensinya untuk tujuan bisnis, mereka harus memikirkan kembali aspek-aspek kunci dari pendekatan mereka terhadap infrastruktur dan strategi data.

Mengonversi data tidak terstruktur menjadi data terstruktur

Untuk membangun aplikasi bisnis AI generatif yang sukses, organisasi biasanya membutuhkan kombinasi data terstruktur dan tidak terstruktur. Data terstruktur, juga dikenal sebagai data kuantitatif, adalah data yang sebelumnya telah diformat sehingga dapat dengan mudah diproses oleh algoritma machine learning (ML) yang mendukung aplikasi AI generatif.

Menggunakan model ML canggih, algoritma menyimulasikan cara manusia belajar dari sejumlah besar data (kumpulan data) hingga mereka dapat memahami pertanyaan tentang data dan merespons dengan membuat konten baru.

Sementara beberapa data yang dikumpulkan oleh perusahaan sudah terstruktur (misalnya, informasi pelanggan dan keuangan seperti nama, tanggal, dan jumlah transaksi), sejumlah besar data tidak terstruktur. Data tidak terstruktur, juga dikenal sebagai data kualitatif, adalah data yang tidak memiliki format yang telah ditentukan sebelumnya. Data tidak terstruktur memiliki cakupan yang luas dan dapat mencakup file video, audio, dan teks dari email, halaman web, akun media sosial, dan sensor Internet of Things (IoT ). .

Ketika ekonomi digital berkembang, jumlah data tidak terstruktur yang dikumpulkan oleh perusahaan tumbuh pada tingkat eksponensial. Menurut Forbes, 80% hingga 90% data yang dikumpulkan oleh perusahaan tidak terstruktur. Data yang tidak terstruktur tidak cocok untuk tujuan ML dan harus diubah sebelum dapat digunakan untuk melatih model AI.

Mengonversi data yang tidak terstruktur menjadi data yang dapat diproses oleh komputer dan digunakan untuk tujuan bisnis melibatkan ekstraksi informasi yang relevan dan mengaturnya ke dalam format yang ditetapkan. Volume dan kompleksitas data menciptakan tantangan, dan lingkungan manajemen data yang menantang serta kepatuhan terhadap undang-undang tata kelola data dapat menjadi mahal.

Menavigasi dunia tata kelola data yang kompleks

Tata kelola data adalah praktik yang membantu memastikan kualitas, keamanan, dan ketersediaan data milik organisasi melalui serangkaian kebijakan dan prosedur. Munculnya AI generatif dan big data telah membawa tata kelola data dan semua persyaratannya ke garis depan perusahaan modern.

AI generatif, dengan kapasitasnya untuk membuat konten baru berdasarkan data yang telah dilatihnya, menciptakan tuntutan baru dalam pengumpulan, penyimpanan, dan pemrosesan data yang aman dan sah.

Kualitas

Karena model AI generatif dilatih pada kumpulan data besar, data dalam kumpulan tersebut harus memiliki kualitas tertinggi, dan integritasnya harus tidak perlu dipertanyakan lagi. Tata kelola data memainkan peran penting dalam membantu memastikan bahwa kumpulan data yang dilatih model AI generatif akurat dan lengkap, komponen kunci dalam menghasilkan jawaban yang dapat diandalkan.

Kepatuhan

Tergantung pada industri dan lokasi, aplikasi bisnis AI generatif menghadapi lingkungan kepatuhan yang ketat dalam bagaimana data dapat digunakan. Aturan GDPR (General Data Protection Regulation), misalnya, mengatur bagaimana data milik penduduk UE dapat digunakan oleh organisasi. Pelanggaran berakibat pada denda dan hukuman berat ketika informasi pelanggan dikompromikan dengan cara apa pun.

Pada tahun 2021, Google dan beberapa perusahaan lain didenda lebih dari satu miliar dolar karena melanggar aturan perlindungan data yang ditetapkan dalam GDPR.

Transparansi

Agar aplikasi AI generatif menjadi efektif, asal datanya dan cara data telah diubah untuk penggunaan bisnis harus ditetapkan dan terlihat dengan jelas. Tata kelola data membantu memastikan bahwa dokumentasi tersedia, dan transparan bagi pengguna, pada setiap langkah siklus hidup data, mulai dari pengumpulan, penyimpanan, pemrosesan, dan keluaran, sehingga pengguna memahami cara jawaban dihasilkan.

Praktik terbaik untuk membangun strategi data yang mendukung aplikasi AI generatif

Keberhasilan aplikasi AI generatif tergantung pada memiliki strategi dan infrastruktur data yang tepat untuk mendukungnya. Berikut adalah beberapa praktik terbaik untuk membantu memastikan kesuksesan.

Mulailah dengan pertanyaan bisnis spesifik yang perlu dijawab oleh organisasi Anda

Karena sifat data yang tidak terstruktur—dari mana asalnya, bagaimana data itu dikumpulkan dan disimpan—organisasi cenderung mengumpulkan terlalu banyak data.

Tapi itu tidak berarti itu semua akan berguna untuk aplikasi AI generatif. “Mulailah dengan sebuah pertanyaan”, saran Margaret Graves, Senior Fellow di IBM Center for the Business of Government. “Tidak harus hanya satu pertanyaan, itu bisa beberapa, tetapi cobalah untuk fokus pada cara-cara spesifik aplikasi yang ingin Anda bangun akan memajukan dan mendukung misi Anda.”

Sejak debut ChatGPT pada tahun 2022, perusahaan telah terburu-buru untuk menerapkan AI generatif ke berbagai masalah bisnis, termasuk meningkatkan produktivitas, mengidentifikasi insight, dan mempercepat transformasi digital. Meskipun ini tentu saja merupakan area yang dapat ditangani oleh teknologi, hal itu sangatlah luas dan dapat menyebabkan organisasi membangun aplikasi yang tidak memiliki tujuan khusus.

Semakin spesifik masalah bisnis, semakin mudah untuk mengidentifikasi kumpulan data relevan yang Anda perlukan untuk melatih model AI generatif Anda dan jenis infrastruktur AI yang Anda perlukan untuk mendukung proses tersebut.

Buat strategi yang membantu memastikan bahwa aplikasi Anda memiliki data yang dibutuhkan

Setelah organisasi memutuskan pertanyaan bisnis mana yang ingin difokuskan pada aplikasi AI generatif, mereka dapat mulai melihat kumpulan data yang relevan untuk melatih model AI-nya. Graves menyamakan bagian proses ini dengan melihat spektrum. “Di satu sisi,” katanya, “Anda memiliki data internal eksklusif yang sangat rahasia yang Anda butuhkan untuk melatih model Anda. Di sisi lain, Anda memiliki data yang lebih umum yang bukan data eksklusif tetapi akan membantu aplikasi Anda berkinerja lebih baik.

Dunia RFP (Permintaan Proposal) adalah contoh yang baik karena merupakan salah satu contoh penggunaan bisnis yang paling menarik dari AI generatif yang muncul dalam beberapa tahun terakhir. Perusahaan B2B yang ingin membangun aplikasi AI generatif untuk membantu mengotomatiskan aspek proses RFP-nya perlu melatih data internal atau tidak akan dapat menyajikan kemampuan unik bisnis. Tetapi model AI generatif yang sama juga perlu melatih data yang lebih umum, seperti cara menyusun kalimat dan menyusun jawabannya secara tata bahasa, atau tanggapannya tidak masuk akal.

“Kedua aspek ini perlu disatukan dalam strategi data Anda, kumpulan data umum yang luas dan juga kumpulan data internal yang lebih eksklusif,” kata Graves. “Jika tidak, Anda hanya membangun alat dan melemparkan banyak data ke sana dan melihat apa yang terjadi, yang membuang uang dan waktu.”

Manfaatkan data khusus domain jika memungkinkan

Menggunakan data khusus domain, data yang relevan dengan industri atau bidang tertentu, dapat membantu bisnis membuat model AI yang lebih fokus pada kebutuhan bisnis khusus mereka. “Ada penekanan pada data khusus domain saat ini ketika harus melatih model AI, misalnya di bidang keuangan atau SDM,” kata Jason Prow, Mitra Senior di IBM Consulting. “Dengan semua data yang ada di luar sana, mengatur model Anda di sekitar domain tertentu menjadi sangat penting.”

Memanfaatkan data domain dalam pembuatan model AI membantu menyesuaikan model dengan cara yang dapat membuatnya lebih sesuai untuk kebutuhan bisnis tertentu. Model khusus domain lebih akurat dan relevan dengan kebutuhan pengguna dan dapat menghasilkan kinerja keseluruhan yang lebih baik dari aplikasi AI generatif terkait.

Data khusus domain dapat bersifat teknis dan kompleks, sehingga organisasi yang ingin memanfaatkan data ini perlu mempertimbangkan untuk menambahkan “semantik” nantinya, yaitu lapisan abstraksi dalam model AI mereka untuk membantu menerjemahkan data tersebut. “Industri farmasi khususnya melakukan banyak deskripsi semantik”, kata Anthony Vachino, Associate Partner, IBM Consulting. “Beberapa perusahaan yang berbeda melakukan uji coba yang berbeda, dan lapisan semantik yang mendeskripsikannya dengan cara yang dapat membantu membuat riset lebih dapat dimanfaatkan untuk perusahaan lain sehingga mereka tidak perlu mereplikasinya.

Tempatkan infrastruktur data Anda secara strategis

Baik mempersiapkan perubahan geopolitik yang dapat mengganggu rantai pasokan atau bencana alam yang mengancam infrastruktur penting, para pemimpin data modern mulai mempertimbangkan lebih dari sekadar bakat dan biaya ketika memilih tempat untuk menyimpan dan mengakses data. Menurut IBM Institute of Business Value, 60% pemimpin pemerintah percaya frekuensi rantai pasokan dan guncangan infrastruktur akan meningkat di masa depan, sementara 70% percaya bahwa mereka akan meningkat intensitasnya.

Daerah yang berbeda memiliki keunggulan yang berbeda, dan hal-hal seperti bakat, ekosistem data dan infrastruktur, tata kelola dan faktor geopolitik semuanya perlu dipertimbangkan. Para eksekutif mulai memberi perhatian: Tahun lalu, menurut laporan IBV yang sama, hampir 70% eksekutif yang disurvei mengatakan mereka memperkirakan AI akan mengubah penempatan sumber daya utama mereka, persentase itu melonjak menjadi 96% tahun ini.

Dan Chenok, Executive Director IBM Center for the Business of Government, tertarik pada potensi penggunaan data terdistribusi dalam melatih model AI generatif karena memungkinkan data disimpan dan diakses di lebih dari satu lokasi. “Data terdistribusi memungkinkan Anda untuk melatih model pada data yang berada di beberapa lokasi”, katanya, “sementara keamanan dan peraturan dipertahankan melalui kontrol akses.”

Mendukung aplikasi AI generatif membutuhkan pendekatan hybrid yang terbuka

Solusi hybrid modern membantu organisasi membangun model AI yang lebih cocok untuk memecahkan masalah bisnis tertentu, menghemat uang, waktu, dan sumber daya penting lainnya. “Ketika Anda mengintegrasikan beberapa platform, Anda dapat memberikan layanan yang lebih baik, terutama jika Anda adalah perusahaan yang bekerja di beberapa lokasi”, tambah Chenok. “Dan solusi terbaik membantu Anda mengintegrasikan seluruhnya sehingga aplikasi Anda dapat berjalan dengan baik.” 

Data lakehouse hybrid terbuka memberi pengguna kemampuan untuk berbagi data di infrastruktur cloud dan on premises, di mana pun data berada, sehingga dapat diakses oleh aplikasi AI generatif. Data lakehouses adalah platform yang menggabungkan aspek gudang data dan data lake menjadi satu solusi manajemen data yang terpadu.

Data lake adalah solusi penyimpanan data berbiaya rendah yang dibangun untuk menangani sejumlah besar data terstruktur dan tidak terstruktur, dan gudang data adalah sistem yang mengumpulkan data dari berbagai sumber ke dalam satu lokasi sehingga dapat dianalisis. Meskipun tidak dapat diskalakan seperti data lake atau gudang data, data lakehouse cenderung lebih efisien, berkinerja lebih tinggi, dan mampu mendukung berbagai beban kerja yang lebih luas.

Untuk perusahaan yang mencari solusi yang lebih komprehensif, platform seperti Databricks, Snowflake, dan Amazon RedShift menjadi lebih populer karena kompleksitas penyiapan data untuk AI generatif serta pengembangan dan penerapan aplikasi. Solusi komprehensif membantu manajemen data, pelatihan model, dan penerapan solusi, memungkinkan organisasi meluncurkan aplikasi AI generatif dengan skalabilitas dan tata kelola bawaan untuk berbagai contoh penggunaan.

IBM watsonx.data adalah penyimpanan data yang sesuai dengan kebutuhan yang dibangun di atas data lakehouse terbuka yang meningkatkan skalabilitas beban kerja AI generatif. Pendekatan yang terbuka, hybrid, dan dibangun untuk tujuan khusus meningkatkan integrasi dengan berbagai jenis database, memungkinkan perusahaan memanfaatkan data yang tersebar di berbagai ekosistem dan lingkungan, dan tidak terkunci dalam satu wilayah atau seperangkat aturan.

 

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung