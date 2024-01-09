Tag
Analisis Kecerdasan Buatan

Pentingnya penyerapan dan integrasi data untuk AI perusahaan

Kolega wanita dan pria menulis ide pada catatan tempel

Munculnya AI generatif mendorong beberapa perusahaan terkemuka untuk membatasi penggunaannya karena kesalahan penanganan data internal yang sensitif. Menurut CNN, beberapa perusahaan memberlakukan larangan internal pada alat AI generatif sementara mereka berusaha untuk lebih memahami teknologi ini dan banyak juga yang memblokir penggunaan ChatGPT internal.

Perusahaan masih sering menerima risiko penggunaan data internal ketika menjelajahi model bahasa besar (LLM) karena data kontekstual inilah yang memungkinkan LLM untuk berubah dari tujuan umum menjadi pengetahuan khusus domain. Dalam AI generatif atau siklus pengembangan AI tradisional, konsumsi data berfungsi sebagai titik masuk. Di sini, data mentah yang disesuaikan dengan kebutuhan perusahaan dapat dikumpulkan, diproses sebelumnya, disamarkan, dan diubah ke dalam format yang sesuai untuk LLM atau model lainnya. Saat ini, tidak ada proses standar yang tersedia untuk mengatasi tantangan konsumsi data, tetapi akurasi model bergantung pada proses tersebut.

Buletin industri

Berita teknologi terbaru, didukung oleh insight dari pakar

Ikuti perkembangan tren industri yang paling penting—dan menarik—di bidang AI, otomatisasi, data, dan lainnya dengan buletin Think. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

4 risiko data ditanamkan dengan buruk

  1. Pembuatan informasi yang salah: Ketika dilatih pada data yang terkontaminasi (data yang berisi kesalahan atau ketidakakuratan), LLM dapat menghasilkan jawaban yang salah, yang mengarah pada pengambilan keputusan yang lemah dan potensi masalah berjenjang.
  2. Peningkatan varians: Varians mengukur konsistensi. Data yang tidak memadai dapat menyebabkan jawaban yang berbeda-beda dari waktu ke waktu atau outlier yang menyesatkan, terutama yang berdampak pada kumpulan data yang lebih kecil. Varians tinggi dalam suatu model dapat mengindikasikan bahwa model tersebut bekerja dengan data pelatihan tetapi tidak memadai untuk contoh penggunaan industri di dunia nyata.
  3. Cakupan data terbatas dan jawaban tidak representatif: Ketika sumber data terbatas, homogen, atau mengandung duplikat yang salah, kesalahan statistik seperti bias pengambilan sampel dapat menyimpangkan semua hasil. Hal ini dapat menyebabkan model mengecualikan seluruh area, departemen, demografi, industri, atau sumber dari percakapan.
  4. Tantangan dalam memperbaiki data yang bias: Jika data bias sejak awal, "satu-satunya cara untuk menghapus sebagian data tersebut secara retroaktif adalah dengan melatih kembali algoritma dari awal." Sulit bagi model LLM untuk menemukan kembali jawaban yang berasal dari data yang tidak representatif atau terkontaminasi ketika data tersebut telah divektorisasi. Semua model ini cenderung memperkuat pemahaman mereka berdasarkan jawaban yang dipahami sebelumnya.

Penyerapan data harus dilakukan dengan benar sejak awal, karena salah penanganan dapat menyebabkan sejumlah masalah baru. Pekerjaan dasar pada data pelatihan dalam model AI sebanding dengan mengemudikan pesawat terbang. Jika sudut lepas landas berjarak satu derajat, Anda mungkin mendarat di benua lain yang tidak sesuai harapan.

Seluruh saluran AI generatif bergantung pada saluran data yang memberdayakannya, sehingga sangat penting untuk melakukan tindakan pencegahan yang benar.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.
Buka episode

4 komponen utama untuk memastikan penyerapan data yang andal

  1. Kualitas dan tata kelola data: Kualitas data berarti memastikan keamanan sumber data, memelihara data secara menyeluruh, dan menyediakan metadata yang jelas. Ini mungkin juga memerlukan bekerja dengan data baru melalui metode seperti mengekstraksi web atau pengunggahan. Tata kelola data adalah proses berkelanjutan dalam siklus hidup data untuk membantu memastikan kepatuhan terhadap hukum dan praktik terbaik perusahaan.
  2. Integrasi data: Alat-alat ini memungkinkan perusahaan untuk menggabungkan sumber data yang berbeda ke dalam satu lokasi yang aman. Metode yang populer adalah ekstrak, muat, ubah (ELT). Dalam sistem ELT, kumpulan data dipilih dari gudang terpisah, ditransformasikan dan kemudian dimuat ke dalam kumpulan data sumber atau target. Alat ELT seperti IBM DataStage memfasilitasi transformasi yang cepat dan aman melalui mesin pemrosesan paralel. Pada tahun 2023, rata-rata perusahaan menerima ratusan aliran data yang berbeda, membuat transformasi data yang efisien dan akurat menjadi penting untuk pengembangan model AI tradisional dan baru.
  3. Pembersihan dan prapemrosesan data: Hal ini mencakup pemformatan data untuk memenuhi persyaratan pelatihan LLM tertentu, alat orkestrasi, atau tipe data. Data teks dapat dipotong atau diberi token sementara data gambar dapat disimpan sebagai penanaman. Transformasi komprehensif dapat dilakukan dengan menggunakan alat integrasi data. Selain itu, mungkin ada kebutuhan untuk memanipulasi data mentah secara langsung dengan menghapus duplikat atau mengubah tipe data.
  4. Penyimpanan data: Setelah data dibersihkan dan diproses, tantangan penyimpanan data muncul. Sebagian besar data dihosting di cloud atau on premises, sehingga perusahaan harus membuat keputusan tentang tempat penyimpanan data mereka. Penting untuk berhati-hati dalam menggunakan LLM eksternal untuk menangani informasi sensitif seperti data pribadi, dokumen internal, atau data pelanggan. Namun, LLM memainkan peran penting dalam menyempurnakan atau mengimplementasikan pendekatan berbasis retrieval-augmented generation (RAG). Untuk mengurangi risiko, penting untuk menjalankan proses integrasi data sebanyak mungkin di server internal. Salah satu solusi potensial adalah dengan menggunakan opsi waktu proses jarak jauh seperti.

Mulai penyerapan data Anda dengan IBM

IBM DataStage merampingkan integrasi data dengan menggabungkan berbagai alat, memungkinkan Anda untuk dengan mudah menarik, mengatur, mengubah, dan menyimpan data yang diperlukan untuk model pelatihan AI di lingkungan hybrid cloud. Praktisi data dari semua tingkat keahlian dapat menggunakan alat ini dengan menggunakan GUI no-code atau mengakses API dengan kode khusus yang dipandu.

Opsi waktu proses jarak jauh DataStage sebagai Layanan Di Mana Saja yang baru ini memberikan fleksibilitas untuk mengeksekusi transformasi data Anda. Ini memberdayakan Anda untuk menggunakan mesin paralel dari mana saja, memberi Anda kontrol atas lokasinya yang belum pernah ada sebelumnya. DataStage sebagai Layanan Di Mana Saja berbentuk kontainer ringan, sehingga Anda dapat menjalankan semua kemampuan transformasi data di lingkungan apa pun. Hal ini memungkinkan Anda untuk menghindari banyak jebakan dari penyerapan data yang buruk saat Anda menjalankan integrasi, pembersihan, dan prapemrosesan data dalam cloud pribadi virtual Anda. Dengan DataStage, Anda mempertahankan kontrol penuh atas keamanan, kualitas data, dan kemanjuran, menangani semua kebutuhan data Anda untuk inisiatif AI generatif.

Meskipun hampir tidak ada batasan pada apa yang dapat dicapai dengan AI generatif, ada batasan pada data yang digunakan model—dan data itu juga dapat membuat semua perbedaan.

Sumber daya

Mengelola data untuk AI dan analitik dalam skala besar

Pelajari bagaimana pendekatan data lakehouse terbuka dapat memberikan data yang dapat dipercaya, serta mempercepat analitik dan eksekusi proyek AI.
Gartner Magic Quadrant 2024 untuk Alat Integrasi Data

IBM dinobatkan sebagai Pemimpin selama 19 tahun berturut-turut dalam Gartner Magic Quadrant 2024 untuk Alat Integrasi Data.
Pembeda data

Jelajahi panduan pemimpin data untuk membangun organisasi berbasis data dan mendorong keunggulan bisnis.
Tingkatkan adopsi AI dengan data yang siap AI

Temukan mengapa kecerdasan data yang didukung AI dan integrasi data sangat penting untuk mendorong kesiapan data terstruktur dan tidak terstruktur, serta mempercepat hasil AI.
Hybrid, buka data lakehouse untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.
Publikasi manajemen data IBM Research

Jelajahi cara IBM Research secara berkala diintegrasikan ke dalam fitur-fitur baru untuk IBM Cloud Pak for Data.
Gartner predicts 2024: How AI will impact analytics users

Dapatkan insight unik tentang lingkungan solusi ABI yang terus berkembang dengan menyoroti temuan utama, asumsi, dan rekomendasi bagi para pemimpin data dan analitik.
Solusi terkait
IBM StreamSets

Buat dan kelola pipeline data streaming cerdas melalui antarmuka grafis yang intuitif, yang memfasilitasi integrasi data tanpa batas di seluruh lingkungan hybrid dan multicloud.

 Jelajahi StreamSets
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

 Temukan watsonx.data
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

 Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

 Jelajahi solusi manajemen data Temukan watsonx.data