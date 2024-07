Menurut saya, jika 80 persen pekerjaan kita adalah persiapan data, maka memastikan kualitas data adalah pekerjaan penting dari tim machine learning. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/

Kualitas Data untuk AI dari IBM Research Kerangka kerja layanan Kualitas Data untuk AI (atau DQAI, singkatnya) ini menyediakan semua alat untuk memungkinkan pengembang model dan ilmuwan data menerapkan program persiapan data yang formal dan sistematis, langkah awal dan paling memakan waktu dari siklus hidup pengembangan model. Kerangka kerja ini sesuai untuk data yang disiapkan untuk tugas klasifikasi atau regresi yang diawasi. Ini termasuk perangkat lunak yang diperlukan untuk:



— melaksanakan pemeriksaan kualitas,

— melaksanakan remediasi,

— menghasilkan laporan audit,

— mengotomatiskan semua hal di atas.



Sementara pelapisan pipa tugas sangat penting untuk skalabilitas dan pengulangan, kemampuan yang disertakan juga dapat digunakan untuk eksplorasi data khusus dan peningkatan model yang dipandu manusia. Pemanfaatan layanan yang disertakan dapat produktif pada setiap tahap dalam siklus pengembangan model, penawaran dirancang untuk menjadi sangat berharga di awal pemrosesan data, pada tahap persiapan data.



Selain semua yang dapat dicapai pada sumber data asli, ada metode yang, mulai dari kumpulan data input, dapat membantu mensintesis data baru - baik untuk suplementasi atau untuk penggantian - dengan mempelajari kendala dalam data asli atau membuatnya ditentukan oleh pengembang. Ini dapat membantu ketika masalah peraturan atau kontrak melarang penggunaan langsung data dalam upaya pemodelan, ketika diinginkan untuk mengeksplorasi kumpulan data dengan batasan yang berbeda, atau ketika lebih banyak data diperlukan untuk pelatihan.



Penawaran ini sesuai untuk digunakan pada data tabel dan deret waktu dan modalitas baru yang didukung sedang dikembangkan.





Kemampuan Validasi Data Skor kualitas dan wawasan tentang skor kualitas tersebut, bahkan menunjukkan wilayah data tertentu yang bertanggung jawab atas penurunan skor dan merekomendasikan bagaimana wilayah data tersebut dapat ditingkatkan. Remediasi Data Menjalankan rekomendasi yang diberikan oleh metode analisis kualitas. Toolkit ini mendukung berbagai jenis data, termasuk data tabular dan data deret waktu. Batasan Data Sistem dapat mempelajari atau pengguna dapat menentukan karakteristik data (misalnya, batas, celah, ...). Sintesis Data Buatlah set data baru yang memiliki karakteristik dan distribusi dari set data pertama. Pembuatan pipa Menggabungkan validator dan mediator ulang bersama dengan kendala untuk mengatasi contoh penggunaan atau alur kerja aplikasi, menghasilkan skor kualitas data secara keseluruhan Pelaporan Dokumentasi otomatis perubahan yang mencatat perubahan metrik kualitas dan transformasi data yang diterapkan

Manfaat apa yang dapat saya peroleh dalam operasi pemodelan saya? Perkakas yang komprehensif dan kompatibel Kualitas Data untuk AI berfungsi sebagai sumber tunggal yang kompatibel untuk banyak algoritme yang tersedia untuk umum serta metode-metode baru yang dikembangkan secara eksklusif oleh IBM Research. Penghematan Waktu dan Biaya Mengurangi time to value untuk upaya pemodelan dengan mengurangi jumlah percobaan yang dilakukan dan regresi yang direalisasikan dalam tugas-tugas hilir. Operasi yang diformalkan dan disederhanakan Menurunkan hambatan adopsi AI di seluruh perusahaan dengan menyediakan alat untuk memformalkan dan menyederhanakan proses persiapan data Standardisasi dan koordinasi tim Peningkatan efisiensi dan produktivitas operasional secara menyeluruh untuk peran-peran yang telah ditentukan berikut ini: AI Steward, Ilmuwan Data, Tenaga Ahli, Petugas Risiko AI, Pengguna Bisnis.