Kualitas Data untuk AI
Meninjau, Memperbaiki, Memfaktor ulang, Mengisi ulang data Anda untuk pengembangan model yang lebih cepat dan lebih produktif
Memulai uji coba API
latar belakang hitam, hijau, dan biru
Menurut saya, jika 80 persen pekerjaan kita adalah persiapan data, maka memastikan kualitas data adalah pekerjaan penting dari tim machine learning. Andrew Ng, Professor of AI at Standford University and founder of DeepLearning.AI March 2021 https://www.deeplearning.ai/the-batch/issue-84/
Kualitas Data untuk AI dari IBM Research

Kerangka kerja layanan Kualitas Data untuk AI (atau DQAI, singkatnya) ini menyediakan semua alat untuk memungkinkan pengembang model dan ilmuwan data menerapkan program persiapan data yang formal dan sistematis, langkah awal dan paling memakan waktu dari siklus hidup pengembangan model. Kerangka kerja ini sesuai untuk data yang disiapkan untuk tugas klasifikasi atau regresi yang diawasi. Ini termasuk perangkat lunak yang diperlukan untuk:

— melaksanakan pemeriksaan kualitas,
— melaksanakan remediasi,
— menghasilkan laporan audit,
— mengotomatiskan semua hal di atas.

Sementara pelapisan pipa tugas sangat penting untuk skalabilitas dan pengulangan, kemampuan yang disertakan juga dapat digunakan untuk eksplorasi data khusus dan peningkatan model yang dipandu manusia. Pemanfaatan layanan yang disertakan dapat produktif pada setiap tahap dalam siklus pengembangan model, penawaran dirancang untuk menjadi sangat berharga di awal pemrosesan data, pada tahap persiapan data.

Selain semua yang dapat dicapai pada sumber data asli, ada metode yang, mulai dari kumpulan data input, dapat membantu mensintesis data baru - baik untuk suplementasi atau untuk penggantian - dengan mempelajari kendala dalam data asli atau membuatnya ditentukan oleh pengembang. Ini dapat membantu ketika masalah peraturan atau kontrak melarang penggunaan langsung data dalam upaya pemodelan, ketika diinginkan untuk mengeksplorasi kumpulan data dengan batasan yang berbeda, atau ketika lebih banyak data diperlukan untuk pelatihan.

Penawaran ini sesuai untuk digunakan pada data tabel dan deret waktu dan modalitas baru yang didukung sedang dikembangkan.

Kemampuan
Validasi Data

Skor kualitas dan wawasan tentang skor kualitas tersebut, bahkan menunjukkan wilayah data tertentu yang bertanggung jawab atas penurunan skor dan merekomendasikan bagaimana wilayah data tersebut dapat ditingkatkan.


Remediasi Data

Menjalankan rekomendasi yang diberikan oleh metode analisis kualitas. Toolkit ini mendukung berbagai jenis data, termasuk data tabular dan data deret waktu.


Batasan Data

Sistem dapat mempelajari atau pengguna dapat menentukan karakteristik data (misalnya, batas, celah, ...).


Sintesis Data

Buatlah set data baru yang memiliki karakteristik dan distribusi dari set data pertama.


Pembuatan pipa

Menggabungkan validator dan mediator ulang bersama dengan kendala untuk mengatasi contoh penggunaan atau alur kerja aplikasi, menghasilkan skor kualitas data secara keseluruhan


Pelaporan

Dokumentasi otomatis perubahan yang mencatat perubahan metrik kualitas dan transformasi data yang diterapkan

Manfaat apa yang dapat saya peroleh dalam operasi pemodelan saya?
Perkakas yang komprehensif dan kompatibel

Kualitas Data untuk AI berfungsi sebagai sumber tunggal yang kompatibel untuk banyak algoritme yang tersedia untuk umum serta metode-metode baru yang dikembangkan secara eksklusif oleh IBM Research.

Penghematan Waktu dan Biaya

Mengurangi time to value untuk upaya pemodelan dengan mengurangi jumlah percobaan yang dilakukan dan regresi yang direalisasikan dalam tugas-tugas hilir.

Operasi yang diformalkan dan disederhanakan

Menurunkan hambatan adopsi AI di seluruh perusahaan dengan menyediakan alat untuk memformalkan dan menyederhanakan proses persiapan data

Standardisasi dan koordinasi tim

Peningkatan efisiensi dan produktivitas operasional secara menyeluruh untuk peran-peran yang telah ditentukan berikut ini: AI Steward, Ilmuwan Data, Tenaga Ahli, Petugas Risiko AI, Pengguna Bisnis.

Contoh utilitas yang disertakan
Validasi Data

— Pemeriksaan Kemurnian Label — Pemeriksaan Homogenitas Data — Pemeriksaan Paritas Kelas — Pemeriksaan Kelengkapan — Pemeriksaan Deteksi Outlier — Pemeriksaan Korelasi Fitur — Pemeriksaan Bias Data — Pemeriksaan Redundansi Fitur — dan banyak lagi

Remediasi Data

— Remediasi Kemurnian — Remediasi Ketidakhomogenan — Remediasi Perbedaan Kelas — Remediasi Ketidaklengkapan — Penghapusan Outlier — Penghapusan Korelasi Fitur — Penghapusan Bias Data — Penghapusan Redundansi Fitur — dan banyak lagi