Tren AI terbaru, dipersembahkan oleh para pakar
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Klasifikasi gambar adalah proses mengategorikan atau mengklasifikasikan gambar ke dalam kategori. Dalam machine learning, model belajar mengenali dan mengategorikan gambar.
Manusia mengklasifikasikan gambar sejak usia muda. Ketika seorang guru meminta anak-anak TK untuk mengurutkan gambar tanaman dan hewan menjadi tumpukan, mereka menggunakan karakteristik yang telah mereka pelajari tentang setiap kategori untuk menyelesaikan tugas tersebut. Masing-masing kategori ini memiliki fitur berbeda yang membedakan tumbuhan dari hewan. Orang dewasa mungkin tidak ingat pernah mempelajari fitur yang memisahkan kategori, karena sebagian besar dari cara kita mengetahui pengklasifikasian muncul secara alami.
Mengajarkan model kecerdasan buatan (AI) untuk melakukan tugas yang sama bisa jauh lebih sulit. Perbedaan utama di sini adalah bahwa model AI perlu diajarkan untuk “melihat”, sedangkan manusia dilahirkan dengan kemampuan ini. Karena itulah, manusia dapat membedakan antara sepatu dan makhluk hidup sejak awal. Klasifikasi gambar berbasis aturan bergantung pada label atau anotasi untuk membuat perbedaan ini. Klasifikasi gambar statistik mengambil tugas yang sama dengan melatih model untuk mengenali pola yang tertanam dalam gambar, sehingga menghilangkan sebagian besar pekerjaan pelabelan manual.
Visi komputer mengacu pada cabang AI yang lebih umum di mana klasifikasi gambar berada. Ini menggunakan machine learning dan sering kali neural networks untuk memungkinkan komputer menafsirkan data visual seperti gambar dan video. Meskipun beberapa eksperimen dengan visi komputer mungkin telah dimulai sejak tahun 1950-an, sebagian besar pakar akan setuju bahwa baru pada tahun 1970 penggunaan komersial teknik ini dimulai.
Visi komputer memungkinkan komputer mengekstrak data yang berguna dari apa yang mereka lihat. Proses ini juga memungkinkan mereka untuk merespons dengan membuat rekomendasi atau bahkan bertindak ketika mereka deteksi masalah atau ketidaknormalan dalam data visual. Dalam visi komputer juga terdapat bidang pengenalan gambar. Istilah luas ini digunakan untuk menggambarkan kemampuan komputer untuk menafsirkan gambar atau gambar. Untuk meringkas, visi komputer adalah kategori yang lebih luas dan tugas pengenalan gambar dan bahkan lebih khusus lagi, klasifikasi gambar bersarang di dalamnya.
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Metode ini bergantung pada proses pengumpulan gambar dan pelabelan yang dikembangkan secara ketat agar sesuai dengan tugas atau tujuan klasifikasi tertentu. Proses ini diselesaikan secara manual oleh para pakar yang memilih fitur utama dari gambar yang memberikan informasi visual yang paling banyak. Klasifikasi gambar berbasis aturan mengelompokkan klaster piksel serupa ke dalam kelas dengan menerapkan aturan ini, yang dibangun dari pengetahuan khusus. Ini juga memungkinkan klasifikasi yang dapat ditafsirkan dan disesuaikan tanpa bergantung pada model machine learning yang kompleks.
Bayangkan sekotak berisi foto yang Anda tugaskan untuk diatur. Koleksi ini berisi foto danau, anjing, dan mobil. Karena Anda tidak memiliki alat teknologi tinggi yang dapat digunakan dengan metode ini, Anda perlu membuat daftar.
Daftar ini dapat terlihat mirip dengan berikut ini:
Contoh ini menunjukkan bahwa klasifikasi berbasis aturan bergantung pada aturan dan alat yang telah ditetapkan oleh manusia. Metode ini kontras dengan membiarkan komputer “mempelajari” aturan baru untuk dirinya sendiri. Bentuk klasifikasi gambar ini dapat mencakup teknik seperti pencocokan template dan ambang batas.
Pencocokan templat melibatkan menggeser gambar templat di atas gambar input yang lebih besar dan menghitung metrik kesamaan di setiap posisi untuk menemukan wilayah yang cocok dengan gambar templat.
Ambang batas membagi gambar dengan mengubah nilai piksel menjadi biner berdasarkan nilai cutoff yang ditetapkan. Metode ini membedakan fitur dari latar belakang sesuai dengan intensitas.
Dikombinasikan dengan pembelajaran penguatan berbasis aturan, semua teknik ini berkontribusi pada sistem klasifikasi gambar yang kuat dan dapat ditafsirkan. Klasifikasi berbasis aturan dapat diselesaikan dengan mengimplementasikan algoritma k-nearest neighbor atau random forest.
Metode klasifikasi ini sedikit lebih kompleks daripada metode klasifikasi gambar berbasis aturan. Klasifikasi gambar statistik dirancang untuk secara otomatis mempelajari dan mengenali pola dalam gambar. Untuk mengklasifikasikan gambar secara efisien, metode ini sangat bergantung pada kumpulan data berlabel besar dan arsitektur yang kuat, biasanya neural networks konvolusional (CNN). CNN ini menggunakan tiga jenis lapisan, masing-masing meningkatkan kompleksitas untuk mengidentifikasi bagian-bagian gambar. Saat data pindah melalui berbagai lapisan CNN, semakin banyak komponen yang dikenali hingga gambar dapat diklasifikasikan.
Teknik berbasis distribusi tradisional bergantung pada asumsi yang jelas tentang sifat statistik data gambar. Metode seperti estimasi kemungkinan maksimum (MLE) dan pengklasifikasi Bayesian menganalisis distribusi probabilitas intensitas piksel atau fitur untuk menetapkan kelas. Dalam klasifikasi gambar, MLE menetapkan setiap piksel gambar ke kelas yang model statistiknya paling baik menjelaskan data yang dikumpulkan. Klasifikasi Bayesian menggunakan teorema Bayes untuk menghitung probabilitas bahwa suatu gambar termasuk dalam kelas tertentu berdasarkan pengetahuan sebelumnya dan data yang dikumpulkan. Teorema ini memungkinkan seseorang untuk “membalik” probabilitas bersyarat. Metode ini menggabungkan probabilitas kelas sebelumnya dengan kemungkinan fitur yang diamati untuk memprediksi kelas yang paling mungkin untuk segmen gambar tertentu. Algoritma ini memerlukan pemodelan statistik dari setiap kelas dan melakukan klasifikasi dengan memperkirakan seberapa besar kemungkinan piksel atau segmen tertentu termasuk dalam setiap kelas berdasarkan model ini.
Estimasi kemungkinan maksimum (MLE) adalah metode statistik yang digunakan untuk mengestimasi parameter sebuah model dengan menemukan nilai yang membuat data yang diamati paling mungkin. Dalam klasifikasi gambar, MLE menetapkan setiap piksel atau segmen ke kelas yang model statistiknya memaksimalkan kemungkinan menghasilkan data yang diamati.
Neural networks konvolusional (CNN) menunjukkan pendekatan yang lebih modern dan bebas distribusi yang mempelajari fitur langsung dari data tanpa mengandalkan aturan statistik yang dinyatakan dengan jelas. CNN terdiri dari beberapa lapisan yang secara progresif mendeteksi fitur gambar dari bergerak dari yang paling sederhana ke yang paling kompleks. Mereka menggunakan operasi seperti konvolusi dan pengumpulan. Konvolusi adalah operasi matematika yang digunakan oleh CNN untuk mengekstrak fitur dari data input dan gambar dalam kasus ini. Operasi ini menggunakan filter atau kernel yang meluncur melintasi input. Pengumpulan juga menerapkan filter ke seluruh input, tetapi tidak seperti konvolusi, filter ini tidak memiliki parameter berbobot. Pelatihan CNN membutuhkan kumpulan data berlabel besar dan sumber daya komputasi tetapi sering menghasilkan akurasi yang jauh lebih baik karena kemampuannya untuk secara otomatis mengekstrak fitur hierarkis dari data gambar mentah.
Pengumpulan dan prapemrosesan data: Mengumpulkan sejumlah besar dan beragam gambar untuk masing-masing kelompok adalah langkah pertama. Data harus diberi label, kemudian dinormalisasi. Normalisasi dan teknik augmentasi data lainnya termasuk mengubah ukuran gambar ke dimensi tetap, menormalkan nilai piksel dan banyak lagi.
Pemilihan model: Langkah selanjutnya dalam alur kerja adalah pemilihan model. Arsitektur yang dipilih kemungkinan besar adalah CNN. Seperti yang dibahas sebelumnya, CNN mulai deteksi fitur yang lebih kompleks saat data pindah melalui lapisannya.
Pelatihan dan validasi model: Setelah seleksi, gambar yang telah dilabeli kemudian dibagi menjadi kumpulan data pelatihan, kumpulan data validasi dan kumpulan data uji. Jaringan menggunakan kumpulan ini untuk mengoptimalkan dan berulang kali menyesuaikan bobotnya, meminimalkan kesalahan antara label yang diprediksi dan label yang sebenarnya. Pencegahan overfitting dibantu oleh data validasi dan proses pelatihan ini dapat dilanjutkan sampai hasilnya memenuhi standar yang telah ditentukan.
Selama langkah ini, kumpulan data gambar beranotasi manusia seperti ImageNet dapat diterapkan. ImageNet adalah koleksi besar lebih dari 14 juta gambar. Semua gambar ini diatur dan diberi label untuk mengajarkan komputer mengenali objek dalam gambar. Setiap gambar dalam basis data ditandai dengan kategori tertentu yang disebut “synset.” Synset ini mencakup hal-hal seperti "anjing", "mobil" atau "apel" dan menggunakan kerangka kerja yang disebut WordNet.
Ekstraksi fitur: Pada langkah ini, berlawanan dengan klasifikasi gambar berbasis aturan, model pembelajaran mendalam mempelajari fitur mereka sendiri dari data gambar mentah yang diekstrak. Pendekatan ini memungkinkan jaringan untuk membuat penggambaran internal untuk membedakan antara kelompok atau kelas.
Evaluasi dan penerapan: Selanjutnya, model dievaluasi pada data pengujian dan disempurnakan jika perlu. Model ini kemudian diterapkan untuk membuat prediksi pada gambar baru di lingkungan dunia nyata jika metrik yang diharapkan terpenuhi.
Berbagai model dan algoritma telah dikembangkan untuk klasifikasi gambar. Mulai dari pendekatan seperti K-nearest neighbors (KNN), random forests dan support vector machines (SVM), hingga arsitektur seperti AlexNet, GoogLeNet, dan ResNet. Setiap metode menawarkan kekuatan yang berbeda dalam hal akurasi, skalabilitas, dan kompleksitas. Opsi ini memungkinkan pengguna untuk memilih antara pengklasifikasi yang lebih sederhana atau neural networks konvolusional (CNN) sangat canggih yang dapat mempelajari fitur hierarkis yang mendalam dari gambar. Kita akan melihat algoritma dan model ini secara lebih mendalam.
Industri otomotif: Klasifikasi gambar dan deteksi objek menjadi semakin lazim pada kendaraan. Deteksi objek digunakan untuk memberi pengemudi informasi real-time tentang lingkungan mereka. Kemampuan ini dapat membantu di area yang asing atau dengan lalu lintas tinggi. Deteksi objek yang efektif sangat bergantung pada efektivitas klasifikasi gambar CNN tersebut.
Klasifikasi citra daun dari penyakit tanaman: Para peneliti telah mengembangkan model yang mampu mendeteksi 13 penyakit tanaman pada daun yang sehat. Model ini juga mampu membedakan daun atau dedaunan dari sekitarnya. Model seperti ini dapat menjadi sangat penting dalam menentukan apakah suatu lingkungan telah terinfeksi sesuatu seperti penyakit daun beech (BLD) misalnya.
Pencitraan perawatan kesehatan dan medis: Klasifikasi gambar pembelajaran mendalam dengan CNN dapat memberikan gambar sinar-X dari paru-paru yang terinfeksi pneumonia. Dokter dan teknisi medis mungkin dapat mengidentifikasi kasus pneumonia dengan lebih cepat dan akurat, serta melakukannya dengan cara yang hemat biaya.
Klasifikasi gambar adalah komponen kunci dari visi komputer. Ini memungkinkan mesin untuk memahami dunia visual seperti yang dilakukan manusia. Dari metode klasifikasi gambar berbasis aturan yang mengandalkan pemilihan fitur manual hingga klasifikasi gambar statistik lanjutan dengan CNN yang mampu mengenali pola halus dengan akurasi tinggi, bidang ini terus berkembang pesat. Dampaknya sudah dirasakan di seluruh industri perawatan kesehatan, otomotif, dan lingkungan. Alat ini memberdayakan pengguna dengan kemampuan pengambilan keputusan yang lebih cepat yang dapat mengarah pada peningkatan keamanan secara keseluruhan. Seiring dengan semakin canggihnya model klasifikasi gambar, model ini tidak hanya akan menyempurnakan aplikasi yang sudah ada, tetapi juga membuka pintu ke berbagai kemungkinan yang sama sekali baru.