Apa itu Klasifikasi Gambar?

Apa itu klasifikasi gambar?

Klasifikasi gambar adalah proses mengategorikan atau mengklasifikasikan gambar ke dalam kategori. Dalam machine learning, model belajar mengenali dan mengategorikan gambar.

Manusia mengklasifikasikan gambar sejak usia muda. Ketika seorang guru meminta anak-anak TK untuk mengurutkan gambar tanaman dan hewan menjadi tumpukan, mereka menggunakan karakteristik yang telah mereka pelajari tentang setiap kategori untuk menyelesaikan tugas tersebut. Masing-masing kategori ini memiliki fitur berbeda yang membedakan tumbuhan dari hewan. Orang dewasa mungkin tidak ingat pernah mempelajari fitur yang memisahkan kategori, karena sebagian besar dari cara kita mengetahui pengklasifikasian muncul secara alami.

Mengajarkan model kecerdasan buatan (AI) untuk melakukan tugas yang sama bisa jauh lebih sulit. Perbedaan utama di sini adalah bahwa model AI perlu diajarkan untuk “melihat”, sedangkan manusia dilahirkan dengan kemampuan ini. Karena itulah, manusia dapat membedakan antara sepatu dan makhluk hidup sejak awal. Klasifikasi gambar berbasis aturan bergantung pada label atau anotasi untuk membuat perbedaan ini. Klasifikasi gambar statistik mengambil tugas yang sama dengan melatih model untuk mengenali pola yang tertanam dalam gambar, sehingga menghilangkan sebagian besar pekerjaan pelabelan manual.

Apa itu visi komputer?

Visi komputer mengacu pada cabang AI yang lebih umum di mana klasifikasi gambar berada. Ini menggunakan machine learning dan sering kali neural networks untuk memungkinkan komputer menafsirkan data visual seperti gambar dan video. Meskipun beberapa eksperimen dengan visi komputer mungkin telah dimulai sejak tahun 1950-an, sebagian besar pakar akan setuju bahwa baru pada tahun 1970 penggunaan komersial teknik ini dimulai.

Visi komputer memungkinkan komputer mengekstrak data yang berguna dari apa yang mereka lihat. Proses ini juga memungkinkan mereka untuk merespons dengan membuat rekomendasi atau bahkan bertindak ketika mereka deteksi masalah atau ketidaknormalan dalam data visual. Dalam visi komputer juga terdapat bidang pengenalan gambar. Istilah luas ini digunakan untuk menggambarkan kemampuan komputer untuk menafsirkan gambar atau gambar. Untuk meringkas, visi komputer adalah kategori yang lebih luas dan tugas pengenalan gambar dan bahkan lebih khusus lagi, klasifikasi gambar bersarang di dalamnya.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Jenis klasifikasi gambar

Klasifikasi gambar berbasis aturan

Metode ini bergantung pada proses pengumpulan gambar dan pelabelan yang dikembangkan secara ketat agar sesuai dengan tugas atau tujuan klasifikasi tertentu. Proses ini diselesaikan secara manual oleh para pakar yang memilih fitur utama dari gambar yang memberikan informasi visual yang paling banyak. Klasifikasi gambar berbasis aturan mengelompokkan klaster piksel serupa ke dalam kelas dengan menerapkan aturan ini, yang dibangun dari pengetahuan khusus. Ini juga memungkinkan klasifikasi yang dapat ditafsirkan dan disesuaikan tanpa bergantung pada model machine learning yang kompleks.

Bayangkan sekotak berisi foto yang Anda tugaskan untuk diatur. Koleksi ini berisi foto danau, anjing, dan mobil. Karena Anda tidak memiliki alat teknologi tinggi yang dapat digunakan dengan metode ini, Anda perlu membuat daftar.

Daftar ini dapat terlihat mirip dengan berikut ini:

Untuk “mobil,” cari ban, pintu, dan kaca spion samping.
Untuk "anjing", periksa telinga yang panjang dan terkulai, ekor yang bergoyang, dan hidung yang panjang.
Untuk “danau,” temukan foto dengan banyak air dan garis pantai.

Contoh ini menunjukkan bahwa klasifikasi berbasis aturan bergantung pada aturan dan alat yang telah ditetapkan oleh manusia. Metode ini kontras dengan membiarkan komputer “mempelajari” aturan baru untuk dirinya sendiri. Bentuk klasifikasi gambar ini dapat mencakup teknik seperti pencocokan template dan ambang batas.

Pencocokan templat melibatkan menggeser gambar templat di atas gambar input yang lebih besar dan menghitung metrik kesamaan di setiap posisi untuk menemukan wilayah yang cocok dengan gambar templat.

Ambang batas membagi gambar dengan mengubah nilai piksel menjadi biner berdasarkan nilai cutoff yang ditetapkan. Metode ini membedakan fitur dari latar belakang sesuai dengan intensitas.

Dikombinasikan dengan pembelajaran penguatan berbasis aturan, semua teknik ini berkontribusi pada sistem klasifikasi gambar yang kuat dan dapat ditafsirkan. Klasifikasi berbasis aturan dapat diselesaikan dengan mengimplementasikan algoritma k-nearest neighbor atau random forest.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Klasifikasi gambar statistik

Metode klasifikasi ini sedikit lebih kompleks daripada metode klasifikasi gambar berbasis aturan. Klasifikasi gambar statistik dirancang untuk secara otomatis mempelajari dan mengenali pola dalam gambar. Untuk mengklasifikasikan gambar secara efisien, metode ini sangat bergantung pada kumpulan data berlabel besar dan arsitektur yang kuat, biasanya neural networks konvolusional (CNN). CNN ini menggunakan tiga jenis lapisan, masing-masing meningkatkan kompleksitas untuk mengidentifikasi bagian-bagian gambar. Saat data pindah melalui berbagai lapisan CNN, semakin banyak komponen yang dikenali hingga gambar dapat diklasifikasikan.

Diagram terperinci yang menggambarkan neural networks konvolusional (CNN) yang memproses gambar zebra.

Diagram Neural Networks konvolusional (CNN)

Metode berbasis distribusi

Teknik berbasis distribusi tradisional bergantung pada asumsi yang jelas tentang sifat statistik data gambar. Metode seperti estimasi kemungkinan maksimum (MLE) dan pengklasifikasi Bayesian menganalisis distribusi probabilitas intensitas piksel atau fitur untuk menetapkan kelas. Dalam klasifikasi gambar, MLE menetapkan setiap piksel gambar ke kelas yang model statistiknya paling baik menjelaskan data yang dikumpulkan. Klasifikasi Bayesian menggunakan teorema Bayes untuk menghitung probabilitas bahwa suatu gambar termasuk dalam kelas tertentu berdasarkan pengetahuan sebelumnya dan data yang dikumpulkan. Teorema ini memungkinkan seseorang untuk “membalik” probabilitas bersyarat. Metode ini menggabungkan probabilitas kelas sebelumnya dengan kemungkinan fitur yang diamati untuk memprediksi kelas yang paling mungkin untuk segmen gambar tertentu. Algoritma ini memerlukan pemodelan statistik dari setiap kelas dan melakukan klasifikasi dengan memperkirakan seberapa besar kemungkinan piksel atau segmen tertentu termasuk dalam setiap kelas berdasarkan model ini.

Rumus untuk probabilitas bersyarat

Estimasi kemungkinan maksimum (MLE) adalah metode statistik yang digunakan untuk mengestimasi parameter sebuah model dengan menemukan nilai yang membuat data yang diamati paling mungkin. Dalam klasifikasi gambar, MLE menetapkan setiap piksel atau segmen ke kelas yang model statistiknya memaksimalkan kemungkinan menghasilkan data yang diamati.

Metode bebas distribusi

Neural networks konvolusional (CNN) menunjukkan pendekatan yang lebih modern dan bebas distribusi yang mempelajari fitur langsung dari data tanpa mengandalkan aturan statistik yang dinyatakan dengan jelas. CNN terdiri dari beberapa lapisan yang secara progresif mendeteksi fitur gambar dari bergerak dari yang paling sederhana ke yang paling kompleks. Mereka menggunakan operasi seperti konvolusi dan pengumpulan. Konvolusi adalah operasi matematika yang digunakan oleh CNN untuk mengekstrak fitur dari data input dan gambar dalam kasus ini. Operasi ini menggunakan filter atau kernel yang meluncur melintasi input. Pengumpulan juga menerapkan filter ke seluruh input, tetapi tidak seperti konvolusi, filter ini tidak memiliki parameter berbobot. Pelatihan CNN membutuhkan kumpulan data berlabel besar dan sumber daya komputasi tetapi sering menghasilkan akurasi yang jauh lebih baik karena kemampuannya untuk secara otomatis mengekstrak fitur hierarkis dari data gambar mentah.

Grafik segitiga dibagi menjadi tiga bagian, masing-masing memiliki fitur ikon sepeda bergaya. Piramida dinaungi dalam berbagai nada biru, menciptakan efek gradien. Desainnya menekankan kesederhanaan dan bentuk geometris, tanpa teks yang terlihat atau nilai numerik.

Diagram hierarki

Representasi visual dari penyaringan matriks diterapkan pada grid numerik. Gambar input menampilkan kisi-kisi 3x3 dengan angka, sedangkan filter dan array output menampilkan proses transformasi.

Diagram array neural networks konvolusional (CNN)

Cara kerja klasifikasi gambar statistik

Pengumpulan dan prapemrosesan data: Mengumpulkan sejumlah besar dan beragam gambar untuk masing-masing kelompok adalah langkah pertama. Data harus diberi label, kemudian dinormalisasi. Normalisasi dan teknik augmentasi data lainnya termasuk mengubah ukuran gambar ke dimensi tetap, menormalkan nilai piksel dan banyak lagi.

Pemilihan model: Langkah selanjutnya dalam alur kerja adalah pemilihan model. Arsitektur yang dipilih kemungkinan besar adalah CNN. Seperti yang dibahas sebelumnya, CNN mulai deteksi fitur yang lebih kompleks saat data pindah melalui lapisannya.

Pelatihan dan validasi model: Setelah seleksi, gambar yang telah dilabeli kemudian dibagi menjadi kumpulan data pelatihan, kumpulan data validasi dan kumpulan data uji. Jaringan menggunakan kumpulan ini untuk mengoptimalkan dan berulang kali menyesuaikan bobotnya, meminimalkan kesalahan antara label yang diprediksi dan label yang sebenarnya. Pencegahan overfitting dibantu oleh data validasi dan proses pelatihan ini dapat dilanjutkan sampai hasilnya memenuhi standar yang telah ditentukan.

Selama langkah ini, kumpulan data gambar beranotasi manusia seperti ImageNet dapat diterapkan. ImageNet adalah koleksi besar lebih dari 14 juta gambar. Semua gambar ini diatur dan diberi label untuk mengajarkan komputer mengenali objek dalam gambar. Setiap gambar dalam basis data ditandai dengan kategori tertentu yang disebut “synset.” Synset ini mencakup hal-hal seperti "anjing", "mobil" atau "apel" dan menggunakan kerangka kerja yang disebut WordNet.

Ekstraksi fitur: Pada langkah ini, berlawanan dengan klasifikasi gambar berbasis aturan, model pembelajaran mendalam mempelajari fitur mereka sendiri dari data gambar mentah yang diekstrak. Pendekatan ini memungkinkan jaringan untuk membuat penggambaran internal untuk membedakan antara kelompok atau kelas.

Evaluasi dan penerapan: Selanjutnya, model dievaluasi pada data pengujian dan disempurnakan jika perlu. Model ini kemudian diterapkan untuk membuat prediksi pada gambar baru di lingkungan dunia nyata jika metrik yang diharapkan terpenuhi.

Model dan algoritma klasifikasi gambar

Berbagai model dan algoritma telah dikembangkan untuk klasifikasi gambar. Mulai dari pendekatan seperti K-nearest neighbors (KNN), random forests dan support vector machines (SVM), hingga arsitektur seperti AlexNet, GoogLeNet, dan ResNet. Setiap metode menawarkan kekuatan yang berbeda dalam hal akurasi, skalabilitas, dan kompleksitas. Opsi ini memungkinkan pengguna untuk memilih antara pengklasifikasi yang lebih sederhana atau neural networks konvolusional (CNN) sangat canggih yang dapat mempelajari fitur hierarkis yang mendalam dari gambar. Kita akan melihat algoritma dan model ini secara lebih mendalam.

K-nearest neighbor (KNN): Algoritma ini adalah pengklasifikasi pembelajaran diawasi yang secara luas digunakan untuk tugas klasifikasi gambar. Cara kerjanya adalah dengan menggunakan jarak Euclide untuk mengukur kemiripan titik data baru dengan semua titik data yang ada di setiap kumpulan data. Dalam klasifikasi gambar, setiap gambar pertama kali direpresentasikan sebagai vektor fitur. Vektor fitur dapat menyertakan nilai piksel mentah, histogram warna, atau deskriptor numerik apa pun yang menangkap karakteristik visual penting dari gambar. Gambar diklasifikasikan dengan membandingkannya dengan 'k' gambar yang paling mirip dalam kumpulan pelatihan berlabel dan memberikan label yang paling umum di antara tetangga tersebut. Kemudian menggunakan jarak Euclide yang telah disebutkan sebelumnya untuk mengukur kemiripan.
Random forest: Pengklasifikasi gambar diawasi lainnya yang dikenal karena fleksibilitas dan kemudahan penggunaannya. Algoritma klasifikasi terdiri dari beberapa struktur keputusan. Setiap output dari struktur keputusan ini dirata-ratakan dan kemudian digabungkan untuk memberi kita output akhir. Random forest mengklasifikasikan gambar dengan membangun ensambel dari banyak struktur keputusan, masing-masing dilatih pada gambar sampel acak yang berbeda dan himpunan fitur dari data. Untuk gambar baru, setiap pohon memprediksi label kelas dan kelas dengan suara terbanyak di antara semua pohon menjadi klasifikasi akhir untuk gambar tersebut.
Support vector machine (SVM): Umumnya digunakan untuk masalah klasifikasi, algoritma machine learning ini bekerja dengan mengidentifikasi batas ideal untuk memaksimalkan margin antara titik data terdekat dari kelas yang berlawanan.
AlexNet: Sebagai pelopor dalam dunia CNN pembelajaran mendalam, model ini mendapatkan popularitas karena desainnya yang sederhana namun berlapis-lapis. Model ini menggunakan ReLU sebagai fungsi aktivasi alih-alih sigmoid.
GoogLeNet/Inception: Dibuat oleh Google, model ini menggunakan modul inception. Setiap modul awal berisi 4 jalur dengan ukuran filter yang berbeda, dan GoogLeNet memiliki 4 modul awal yang berjalan paralel satu sama lain. Hasil dari setiap modul awal kemudian digabungkan untuk output tunggal. Para peneliti telah menemukan bahwa penyempurnaan pada model yang telah dilatih sebelumnya, seperti Inception, memberikan hasil yang lebih akurat.
ResNet: Model ini memperkenalkan koneksi residual, atau jalan pintas, yang memungkinkan data mengambil jalur lain dan melewati beberapa lapisan jaringan. ResNet memungkinkan untuk melatih jaringan yang lebih dalam dengan kinerja model yang sukses pada jaringan hingga 152 lapisan.
Model khusus TensorFlow: Pilihan lainnya adalah membuat model dari awal dengan menggunakan TensorFlow dan Keras. Pendekatan ini melibatkan membangun lapisan seperti Conv2D, MaxPooling2D dan Dense. Juga, membangun fungsi aktivasi untuk membangun saluran pembelajaran mendalam yang dapat mengklasifikasikan gambar setelah pelatihan pada contoh berlabel selesai.

ML tradisional dan ML pembelajaran mendalam

Contoh penggunaan klasifikasi gambar

Industri otomotif: Klasifikasi gambar dan deteksi objek menjadi semakin lazim pada kendaraan. Deteksi objek digunakan untuk memberi pengemudi informasi real-time tentang lingkungan mereka. Kemampuan ini dapat membantu di area yang asing atau dengan lalu lintas tinggi. Deteksi objek yang efektif sangat bergantung pada efektivitas klasifikasi gambar CNN tersebut.

Klasifikasi citra daun dari penyakit tanaman: Para peneliti telah mengembangkan model yang mampu mendeteksi 13 penyakit tanaman pada daun yang sehat. Model ini juga mampu membedakan daun atau dedaunan dari sekitarnya. Model seperti ini dapat menjadi sangat penting dalam menentukan apakah suatu lingkungan telah terinfeksi sesuatu seperti penyakit daun beech (BLD) misalnya.

Pencitraan perawatan kesehatan dan medis: Klasifikasi gambar pembelajaran mendalam dengan CNN dapat memberikan gambar sinar-X dari paru-paru yang terinfeksi pneumonia. Dokter dan teknisi medis mungkin dapat mengidentifikasi kasus pneumonia dengan lebih cepat dan akurat, serta melakukannya dengan cara yang hemat biaya.

Kesimpulan:

Klasifikasi gambar adalah komponen kunci dari visi komputer. Ini memungkinkan mesin untuk memahami dunia visual seperti yang dilakukan manusia. Dari metode klasifikasi gambar berbasis aturan yang mengandalkan pemilihan fitur manual hingga klasifikasi gambar statistik lanjutan dengan CNN yang mampu mengenali pola halus dengan akurasi tinggi, bidang ini terus berkembang pesat. Dampaknya sudah dirasakan di seluruh industri perawatan kesehatan, otomotif, dan lingkungan. Alat ini memberdayakan pengguna dengan kemampuan pengambilan keputusan yang lebih cepat yang dapat mengarah pada peningkatan keamanan secara keseluruhan. Seiring dengan semakin canggihnya model klasifikasi gambar, model ini tidak hanya akan menyempurnakan aplikasi yang sudah ada, tetapi juga membuka pintu ke berbagai kemungkinan yang sama sekali baru.

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Apa itu klasifikasi gambar?