Apa itu pengenalan gambar?

Penyusun

Tim Mucci

IBM Writer

Gather

Apa itu pengenalan gambar?

Pengenalan gambar adalah aplikasi machine learning (ML) yang memungkinkan perangkat lunak dan perangkat untuk mengidentifikasi objek, tempat, orang, tulisan, dan tindakan dalam gambar digital atau video.

Teknologi pengenalan gambar memungkinkan komputer untuk mengidentifikasi cacat produk, membantu para profesional medis menemukan anomali dan merupakan bagian integral dari pengembangan kendaraan otonom.

Pengenalan gambar merupakan tugas utama dalam visi komputer, sebuah cabang dari teknologi kecerdasan buatan (AI) yang memungkinkan perangkat lunak dan mesin memahami serta merespons data visual.

Insinyur menggunakan model machine learning tradisional dan pembelajaran mendalam dalam pengenalan gambar. Berbagai pendekatan ini umumnya digunakan secara terpisah dan keputusan untuk menggabungkan atau menggunakannya secara independen bergantung pada masalah spesifik serta kebutuhan sumber daya.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Pengenalan gambar dengan machine learning tradisional
.

Machine learning menggunakan algoritma untuk mengklasifikasikan gambar berdasarkan fitur yang diekstraksi secara manual oleh insinyur. Dalam proses ini, insinyur menganalisis dan memproses gambar sesuai dengan tujuan atau masalah spesifik yang ingin diselesaikan melalui pengenalan gambar.

Mungkin itu mengidentifikasi wajah, mendeteksi objek atau mengklasifikasikan tekstur. Dalam setiap kasus, insinyur menggunakan pengetahuan domain mereka untuk memproses gambar dan melatih algoritma.

Perangkat lunak pengenalan gambar menggunakan deteksi objek untuk membedakan jenis kendaraan tertentu Perangkat lunak pengenalan gambar menggunakan deteksi objek untuk membedakan jenis kendaraan tertentu

Normalisasi

Salah satu langkah penting dalam persiapan data adalah normalisasi gambar, yaitu menskalakan nilai piksel ke rentang standar, biasanya antara 0–1 atau -1–1, sehingga data tetap konsisten dan lebih mudah dikelola oleh model machine learning selama pemrosesan.

Prapemrosesan juga mencakup penyesuaian ukuran gambar, konversi ke skala abu-abu untuk mengurangi kompleksitas komputasi, serta penghapusan noise menggunakan teknik seperti pemfilteran Gaussian. Dalam pengenalan gambar, "noise" merujuk pada variasi piksel yang tidak diinginkan atau acak, seperti bintik-bintik, blur, atau distorsi yang dapat mengganggu analisis visual.

Ekstraksi fitur

Selanjutnya, insinyur harus memilih fitur yang memberikan informasi yang paling berarti. Mungkin tepi saat mendeteksi bentuk atau intensitas warna jika Hasilnya adalah untuk membedakan objek berdasarkan rona. Karena model machine learning mengandalkan fitur yang diekstraksi secara manual, anotasi data memberi label informasi penting.

Dengan menambahkan keterangan pada objek yang relevan dalam gambar, model dapat lebih mudah mengenali dan mengklasifikasikan objek tertentu, seperti "cat" atau "dog." Data beranotasi yang tepat memungkinkan machine learning untuk mempelajari fitur visual dari setiap Categories secara akurat.

Pengodean untuk machine learning
.

Insinyur mengekstrak fitur-fitur penting dari gambar dan mengubahnya menjadi vektor numerik, sehingga model machine learning dapat lebih mudah memproses dan membandingkan gambar. Insinyur menerjemahkan setiap gambar ke dalam vektor fitur panjang tetap, daftar angka yang merangkum pentingnya.

Pengenalan gambar dengan pembelajaran mendalam
.

Sebaliknya, model pembelajaran mendalam dapat belajar langsung dari gambar. Pembelajaran mendalam, yang merupakan bagian dari machine learning, menggunakan neural networks untuk menangani tugas prapemrosesan dan pengenalan gambar yang lebih kompleks, namun pendekatan ini memerlukan daya komputasi dan jumlah data yang jauh lebih besar.

Convolutional neural networks (CNN) adalah arsitektur pembelajaran mendalam dengan lapisan konvolusional yang menganalisis dan mempelajari sifat terstruktur pada data gambar.

Lapisan input
.

Neural networks mendalam CNN mendeteksi secara otomatis nilai piksel mentah gambar. CNN memproses informasi tersebut melalui berbagai lapisan jaringan mendalam untuk mengekstrak pola dan akhirnya membuat prediksi tentang gambar.

Lapisan jaringan dimulai dengan lapisan input. Lapisan input menerima nilai piksel mentah dari gambar, memperlakukannya sebagai kisi-kisi angka yang mewakili intensitas, lalu meneruskannya ke lapisan berikutnya untuk ekstraksi pola.

Ekstraksi fitur

Selanjutnya, lapisan konvolusi menerapkan filter kecil atau kernel, di atas gambar untuk deteksi pola lokal seperti tepi atau tekstur. Konvolusi mengurangi kebutuhan ekstraksi fitur secara manual karena jaringan dapat mempelajari pola secara langsung dari data.

Setiap kali terjadi konvolusi, fungsi aktivasi menambahkan elemen nonlinier ke dalam model. Hal ini memungkinkan jaringan mengenali pola, bentuk, dan objek yang lebih kompleks dengan menumpuk beberapa lapisan.

Pengumpulan dan perataan

Lapisan pooling melakukan downsampling pada gambar untuk mengurangi ukurannya sambil mempertahankan fitur-fitur penting. Hal ini membantu model tetap efisien secara komputasi dan lebih toleran terhadap variasi seperti rotasi kecil atau pergeseran posisi dalam gambar.

Setelah fitur diekstraksi, jaringan meratakan data menjadi vektor satu dimensi sebelum meneruskannya ke lapisan yang terhubung sepenuhnya. Lapisan ini menggabungkan pola yang telah dipelajari pada tahap sebelumnya untuk mengenali hubungan yang lebih kompleks dan meningkatkan akurasi dalam proses klasifikasi.

Lapisan output
.

Akhirnya, data mencapai hasil, yang mengonsolidasikan fitur-fitur yang diekstraksi dan menghasilkan prediksi akhir. Prediksi yang dihasilkan model dibandingkan dengan kumpulan data untuk menghitung tingkat kesalahan. Hasil ini kemudian digunakan untuk menyesuaikan bobot jaringan guna meningkatkan akurasi model.

Sebagai contoh, untuk melatih model agar dapat mengenali gambar kucing, teknisi dapat menerapkan pembelajaran yang diawasi, mereka memberi label pada ribuan gambar dengan kategori seperti "cat" atau "not cat," sehingga model dapat mempelajari fitur utama seperti tekstur bulu, kumis, dan bentuk telinga.

Atau, dalam pembelajaran tanpa pengawasan, model bekerja dengan data tanpa label untuk menemukan pola secara independen. Dalam kasus tanpa kategori yang telah ditentukan, model menggunakan teknik pengelompokan untuk mengidentifikasi hubungan berdasarkan karakteristik yang sama (seperti bentuk atau tekstur yang serupa).

Pendekatan ini berguna untuk tugas-tugas seperti deteksi penipuan, kontrol kualitas, dan analisis pola ketika data berlabel tidak tersedia. Dalam pembelajaran tanpa pengawasan, model secara mandiri mengelompokkan gambar berdasarkan pola yang serupa, misalnya mengelompokkan semua gambar kucing tanpa mengetahui secara eksplisit bahwa objek dalam gambar tersebut adalah kucing.

Pendekatan lain, yaitu pembelajaran mandiri, menggabungkan aspek pembelajaran tanpa pengawasan, model memulai dengan data tanpa label tetapi kemudian menghasilkan label semu berdasarkan pola yang ada dalam data, hal ini memungkinkan model mempelajari representasi yang bermakna tanpa memerlukan label tradisional, sehingga lebih efektif untuk tugas dengan kumpulan data berlabel terbatas.

Dengan pembelajaran mandiri, model dapat menganalisis bagian tertentu dari sebuah gambar, misalnya merekonstruksi wajah kucing yang sebagian kabur, untuk mengenali pola dan fitur yang mendefinisikan gambar tersebut. Pada akhirnya, model yang telah dilatih—baik dengan machine learning maupun pembelajaran mendalam—dapat secara akurat mengenali dan mengklasifikasikan gambar kucing baru yang belum pernah dilihat sebelumnya, serta membedakannya dari hewan atau objek lain.

Pengenalan gambar menggunakan kotak pembatas untuk mengklasifikasikan kendaraan Pengenalan gambar menggunakan kotak pembatas untuk mengklasifikasikan kendaraan

Tantangan dalam pengenalan gambar
.

Meskipun teknologi pengenalan gambar terus berkembang, masih ada tantangan yang memengaruhi akurasi dan keandalannya. Untuk mengatasi hal ini, insinyur mengembangkan arsitektur model yang lebih canggih, menggunakan kumpulan data pelatihan yang lebih beragam, dan menerapkan teknik prapemrosesan.

Gambar yang berantakan atau dikaburkan
.

Pembelajaran yang diawasi menggunakan data berlabel, di mana setiap gambar diberi tanda dengan kategori yang benar untuk memandu algoritma belajar dari contoh yang jelas. Misalnya, melatih sistem untuk mengenali kucing melibatkan kumpulan data berlabel "kucing" dan "bukan kucing". Model kemudian belajar membedakan berdasarkan pola visual dalam contoh berlabel ini.

Variasi sudut dan perspektif

Dalam pembelajaran tanpa pengawasan, algoritma menggunakan data tanpa label, menemukan pola secara independen. Proses ini dapat diibaratkan seperti memberi anak sekotak mainan untuk disortir berdasarkan kesamaan; algoritma tanpa pengawasan mengelompokkan gambar berdasarkan karakteristik umum (misalnya, kumis, bulu, empat kaki, dan ekor) tanpa mengetahui kategori pastinya.

Kondisi pencahayaan

Perubahan pencahayaan, seperti bayangan, variasi kecerahan, atau lingkungan dengan cahaya redup, dapat memengaruhi kinerja sistem pengenalan gambar. Bintik-bintik terang dapat menghapus detail penting, sementara bayangan dapat menyembunyikan fitur utama, yang berpotensi menyebabkan model salah mengidentifikasi bentuk atau warna objek.

Metode canggih seperti pemerataan histogram adaptif atau pelatihan model dengan data dari berbagai kondisi pencahayaan dapat meningkatkan kinerja dalam berbagai situasi pencahayaan.

Keterbatasan dalam data pelatihan
.

Kinerja model pengenalan gambar tergantung pada keberagaman dan kualitas data pelatihannya. Model yang dilatih dengan kumpulan data yang sebagian besar berisi gambar beresolusi tinggi dan berkualitas ideal mungkin mengalami kesulitan saat harus mengenali gambar dengan kualitas lebih rendah atau menghadapi variasi dalam kondisi dunia nyata.

Untuk mengurangi hal ini, para insinyur mengkurasi berbagai kumpulan data yang mewakili kondisi dunia nyata. Teknik seperti pembelajaran transfer memungkinkan model memanfaatkan pengetahuan dari pelatihan sebelumnya pada kumpulan data besar dan berkualitas tinggi, sehingga dapat meningkatkan kinerja bahkan saat hanya tersedia data terbatas.

Ukuran dan kedekatan objek
.

Ukuran objek dalam gambar, yang bergantung pada jaraknya dari kamera, dapat memengaruhi kemampuan model dalam mengidentifikasinya secara akurat. Objek yang terlalu kecil mungkin kekurangan detail yang cukup untuk dikenali, sementara objek yang terlalu dekat dapat tampak terdistorsi atau terlalu besar, sehingga sulit untuk diklasifikasikan dengan benar oleh model.

Insinyur melatih model pada kumpulan data yang mencakup objek dengan berbagai ukuran dan jarak untuk menangani ini. Teknik pemrosesan gambar multiskala dan piramida fitur digunakan untuk membantu model mengenali objek dalam berbagai ukuran secara lebih akurat.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Pengenalan gambar dan deteksi objek
.

Deteksi objek memperluas pengenalan gambar dengan mengidentifikasi objek dan menentukan lokasi mereka di dalam gambar. Metode ini memungkinkan sistem menjawab pertanyaan seperti, "Where is the cat in this picture?" atau "How many cats are in the scene?" Deteksi objek memberikan konteks yang lebih kaya dengan tidak hanya mengenali objek, tetapi juga menentukan posisi, ukuran, dan orientasinya dalam sebuah gambar.

Misalnya, alih-alih hanya mengenali "a cat" dalam gambar, deteksi objek memungkinkan komputer menentukan, "There’s a cat sitting on the sofa in the left corner of the picture," hal ini memberikan pemahaman spasial tentang tata letak objek dan hubungannya dalam suatu pemandangan.

Tugas pengenalan gambar juga dapat bervariasi dalam kompleksitas. Kategorisasi atau klasifikasi gambar memberikan satu label untuk seluruh gambar berdasarkan isinya, menjawab pertanyaan seperti, "Apa yang ada dalam gambar ini?"

Sebagai contoh, model yang dilatih dengan kumpulan data berlabel kucing dan anjing dapat membedakan keduanya dengan mengenali fitur khas masing-masing, seperti bentuk wajah, tekstur bulu, dan telinga. Ketika disajikan dengan gambar baru, model menganalisis fitur-fitur ini untuk memprediksi apakah itu menunjukkan kucing atau kucing.

Model menggunakan kotak pembatas untuk mengidentifikasi dan menguraikan setiap objek dalam gambar, memisahkannya dari latar belakang serta menentukan posisi dan batasnya secara jelas. Ketepatan ini sangat penting dalam aplikasi seperti kendaraan otonom, di mana deteksi akurat terhadap kendaraan lain, pejalan kaki, dan rambu lalu lintas sangat krusial untuk keselamatan.

Perkembangan penggunaan pengenalan gambar
.

Teknologi pengenalan gambar terus berkembang pesat, membuka peluang untuk aplikasi yang lebih canggih di berbagai industri dan contoh penggunaan. Berikut adalah beberapa aplikasi pengenalan gambar yang dominan di dunia nyata:

Kendaraan otonom

Banyak smartphone kini dilengkapi dengan teknologi pengenalan wajah yang memungkinkan pengguna membuka perangkat hanya dengan melihat layar. Penerapan teknologi ini sudah umum, dengan sistem yang mengenali fitur wajah individu untuk memverifikasi identitas.

Pengenalan wajah

Pengenalan wajah juga banyak digunakan dalam keamanan dan pengawasan untuk mengidentifikasi individu dari umpan video. Lembaga penegak hukum menggunakannya untuk melacak tersangka di tempat umum, sementara perusahaan memanfaatkannya dalam sistem keamanan gedung untuk mengontrol akses.

Manajemen dan moderasi media sosial
.

Platform media sosial memanfaatkan teknologi pengenalan gambar untuk menyarankan tag dalam foto dengan mengenali wajah teman dan keluarga. Mereka juga menggunakan filter realitas augmentasi (AR) yang mendeteksi fitur wajah untuk menempatkan elemen virtual, seperti kacamata atau telinga binatang, agar selaras dengan pergerakan wajah pengguna.

Selain itu, teknologi ini membantu memoderasi konten dengan menyaring gambar yang tidak pantas, menjaga keamanan platform, dan meningkatkan pengalaman pengguna.

Kacamata pintar dan informasi real-time
.

Dibangun pada aplikasi augmented reality (AR) terbaru pada perangkat mobile, kacamata pintar yang dilengkapi dengan perangkat lunak pengenalan gambar dapat memberikan pengguna tampilan tambahan tentang lingkungan sekitar, menampilkan informasi real-time terkait objek dan lokasi.

Teknologi AR memungkinkan penyajian informasi kontekstual, seperti mengenali landmark atau menampilkan detail produk di toko secara instan.

Peralatan rumah tangga

Dalam peralatan rumah tangga, pengenalan gambar digunakan untuk berbagai fitur, seperti pelacakan inventaris pada lemari es pintar, deteksi rintangan pada penyedot debu robotik, serta pengenalan manusia atau objek pada kamera keamanan.

Teknologi ini juga mendukung fitur seperti deteksi jenis kain pada mesin cuci, pengenalan makanan pada oven pintar, serta analisis wajah pada cermin pintar atau monitor bayi.

Robot pengiriman memanfaatkan pengenalan gambar untuk menavigasi lingkungan, mendeteksi rintangan, dan mengidentifikasi lokasi pengiriman guna memastikan pengantaran yang akurat dan efisien.

Sementara itu, robot di gudang dan lingkungan industri menggunakan teknologi serupa untuk memindai dan mengambil barang, melakukan pemeriksaan kualitas, merakit komponen, serta memilah bahan secara otomatis.

Pencitraan medis

Analisis citra medis membantu profesional kesehatan dalam menganalisis sinar-X, MRI, dan CT scan. Sistem ini dapat mendeteksi anomali yang mungkin tidak terlihat oleh mata manusia, seperti tanda-tanda awal kanker paru-paru, stroke, atau tumor, sehingga memungkinkan diagnosis lebih cepat dan akurat.

Merative, yang sebelumnya dikenal sebagai IBM Watson Health, menggunakan pengenalan gambar untuk menganalisis data pencitraan medis yang kompleks, membantu ahli radiologi dalam mengidentifikasi temuan penting.

Pengenalan gambar di bidang medis terus berkembang dengan didukung AI, memungkinkan deteksi penyakit pada tahap awal dengan tingkat akurasi yang lebih tinggi.

Teknologi ini telah meningkatkan deteksi tumor dengan memberikan dukungan tambahan bagi spesialis, berfungsi sebagai "pasang mata kedua" yang sangat terlatih untuk diagnosis lanjutan, terutama dalam analisis detail kecil yang penting.

Pengenalan karakter optik (OCR)

Teknologi OCR mendigitalkan teks yang dicetak dengan memindai dokumen, buku, dan tanda terima. Aplikasi dengan teknologi OCR memungkinkan pengenalan dan konversi teks cetak menjadi format digital yang dapat diedit atau dicari oleh pengguna. OCR adalah salah satu contoh penggunaan awal yang signifikan dalam pengenalan gambar, yang berperan penting dalam mendorong digitalisasi di berbagai industri.

Pemrosesan dokumen
.

Bank dan lembaga keuangan memanfaatkan pengenalan gambar untuk mengotomatiskan verifikasi identitas dan dokumen lainnya, membantu mengurangi penipuan serta mempercepat proses penerimaan pelanggan. Teknologi ini menganalisis gambar dokumen untuk mengekstrak detail penting, mengotentikasi keasliannya, dan mendeteksi potensi anomali untuk ditinjau lebih lanjut.

Solusi terkait
IBM Maximo Visual Inspection

Membebaskan kekuatan visi komputer no-code untuk otomatisasi inspeksi visual.

Jelajahi inspeksi visual Maximo
Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan Kecerdasan buatan
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Ambil langkah selanjutnya

IBM Maximo Visual Inspection menempatkan kekuatan kemampuan AI visi komputer ke tangan tim kontrol kualitas dan inspeksi Anda. Membebaskan kekuatan visi komputer no-code untuk otomatisasi inspeksi visual.

Jelajahi inspeksi visual Maximo Ikuti tur produk