Visi komputer adalah bidang kecerdasan buatan (AI) yang menggunakan machine learning dan neural networks untuk mengajari komputer dan sistem untuk mendapatkan informasi yang bermakna dari gambar digital, video, dan input visual lainnya, dan untuk membuat rekomendasi atau mengambil tindakan ketika melihat cacat atau masalah.
Jika AI memungkinkan komputer untuk berpikir, visi komputer memungkinkan mereka untuk melihat, mengamati, dan memahami.
Visi komputer bekerja hampir sama dengan penglihatan manusia, kecuali manusia memiliki awal yang baik. Penglihatan manusia memiliki keuntungan dari konteks seumur hidup untuk melatih cara membedakan objek, seberapa jauh jaraknya, apakah objek tersebut bergerak atau ada sesuatu yang salah dengan sebuah gambar.
Visi komputer melatih mesin untuk melakukan fungsi-fungsi ini, tetapi harus melakukannya dalam waktu yang jauh lebih singkat dengan kamera, data, dan algoritma, bukan dengan retina, saraf optik, dan korteks visual. Karena sistem yang dilatih untuk memeriksa produk atau mengawasi aset produksi dapat menganalisis ribuan produk atau proses dalam satu menit, dengan memperhatikan cacat atau masalah yang tidak terlihat, sistem ini dapat dengan cepat melampaui kemampuan manusia.
Visi komputer digunakan di berbagai industri mulai dari energi dan utilitas hingga manufaktur dan otomotif—dan pasarnya terus berkembang. Nilai pasarnya diperkirakan akan mencapai USD 48,6 miliar pada tahun 2022.1
Dengan pengungkapan ESG mulai sedini 2025 untuk beberapa perusahaan, pastikan Anda siap dengan panduan kami.
Daftar untuk pedoman tentang manajemen aset yang lebih cerdas
Visi komputer membutuhkan banyak data. Visi komputer menjalankan analisis data berulang-ulang hingga menemukan perbedaan dan akhirnya mengenali gambar. Contohnya, untuk melatih komputer mengenali ban mobil, komputer harus diberi banyak sekali gambar ban dan benda-benda yang berhubungan dengan ban untuk mempelajari perbedaannya dan mengenali ban, terutama ban yang tidak cacat.
Dua teknologi penting digunakan untuk mencapai hal ini: jenis machine learning yang disebut pembelajaran mendalam dan convolutional neural network (CNN).
Machine learning menggunakan model algoritma yang memungkinkan komputer untuk mengajari dirinya sendiri tentang konteks data visual. Jika cukup banyak data yang dimasukkan melalui model, komputer akan "melihat" data dan mengajari dirinya sendiri cara membedakan satu gambar dari gambar lainnya. Algoritma memungkinkan mesin untuk belajar dengan sendirinya, dan tidak memerlukan orang untuk memprogramnya mengenali gambar.
CNN membantu model machine learning atau pembelajaran mendalam “melihat” dengan memecah gambar menjadi piksel yang diberi tag atau label. CNN menggunakan label untuk melakukan konvolusi (operasi matematika pada dua fungsi untuk menghasilkan fungsi ketiga) dan membuat prediksi tentang apa yang “dilihatnya”. Neural networks menjalankan konvolusi dan memeriksa keakuratan prediksinya dalam serangkaian iterasi hingga prediksi mulai menjadi kenyataan. Kemudian gambar dikenali atau dilihat dengan cara yang mirip dengan pada manusia.
Sama seperti manusia yang melihat gambar dari kejauhan, CNN pertama-tama membedakan tepi yang keras dan bentuk yang sederhana, kemudian mengisi informasi saat menjalankan iterasi prediksinya. CNN digunakan untuk memahami gambar tunggal. Neural networks berulang (RNN) digunakan dengan cara yang sama untuk aplikasi video untuk membantu komputer memahami bagaimana gambar dalam serangkaian bingkai terkait satu sama lain.
Para ilmuwan dan insinyur telah mencoba mengembangkan cara agar mesin dapat melihat dan memahami data visual selama sekitar 60 tahun. Eksperimen dimulai pada tahun 1959 ketika ahli neurofisiologi memperlihatkan serangkaian gambar kepada seekor kucing, dalam upaya menghubungkan respons dalam otaknya. Mereka menemukan bahwa ia merespons terlebih dahulu terhadap tepi atau garis yang keras dan secara ilmiah, ini berarti bahwa pemrosesan gambar dimulai dengan bentuk-bentuk sederhana seperti tepi yang lurus.2
Pada waktu yang hampir bersamaan, teknologi pemindaian gambar komputer pertama dikembangkan, yang memungkinkan komputer mendigitalkan dan memperoleh gambar. Tonggak sejarah lainnya dicapai pada tahun 1963 ketika komputer mampu mengubah gambar dua dimensi menjadi bentuk tiga dimensi. Pada tahun 1960-an, AI muncul sebagai bidang studi akademis dan juga menandai dimulainya pencarian AI untuk memecahkan masalah penglihatan manusia.
Tahun 1974 merupakan awal diperkenalkannya teknologi pengenalan karakter optik (OCR), yang dapat mengenali teks yang dicetak dalam berbagai jenis huruf.3 Demikian pula, pengenalan karakter cerdas (ICR) dapat menguraikan teks tulisan tangan yang menggunakan neural networks.4 Sejak saat itu, OCR dan ICR telah menemukan jalannya ke dalam pemrosesan dokumen dan faktur, pengenalan plat kendaraan, pembayaran seluler, konversi mesin, dan aplikasi umum lainnya.
Pada tahun 1982, ahli saraf David Marr menetapkan bahwa penglihatan bekerja secara hirarkis dan memperkenalkan algoritma bagi mesin untuk mendeteksi tepi, sudut, kurva, dan bentuk dasar yang serupa. Bersamaan dengan itu, ilmuwan komputer Kunihiko Fukushima mengembangkan jaringan sel yang dapat mengenali pola. Jaringan, yang disebut Neocognitron, termasuk lapisan konvolusi dalam neural networks.
Pada tahun 2000, fokus penelitian adalah pada pengenalan objek; dan pada tahun 2001, aplikasi pengenalan wajah real time pertama kali muncul. Standardisasi tentang bagaimana kumpulan data visual ditandai dan dianotasi muncul hingga tahun 2000-an. Pada tahun 2010, kumpulan data ImageNet menjadi tersedia. Data berisi jutaan gambar yang diberi tag di ribuan kelas objek dan menyediakan fondasi untuk CNN dan model pembelajaran mendalam yang digunakan saat ini. Pada tahun 2012, sebuah tim dari University of Toronto memasukkan CNN ke dalam kontes pengenalan gambar. Model, yang disebut AlexNet, secara signifikan mengurangi tingkat kesalahan untuk pengenalan gambar. Setelah terobosan ini, tingkat kesalahan telah turun menjadi hanya beberapa persen.5
Akses video, makalah, lokakarya, dan lainnya.
Ada banyak penelitian yang dilakukan di bidang visi komputer, tetapi tidak berhenti di situ. Aplikasi dunia nyata menunjukkan betapa pentingnya visi komputer untuk usaha dalam bisnis, hiburan, transportasi, perawatan kesehatan, dan kehidupan sehari-hari. Pendorong utama pertumbuhan aplikasi ini adalah banjir informasi visual yang mengalir dari ponsel pintar, sistem keamanan, kamera lalu lintas dan perangkat visual lainnya. Data ini dapat memainkan peran utama dalam operasi lintas industri, tetapi hari ini tidak digunakan. Informasi tersebut menciptakan tempat uji coba untuk melatih aplikasi visi komputer dan landasan peluncuran agar aplikasi tersebut menjadi bagian dari berbagai aktivitas manusia:
Banyak organisasi tidak memiliki sumber daya untuk mendanai laboratorium visi komputer dan membuat model pembelajaran mendalam dan neural network. Mereka mungkin juga kekurangan daya komputasi yang diperlukan untuk memproses set besar data visual. Perusahaan seperti IBM membantu dengan menawarkan layanan pengembangan perangkat lunak visi komputer. Layanan ini memberikan model pembelajaran yang telah dibuat sebelumnya yang tersedia dari cloud—dan juga meringankan permintaan sumber daya komputasi. Pengguna terhubung ke layanan melalui antarmuka pemrograman aplikasi (API) dan menggunakannya untuk mengembangkan aplikasi visi komputer.
IBM juga telah memperkenalkan platform visi komputer yang mengatasi masalah pengembangan dan sumber daya komputasi. IBM Maximo Visual Inspection mencakup peralatan yang memungkinkan para ahli subjek untuk memberi label, melatih, dan menerapkan model visi pembelajaran mendalam—tanpa keahlian pengkodean atau pembelajaran mendalam. Model visi dapat diterapkan di pusat data lokal, cloud, dan perangkat edge.
Meskipun makin mudah untuk mendapatkan sumber daya guna mengembangkan aplikasi visi komputer, pertanyaan penting yang harus dijawab sejak awal adalah: Apa sebenarnya yang akan dilakukan aplikasi ini? Memahami dan mendefinisikan tugas visi komputer yang spesifik dapat memfokuskan dan memvalidasi proyek dan aplikasi serta membuatnya lebih mudah untuk memulai.
Berikut adalah beberapa contoh tugas visi komputer yang sudah mapan:
Optimalkan keunggulan visi komputer di tangan tim mutu dan inspeksi Anda. IBM Maximo Visual Inspection membuat visi komputer dengan pembelajaran mendalam lebih mudah diakses oleh pengguna bisnis dengan alat inspeksi visual yang memberdayakan.
IBM Research adalah salah satu laboratorium penelitian perusahaan terbesar di dunia. Pelajari lebih lanjut tentang penelitian yang dilakukan di seluruh industri.
Pelajari tentang evolusi inspeksi visual dan bagaimana kecerdasan buatan meningkatkan keselamatan dan kualitas.
Pelajari selengkapnya tentang memulai visual recognition dan IBM Maximo Visual Inspection. Jelajahi sumber daya dan kursus untuk pengembang.
Baca bagaimana Sund & Baelt menggunakan teknologi visi komputer untuk menyederhanakan inspeksi dan meningkatkan produktivitas.
Pelajari bagaimana teknologi visi komputer dapat meningkatkan inspeksi kualitas di bidang manufaktur.
1. https://www.forbes.com/sites/bernardmarr/2019/04/08/7-amazing-examples-of-computer-and-machine-vision-in-practice/#3dbb3f751018 (tautan berada di luar ibm.com)
2. https://hackernoon.com/a-brief-history-of-computer-vision-and-convolutional-neural-networks-8fe8aacc79f3 (tautan berada di luar ibm.com)
3. Pengenalan karakter optik, Wikipedia (tautan berada di luar ibm.com)
4. Pengenalan karakter cerdas, Wikipedia (tautan berada di luar ibm.com)
5. Sejarah Singkat Visi Komputer (dan Jaringan Syaraf Tiruan), Rostyslav Demush, Hacker Noon, 27 Februari 2019 (tautan berada di luar ibm.com)
6. 7 Contoh Menakjubkan Visi Komputer dan Mesin Dalam Praktik, Bernard Marr, Forbes, 8 April 2019 (tautan berada di luar ibm.com)
7. 5 Teknik Visi Komputer yang Akan Mengubah Cara Anda Melihat Dunia, James Le, Heartbeat, 12 April 2018 (tautan berada di luar ibm.com)