Apa itu Komputer Visi?

Apa itu visi komputer?

Visi komputer adalah bidang kecerdasan buatan (AI) yang menggunakan machine learning dan neural networks untuk mengajari komputer dan sistem untuk mendapatkan informasi yang bermakna dari gambar digital, video, dan input visual lainnya, dan untuk membuat rekomendasi atau mengambil tindakan ketika melihat cacat atau masalah.

Jika AI memungkinkan komputer untuk berpikir, visi komputer memungkinkan mereka untuk melihat, mengamati, dan memahami.

Visi komputer bekerja hampir sama dengan penglihatan manusia, perbedaannya adalah, manusia memiliki keunggulan awal. Penglihatan manusia memiliki keuntungan dari konteks seumur hidup untuk melatih cara membedakan objek, seberapa jauh jaraknya, apakah objek tersebut bergerak atau ada sesuatu yang salah dengan sebuah gambar.

Visi komputer melatih mesin untuk melakukan fungsi-fungsi ini, tetapi harus melakukannya dalam waktu yang jauh lebih singkat dengan kamera, data, dan algoritma, bukan dengan retina, saraf optik, dan korteks visual. Karena sistem yang dilatih untuk memeriksa produk atau mengawasi aset produksi dapat menganalisis ribuan produk atau proses dalam satu menit, dengan memperhatikan cacat atau masalah yang tidak terlihat, sistem ini dapat dengan cepat melampaui kemampuan manusia.

Visi komputer digunakan di berbagai industri mulai dari energi dan utilitas hingga manufaktur dan otomotif, dan pasarnya terus berkembang. Nilai pasarnya diperkirakan akan mencapai USD 48,6 miliar pada tahun 2022.¹

Jelajahi panduan eksklusif kami untuk CSRD UE

Dengan pengungkapan ESG mulai sedini 2025 untuk beberapa perusahaan, pastikan Anda siap dengan panduan kami.

Konten terkait

Bagaimana cara kerja visi komputer?

Visi komputer membutuhkan banyak data. Itu menjalankan analisis data berulang-ulang hingga menemukan perbedaan dan akhirnya mengenali gambar. Contohnya, untuk melatih komputer mengenali ban mobil, komputer harus diberi banyak sekali gambar ban dan benda-benda yang berhubungan dengan ban untuk mempelajari perbedaannya dan mengenali ban, terutama ban yang tidak cacat.

Dua teknologi penting digunakan untuk mencapai hal ini: jenis machine learning yang disebut pembelajaran mendalam dan convolutional neural network (CNN).

Machine learning menggunakan model algoritmik yang memungkinkan komputer untuk mengajarkan dirinya sendiri tentang konteks data visual. Jika cukup banyak data yang dimasukkan melalui model, komputer akan “melihat” data dan mengajarkan dirinya sendiri untuk membedakan satu gambar dari gambar lainnya. Algoritma memungkinkan mesin untuk belajar dengan sendirinya, bukan dengan seseorang yang memprogramnya untuk mengenali gambar.

CNN membantu model machine learning atau pembelajaran mendalam “melihat” dengan memecah gambar menjadi piksel yang diberi tag atau label. CNN menggunakan label untuk melakukan konvolusi (operasi matematika pada dua fungsi untuk menghasilkan fungsi ketiga) dan membuat prediksi tentang apa yang “dilihatnya”. Neural networks menjalankan konvolusi dan memeriksa keakuratan prediksinya dalam serangkaian iterasi hingga prediksi mulai menjadi kenyataan. Kemudian gambar dikenali atau dilihat dengan cara yang mirip dengan manusia.

Sama seperti manusia yang melihat gambar dari kejauhan, CNN pertama-tama membedakan tepi yang keras dan bentuk yang sederhana, kemudian mengisi informasi saat menjalankan iterasi prediksinya. CNN digunakan untuk memahami gambar tunggal. recurrent neural networks (RNN) digunakan dengan cara yang sama untuk aplikasi video guna membantu komputer memahami bagaimana gambar dalam serangkaian bingkai terkait satu sama lain.

Sejarah visi komputer

Ilmuwan dan insinyur telah mencoba mengembangkan cara agar mesin dapat melihat dan memahami data visual selama sekitar 60 tahun. Eksperimen dimulai pada tahun 1959 ketika neurofisiologi memperlihatkan serangkaian gambar kepada seekor kucing, dalam upaya menghubungkan respons dalam otaknya. Mereka menemukan bahwa ia merespons terlebih dahulu terhadap tepi atau garis yang keras dan secara ilmiah, ini berarti bahwa pemrosesan gambar dimulai dengan bentuk-bentuk sederhana seperti tepi yang lurus.²

Pada waktu yang hampir bersamaan, teknologi pemindaian gambar komputer pertama dikembangkan, yang memungkinkan komputer mendigitalkan dan memperoleh gambar. Tonggak sejarah lainnya dicapai pada tahun 1963 ketika komputer mampu mengubah gambar dua dimensi menjadi bentuk tiga dimensi. Pada tahun 1960-an, AI muncul sebagai bidang studi akademis dan juga menandai dimulainya pencarian AI untuk memecahkan masalah penglihatan manusia.

Tahun 1974 menandai diperkenalkannya teknologi pengenalan karakter optik (OCR), yang dapat mengenali teks yang dicetak dengan jenis huruf atau font apa pun.³Demikian pula, pengenalan karakter cerdas (ICR) dapat menguraikan teks tulisan tangan yang menggunakan neural networks.⁴ Sejak saat itu, OCR dan ICR telah digunakan dalam pemrosesan dokumen dan faktur, pengenalan pelat nomor kendaraan, mobile payments, konversi mesin, dan aplikasi umum lainnya.

Pada tahun 1982, ahli saraf David Marr menetapkan bahwa penglihatan bekerja secara hirarkis dan memperkenalkan algoritma bagi mesin untuk mendeteksi tepi, sudut, kurva, dan bentuk dasar yang serupa. Bersamaan dengan itu, ilmuwan komputer Kunihiko Fukushima mengembangkan jaringan sel yang dapat mengenali pola. Jaringan, yang disebut Neocognitron, termasuk lapisan konvolusi dalam neural networks.

Pada tahun 2000, fokus penelitian adalah pada pengenalan objek; dan pada tahun 2001, aplikasi pengenalan wajah real time pertama kali muncul. Standardisasi tentang bagaimana kumpulan data visual ditandai dan dianotasi muncul hingga tahun 2000-an. Pada tahun 2010, kumpulan data ImageNet tersedia. Data berisi jutaan gambar yang diberi tag di ribuan kelas objek dan menyediakan fondasi untuk CNN dan model pembelajaran mendalam yang digunakan saat ini. Pada tahun 2012, sebuah tim dari University of Toronto menyertakan CNN ke dalam kontes pengenalan gambar. Model, yang disebut AlexNet, secara signifikan mengurangi tingkat kesalahan untuk pengenalan gambar. Setelah terobosan ini, tingkat kesalahan telah turun menjadi hanya beberapa persen.⁵

Penelitian visi komputer

Visi komputer dan multimedia di IBM Research

Akses video, makalah, lokakarya, dan lainnya.

Aplikasi visi komputer

Ada banyak penelitian yang dilakukan di bidang visi komputer, tetapi tidak berhenti di situ. Aplikasi dunia nyata menunjukkan betapa pentingnya visi komputer untuk usaha dalam bisnis, hiburan, transportasi, layanan kesehatan, dan kehidupan sehari-hari. Pendorong utama pertumbuhan aplikasi ini adalah banjir informasi visual yang mengalir dari smartphone, sistem keamanan, kamera lalu lintas, dan perangkat visual lainnya. Data ini dapat memainkan peran utama dalam operasi lintas industri, tetapi hari ini tidak digunakan. Informasi tersebut menciptakan tempat uji coba untuk melatih aplikasi visi komputer dan landasan peluncuran agar aplikasi tersebut menjadi bagian dari berbagai aktivitas manusia:

IBM menggunakan visi komputer untuk membuat My Moments pada turnamen golf Masters 2018. IBM® Watson menonton ratusan jam rekaman Masters dan dapat mengidentifikasi pemandangan (dan suara) dari pukulan yang penting. Momen-momen penting ini dikurasi dan dikirimkan kepada penggemar sebagai reel sorotan yang dipersonalisasi.
Google Translate memungkinkan pengguna mengarahkan kamera smartphone ke sebuah papan tanda dalam bahasa lain dan segera mendapatkan terjemahan papan tanda tersebut dalam bahasa pilihan mereka.^.6
Pengembangan kendaraan otonom bergantung pada visi komputer untuk memahami input visual dari kamera mobil dan sensor lainnya. Sangat penting untuk mengidentifikasi mobil lain, rambu lalu lintas, penanda jalur, pejalan kaki, sepeda, dan semua informasi visual lainnya yang ditemui di jalan.
IBM menerapkan teknologi visi komputer dengan mitra seperti Verizon untuk menghadirkan AI yang cerdas dan membantu produsen otomotif mengidentifikasi cacat kualitas sebelum kendaraan meninggalkan pabrik.

Contoh visi komputer

Banyak organisasi tidak memiliki sumber daya untuk mendanai laboratorium visi komputer dan membuat model pembelajaran mendalam dan neural network. Mereka mungkin juga kekurangan daya komputasi yang diperlukan untuk memproses kumpulan data visual yang besar. Perusahaan seperti IBM membantu dengan menawarkan layanan pengembangan perangkat lunak visi komputer. Layanan ini memberikan model pembelajaran yang telah dibangun sebelumnya yang tersedia dari cloud, dan juga meringankan permintaan sumber daya komputasi. Pengguna terhubung ke layanan melalui antarmuka pemrograman aplikasi (API) dan menggunakannya untuk mengembangkan aplikasi visi komputer.

IBM juga telah memperkenalkan platform visi komputer yang mengatasi masalah pengembangan dan sumber daya komputasi. IBM® Maximo Visual Inspection mencakup peralatan yang memungkinkan para ahli subjek untuk memberi label, melatih, dan menerapkan model visi pembelajaran mendalam, tanpa keahlian pengkodean atau pembelajaran mendalam. Model visi dapat diterapkan di pusat data lokal, cloud, dan perangkat edge.

Meskipun makin mudah untuk mendapatkan sumber daya guna mengembangkan aplikasi visi komputer, pertanyaan penting yang harus dijawab sejak awal adalah: Apa sebenarnya yang akan dilakukan aplikasi ini? Memahami dan mendefinisikan tugas visi komputer yang spesifik dapat memfokuskan dan memvalidasi proyek dan aplikasi serta membuatnya lebih mudah untuk memulai.

Berikut adalah beberapa contoh tugas visi komputer yang sudah mapan:

Klasifikasi gambar melihat sebuah gambar dan dapat mengklasifikasikannya (seekor anjing, sebutir apel, wajah seseorang). Lebih tepatnya, itu dapat secara akurat memprediksi bahwa gambar yang diberikan masuk dalam klasifikasi tertentu. Sebagai contoh, sebuah perusahaan media sosial mungkin ingin menggunakannya untuk secara otomatis mengidentifikasi dan memisahkan gambar-gambar yang tidak pantas yang diunggah oleh pengguna.
Deteksi objek dapat menggunakan klasifikasi gambar untuk mengidentifikasi kelas gambar tertentu, lalu mendeteksi dan membuat tabulasi kemunculannya dalam gambar atau video. Contohnya termasuk mendeteksi kerusakan pada jalur perakitan atau mengidentifikasi mesin yang memerlukan pemeliharaan.
Pelacakan objek mengikuti atau melacak objek setelah terdeteksi. Tugas ini sering dijalankan dengan gambar yang diambil secara berurutan atau umpan video real-time. Kendaraan otonom, misalnya, tidak hanya perlu mengklasifikasikan dan mendeteksi objek seperti pejalan kaki, mobil lain, dan infrastruktur jalan, mereka perlu melacaknya saat bergerak untuk menghindari tabrakan dan mematuhi undang-undang lalu lintas.⁷
Pengambilan gambar berbasis konten menggunakan visi komputer untuk menelusuri, mencari, dan mengambil gambar dari penyimpanan data yang besar, berdasarkan konten gambar, bukan tag metadata yang terkait dengannya. Tugas ini dapat menggabungkan anotasi gambar otomatis yang menggantikan penandaan gambar manual. Tugas-tugas ini dapat digunakan untuk sistem manajemen aset digital dan dapat meningkatkan akurasi pencarian dan pengambilan.

Solusi terkait

Perangkat lunak inspeksi visual

Optimalkan keunggulan visi komputer di tangan tim kualitas dan inspeksi Anda. IBM Maximo Visual Inspection membuat visi komputer dengan pembelajaran mendalam lebih mudah diakses oleh pengguna bisnis dengan alat inspeksi visual yang mendukung.

Jelajahi IBM Maximo Visual Inspection

Sumber daya

Blog IBM Research

IBM Research adalah salah satu laboratorium penelitian perusahaan terbesar di dunia. Pelajari lebih lanjut tentang penelitian yang dilakukan di seluruh industri.

Apa itu inspeksi visual?

Pelajari tentang evolusi inspeksi visual dan bagaimana kecerdasan buatan meningkatkan keselamatan dan kualitas.

Sumber daya pengembang

Pelajari selengkapnya tentang memulai visual recognition dan IBM Maximo Visual Inspection. Jelajahi sumber daya dan kursus untuk pengembang.

Sund & Baelt: Menjembatani upaya demi mendapatkan analisis yang lebih baik

Baca bagaimana Sund & Baelt menggunakan teknologi visi komputer untuk menyederhanakan inspeksi dan meningkatkan produktivitas.

Meningkatkan pemeriksaan kualitas

Pelajari bagaimana teknologi visi komputer dapat meningkatkan inspeksi kualitas di bidang manufaktur.

Ambil langkah selanjutnya

Lepaskan kekuatan visi komputer tanpa kode untuk inspeksi visual otomatis dengan IBM Maximo Visual Inspection: sebuah perangkat intuitif untuk melabeli, melatih, dan menerapkan model visi kecerdasan buatan.

Jelajahi inspeksi visual Maximo

Coba demonya