Apa itu visi komputer?

Penyusun

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu visi komputer?

Visi komputer adalah subbidang dari kecerdasan buatan (AI) yang melengkapi mesin dengan kemampuan untuk memproses, menganalisis, dan menafsirkan input visual seperti gambar dan video. Bidang ini menggunakan machine learning untuk membantu komputer dan sistem lain memperoleh informasi yang berarti dari data visual.

Visi komputer dapat digambarkan sebagai interaksi antara tiga proses luas, masing-masing bekerja bersama dan saling menginformasikan satu sama lain: pengenalan, rekonstruksi, dan pengaturan ulang. Pengenalan gambar adalah tentang mengidentifikasi tindakan, objek, orang, tempat, dan menulis dalam gambar atau video digital. Rekonstruksi menurunkan karakteristik tiga dimensi dari entitas tersebut, sementara pengaturan ulang menyimpulkan hubungan antara entitas.1

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Cara kerja visi komputer

Pencitraan radiologi dalam diagnosis pneumonia adalah contoh penggunaan umum dalam visi komputer. Ahli radiologi harus menginterpretasikan rontgen dada dengan hati-hati, suatu proses yang rentan terhadap kesalahan dan memakan waktu karena gejala pneumonia yang tidak kentara dan kemiripannya dengan kondisi paru-paru lainnya.2 Sistem visi komputer dapat membantu.

Ada beberapa jenis model dan pendekatan untuk tugas visi komputer, tetapi contoh hipotetis berikut ini mengilustrasikan alur kerja yang umum:

  1. Pengumpulan data
  2. Prapemrosesan
  3. Pemilihan model
  4. Pelatihan model

Pengumpulan data

Langkah pertama adalah mengumpulkan data visual yang diperlukan. Rumah sakit menghasilkan volume besar sinar-X dada, yang dapat mereka gunakan untuk melatih algoritma visi komputer. Karena tujuannya adalah agar algoritma dapat mengklasifikasikan apakah gambar sinar-X menggambarkan pneumonia atau tidak, rumah sakit perlu mengumpulkan kumpulan data pemindaian sinar-X dada dan memberi label atau anotasi dengan benar pada setiap pemindaian sebagai normal atau menandakan pneumonia.

Untuk contoh penggunaan lainnya, gambar dan video dapat berasal dari sumber seperti kamera dan sensor. Kumpulan data seperti COCO, ImageNet, dan Open Images menyediakan koleksi besar gambar beranotasi.

Prapemrosesan

Kualitas model AI bergantung pada data yang digunakan untuk melatihnya, sehingga data berkualitas tinggi penting untuk visi komputer. Prapemrosesan dapat membantu meningkatkan kualitas data melalui pembersihan dan penyempurnaan data, seperti menyesuaikan kecerahan atau kontras untuk mempertajam gambar, serta mengubah ukuran dan menghaluskan.

Kumpulan data juga harus cukup besar dan cukup beragam agar algoritma visi komputer dapat menghasilkan hasil yang akurat. Pembuatan data sintetis dan augmentasi data dapat membantu memperluas ukuran dan keberagaman kumpulan data. Sebagai contoh, rumah sakit dapat menggunakan transformasi geometris seperti memutar gambar rontgen dada ke kiri atau ke kanan atau membalik gambar untuk meningkatkan data mereka.

Pemilihan model

Memilih model machine learning yang tepat penting untuk mengoptimalkan efisiensi dan kinerja. Neural networks konvolusional (CNN) terus menjadi model pembelajaran mendalam utama untuk tugas pemrosesan gambar, sementara recurrent neural networks (RNN) sangat cocok untuk memproses data berurutan seperti bingkai video.

Namun, kemajuan dalam AI mendorong pergeseran ke arah model transformator. Misalnya, transformator visi (ViT) menerapkan elemen model bahasa berbasis transformator ke visi komputer. ViT memproses gambar menjadi kotak-kotak dan memperlakukannya sebagai urutan, mirip dengan token dalam transformator bahasa. Transformator visi kemudian mengimplementasikan mekanisme perhatian diri di seluruh kotak-kotak ini untuk menciptakan representasi berbasis transformator dari gambar input. ViT sering kali menyamai atau melampaui kinerja CNN pada tugas visi komputer seperti klasifikasi gambar.3

Pelatihan model

Pelatihan model dilakukan setelah model dipilih. Tahap pelatihan melibatkan menjalankan model pada data pelatihan yang spesifik untuk tugas visi komputer, mengukur kinerja terhadap kebenaran dasar dan mengoptimalkan parameter untuk meningkatkan kinerja dari waktu ke waktu.

CNN terdiri dari tiga jenis lapisan: lapisan konvolusional, lapisan pengumpulan, dan lapisan yang terhubung sepenuhnya. Lapisan konvolusional adalah tempat ekstraksi fitur terjadi. Ekstraksi fitur memerlukan penentuan dan penangkapan atribut visual utama dari data gambar mentah, seperti warna, tepi, bentuk, dan tekstur. Dalam kasus gambar sinar-X dengan pneumonia, fitur yang akan diekstrak termasuk kontur paru-paru asimetris, daerah terang yang mengindikasikan peradangan atau adanya cairan (berlawanan dengan daerah gelap yang berisi udara), daerah paru-paru yang keruh atau buram, dan tekstur yang kasar atau tidak rata.4 Ekstraksi fitur memungkinkan algoritma untuk membedakan hubungan dan pola yang signifikan dalam data visual.

Gambar sinar-X diperlakukan sebagai matriks nilai piksel. Matriks bobot lain (parameter yang mengontrol seberapa besar pengaruh fitur input tertentu pada output model) yang dikenal sebagai filter atau kernel diterapkan ke area gambar sinar-X, dengan perkalian titik dihitung antara nilai piksel input. Filter pindah atau "membelit" gambar untuk mengekstrak fitur dan seluruh proses ini dikenal sebagai konvolusi. Output akhir dari rangkaian perkalian titik disebut peta aktivasi atau peta fitur. Setiap filter disetel untuk merespons pola tertentu, seperti tepi, bentuk, atau tekstur, sehingga CNN dapat mempelajari beberapa fitur visual secara bersamaan.

 Peta fitur dimasukkan ke dalam lapisan pengumpulan untuk semakin mengurangi ukuran peta dan mengompres dimensinya. Filter lain menyapu seluruh input, mengambil nilai maksimum atau rata-rata dalam sekelompok sel dalam peta fitur. Ini mempertahankan fitur yang paling penting, memungkinkan model untuk memfokuskan perhatiannya pada mereka.

 Tindakan bergerak melintasi gambar untuk mengekstrak fitur, mengurangi dimensi, dan menghasilkan klasifikasi dikenal sebagai forward pass. Setelah forward pass ini, model menerapkan fungsi kerugian untuk menghitung kesalahannya atau perbedaan antara klasifikasi yang diprediksi dan klasifikasi sebenarnya.

Propagasi balik digunakan untuk meminimalkan fungsi kesalahan. Propagasi balik adalah backward pass untuk menghitung gradien fungsi kesalahan sehubungan dengan setiap bobot. Kemudian, teknik penurunan gradien diimplementasikan untuk memperbarui bobot model dan mengoptimalkan model.

Terakhir, lapisan yang terhubung sepenuhnya melakukan tugas klasifikasi berdasarkan fitur yang diekstrak melalui lapisan sebelumnya dan filter yang berbeda. CNN kemudian menghasilkan output yang merupakan probabilitas untuk setiap kelas (dalam hal ini, normal vs pneumonia). Untuk tugas klasifikasi gambar sinar-X dada, output ini akan menunjukkan pemindaian normal atau, jika kemungkinannya melewati ambang batas yang telah ditentukan, pemindaian positif pneumonia.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tugas visi komputer

Algoritma visi komputer dapat dilatih pada berbagai tugas, beberapa di antaranya meliputi:

  • Pengenalan gambar
  • Klasifikasi Gambar
  • Deteksi objek
  • Segmentasi gambar
  • Pelacakan objek
  • Pemahaman adegan
  • Pengenalan wajah
  • Estimasi pose
  • Pengenalan karakter optik
  • Pembuatan gambar
  • Inspeksi visual

Pengenalan gambar

Pengenalan gambar adalah bentuk terluas dari visi komputer. Ini mencakup identifikasi orang, tempat, objek, dan entitas lain dalam gambar digital dan berfungsi sebagai dasar untuk tugas seperti klasifikasi gambar, deteksi objek, dan segmentasi gambar.

Klasifikasi gambar

Klasifikasi gambar adalah tugas inti visi komputer yang mengategorikan gambar ke dalam kelompok atau kelas yang telah ditentukan. Ini memprediksi label yang paling cocok untuk gambar atau objek dalam gambar. Skenario diagnosis pneumonia yang diilustrasikan sebelumnya menggunakan sinar-X dada adalah contoh klasifikasi gambar.

Deteksi objek

Deteksi objek bertujuan untuk menentukan di mana objek berada dalam gambar digital. Tugas ini menggabungkan dua teknik pembelajaran: lokalisasi objek dan klasifikasi gambar.

Lokalisasi objek mengidentifikasi lokasi objek tertentu dalam gambar dengan menggambar kotak pembatas di sekitarnya. Kemudian, klasifikasi gambar membedakan kategori yang berkaitan dengan objek. Dalam rekaman lalu lintas jalan, misalnya, aplikasi visi komputer dapat menggunakan deteksi objek untuk tidak hanya mengklasifikasikan kendaraan tetapi juga menemukannya di jalan.

Perangkat lunak deteksi objek yang digunakan pada lalu lintas

Arsitektur CNN yang umum untuk deteksi objek termasuk R-CNN (neural networks konvolusional berbasis wilayah) dan YOLO (Anda hanya melihat sekali). R-CNN mengimplementasikan deteksi dua tahap dengan terlebih dahulu menentukan wilayah yang mengandung objek, kemudian menjalankan wilayah tersebut melalui jaringan terpisah untuk klasifikasi dan lokalisasi yang lebih tepat. Sementara itu, YOLO melakukan deteksi satu tahap dengan memadukan lokalisasi dan klasifikasi dalam satu lintasan jaringan, membuatnya cukup cepat untuk deteksi objek secara real-time.

Deteksi objek untuk video biasanya menggunakan model berbasis transformator dan RNN, khususnya arsitektur memori jangka pendek yang panjang.

Segmentasi gambar

Segmentasi gambar adalah versi deteksi objek tingkat piksel yang lebih akurat. Tugas ini membagi gambar digital ke dalam kelompok piksel yang dikenal sebagai segmen gambar, kemudian melabeli piksel menurut kelas atau contoh.

Sementara deteksi dapat mengklasifikasikan beberapa elemen dalam gambar dan memperkirakan lebar dan tinggi setiap elemen, segmentasi gambar membedakan batas atau bentuk yang tepat. Hal ini membuat segmentasi gambar berharga untuk menguraikan objek yang sangat berkelompok dengan kotak pembatas yang tumpang tindih.

Segmentasi gambar dapat dibagi lagi ke dalam tiga jenis tugas:

  • Segmentasi semantik adalah jenis yang paling sederhana, menetapkan kelas semantik—kategori spesifik yang mungkin berkaitan dengan piksel tertentu—pada setiap piksel.
  • Segmentasi contoh memprediksi batas yang tepat terkait piksel dari setiap contoh objek dalam gambar.
  • Segmentasi panoptik menggabungkan segmentasi semantik dan contoh dengan menentukan klasifikasi semantik dari semua piksel dan membedakan setiap contoh objek dalam gambar.

Misalnya, dalam gambar jalan kota, segmentasi semantik mungkin memperlakukan mobil yang diparkir satu mobil di depan mobil lain sebagai satu segmen mobil yang panjang, sementara segmentasi contoh memisahkan dan menentukan bentuk setiap mobil.

Grafik yang membandingkan gambar sumber dengan segmentasi semantik, contoh, dan panoptik.

Pelacakan objek

Pelacakan objek mengikuti dan melacak objek saat pindah melintasi urutan bingkai video atau gambar. Ini menunjukkan dengan tepat dan membedakan objek di setiap frame dan mempertahankan kontinuitas objek selama melintas.

Pemahaman adegan

Pemahaman adegan meluas selangkah melampaui pengenalan objek, menangkap tingkat informasi visual yang lebih tinggi. Setelah mengidentifikasi objek dalam sebuah gambar, model pembelajaran mendalam memprediksi hubungan di antara semua objek tersebut, seperti tindakan, peristiwa, dan interaksi.

Neural networks grafik (GNN) dapat digunakan untuk menunjukkan hubungan spasial antara berbagai objek dalam gambar. Dalam contoh rekaman lalu lintas, sistem visi komputer dapat menyimpulkan bahwa sebuah taksi bergerak di depan sebuah mobil, sebuah mobil diparkir di sebelah kiri taksi, atau sebuah mobil berbelok ke kanan.

Model bahasa visi (VLM) juga dapat membantu pemahaman adegan. Pemasangan model bahasa besar (LLM) dengan transformator visi ini dapat mengenali dan mengklasifikasikan objek dalam gambar dan memberikan deskripsi kontekstual seperti posisi objek relatif terhadap elemen visual lainnya.

Pengenalan wajah

Pengenalan wajah menerapkan pengenalan gambar ke fitur wajah. Fitur ini menangkap geometri wajah dan menemukan pola-pola utama seperti jarak antara mata, jarak dari dahi ke dagu, kontur hidung, dan bentuk bibir.

Pengenalan wajah dapat mengidentifikasi individu secara real-time atau dalam foto atau video. Contoh populer adalah autentikasi biometrik melalui pengenalan wajah untuk membuka ponsel pintar.

 

Autentikasi wajah biometrik

Estimasi pose

Estimasi pose mengukur posisi spasial bagian tubuh yang berbeda untuk mengenali gerakan dan melacak gerakan tubuh. Contohnya, estimasi pose dapat membantu menandai orientasi lengan dan tangan gamer selama bermain game virtual reality. Contoh yang lebih nyata adalah perangkat lunak visi komputer NASA yang memberikan operator lengan robotik di Stasiun Luar Angkasa Internasional dengan estimasi pose real-time untuk menggenggam target secara tepat.5

Pengenalan karakter optik

Pengenalan karakter optik (OCR), disebut juga sebagai pengenalan teks, mengekstrak dan mengonversi teks dari gambar, dokumen yang dipindai, dan sumber lain ke dalam format yang dapat dibaca mesin. Dengan demikian, aplikasi ini membantu mengotomatiskan digitalisasi teks tulisan tangan dan catatan kertas.

Alur kerja OCR mengikuti langkah-langkah berikut:

  1. Akuisisi gambar mengubah gambar atau dokumen digital menjadi versi hitam-putih, dengan area terang ditandai sebagai latar belakang dan area gelap ditandai sebagai karakter untuk dikenali.
  2. Prapemrosesan menghilangkan piksel yang tidak penting dan dapat menyertakan fungsi koreksi kemiringan untuk mengoreksi gambar yang tidak sejajar secara tepat selama pemindaian.
  3. Pengenalan teks menemukan huruf alfabet, digit numerik atau simbol, menargetkan satu karakter pada satu waktu. Kemudian mengidentifikasi karakter melalui pengenalan pola, mencocokkan font, skala, dan bentuk karakter dengan templat.

CNN dan model berbasis transformator mampu mengenali karakter yang lebih cerdas, mengekstraksi fitur seperti kurva, perpotongan garis, putaran, dan jumlah garis bersudut dalam suatu karakter. Algoritma ini juga mampu mengenali kata secara cerdas, membedakan kata dan bukan karakter untuk pemrosesan yang lebih cepat.

Pembuatan gambar

Pembuatan gambar menggunakan model AI generatif untuk menghasilkan gambar. Berikut adalah beberapa model generatif umum yang digunakan untuk pembuatan gambar:

  • Model difusi dilatih untuk membuat gambar baru dengan mempelajari cara menghilangkan ketidakakuratan atau merekonstruksi sampel dalam data pelatihan mereka yang secara bertahap disebarkan dengan ketidakakuratan acak dan diacak tanpa bisa dikenali.
  • Generative adversarial networks (GAN) terdiri dari dua neural networks: generator yang menciptakan data sintetis dan diskriminator yang bertindak sebagai musuh, membedakan antara gambar buatan dan gambar sungguhan. Kedua jaringan dilatih secara berulang, dengan masukan diskriminator meningkatkan output generator sampai diskriminator tidak lagi dapat membedakan gambar buatan dari gambar sungguhan.
  • Variational autoencoders (VAE) adalah model pembelajaran mendalam yang menghasilkan variasi gambar yang dilatih padanya. Encoder mengompresi gambar input ke dalam ruang dimensi yang lebih rendah, menangkap informasi berarti yang terkandung dalam gambar. Sebuah decoder kemudian merekonstruksi gambar baru dari representasi yang dikompresi ini.

VLM juga mampu menghasilkan gambar yang diberikan deskripsi teks.

Inspeksi visual

Inspeksi visual mengotomatiskan identifikasi cacat. Melalui deteksi objek, sistem visi komputer memeriksa gambar atau video untuk menemukan kesalahan dan kekurangan. Segmentasi gambar juga dapat diimplementasikan untuk menemukan cacat dengan lebih tepat.

Mesin inspeksi visual yang didukung visi komputer dapat membantu perusahaan melakukan inspeksi yang lebih cepat dan lebih aman dengan peningkatan konsistensi dan akurasi, baik itu menunjukkan korosi pada area jembatan yang sulit dijangkau atau menemukan konektor yang rusak pada produk elektronik rakitan.

Aplikasi visi komputer

Sebagai bidang AI yang matang, visi komputer telah melalui banyak kemajuan, yang mengarah ke kumpulan luas contoh penggunaan. Berikut adalah beberapa aplikasi visi komputer di dunia nyata:

Pertanian

Kamera, drone, dan satelit menangkap gambar tanaman dan area pertanian dengan resolusi tinggi. Teknologi visi komputer kemudian menganalisis semua gambar ini untuk membantu mengevaluasi kesehatan tanaman dan menentukan hama dan gulma untuk aplikasi herbisida yang lebih ditargetkan.

Kendaraan otonom

Dalam industri otomotif, mobil otonom menyusun model 3D dari lingkungan mereka menggunakan campuran kamera, lidar, radar, dan sensor. Kemudian, mereka menerapkan deteksi objek, segmentasi gambar, dan pemahaman pemandangan untuk navigasi yang aman, menghindari rintangan seperti pejalan kaki dan kendaraan lain, dan secara tepat mendeteksi fitur jalan seperti jalur, lampu lalu lintas, dan rambu lalu lintas.

Layanan Kesehatan

Pencitraan medis adalah area utama aplikasi untuk visi komputer. Sebagai contoh, deteksi objek dapat mengotomatiskan analisis gambar, menemukan dan mengidentifikasi penanda potensial penyakit dalam sinar-X dan pemindaian CT, MRI, dan ultrasound. Selain itu, segmentasi contoh dapat menggambarkan batas-batas spesifik organ, jaringan, dan tumor, membantu diagnosis lebih akurat yang dapat merekomendasikan pengambilan keputusan lebih baik untuk pengobatan dan perawatan pasien.

Manufaktur

Sistem visi komputer membantu manajemen inventaris, memindai item untuk menentukan tingkat stok. Mereka juga dapat memperkuat kualitas daya, mengenali cacat secara real-time. Sistem ini menganalisis gambar produk dan dapat dengan cepat dan lebih akurat menandai kesalahan atau inkonsistensi dibandingkan dengan pemeriksa yang menggunakan penglihatan manusia.

Retail dan e-commerce

Teknologi Just Walk Out dari Amazon, misalnya, menggunakan visi komputer di toko retail kecil dan layanan makanan untuk melacak pilihan pelanggan dan mengotomatiskan pengalaman checkout. Pelanggan bisa langsung mengambil barang mereka dan pergi tanpa harus mengantre di konter pembayaran.6

Toko online juga dapat menggunakan augmented reality ditambah dengan pengenalan wajah dan estimasi pose untuk pengalaman uji coba virtual mereka, sehingga pelanggan dapat memvisualisasikan bagaimana pakaian, kacamata, atau riasan akan terlihat pada mereka sebelum membeli.

Robotika

Seperti kendaraan otonom, robot menggunakan kamera, lidar, dan sensor untuk memetakan lingkungan sekitar. Mereka kemudian menerapkan algoritma visi komputer untuk menyelesaikan tugas, seperti membantu ahli bedah dengan prosedur yang rumit, menjelajahi gudang untuk mengangkut barang, hanya memilih produk yang sudah matang, dan meletakkan benda-benda di lini perakitan.

Eksplorasi luar angkasa

Deteksi objek dapat membantu pesawat ruang angkasa menemukan dan menghindari bahaya selama pendaratan, sementara penjelajah dapat menerapkan kemampuan yang sama untuk menjelajahi medan.7 Klasifikasi citra dapat digunakan untuk mengategorikan asteroid, meteor, dan bahkan puing-puing ruang angkasa, sementara pelacakan objek memonitor lintasan objek astronomi ini.

Alat visi komputer

Tersedia banyak alat untuk membangun aplikasi visi komputer yang membantu merampingkan proses pengembangan. Beberapa alat yang populer meliputi:

  • Keras
  • OpenCV
  • Scikit-image
  • Tensorflow
  • Torchvision

Keras

Keras adalah antarmuka pemrograman aplikasi (API) pembelajaran mendalam yang dapat berjalan di atas kerangka kerja AI lainnya seperti PyTorch dan TensorFlow. API ini menyediakan puluhan tutorial dan contoh untuk berbagai tugas visi komputer, termasuk klasifikasi gambar dan video, segmentasi gambar, deteksi objek, dan OCR.

OpenCV

OpenCV adalah salah satu pustaka visi komputer yang paling banyak digunakan. Pustaka sumber terbuka ini dihuni oleh lebih dari 2.500 algoritma visi komputer dan berisi modul untuk pemrosesan gambar, deteksi objek, analisis video, dan banyak lagi. Pustaka ini ditulis dalam C++ tetapi juga memiliki pembungkus untuk bahasa pemrograman seperti Java dan Python.

Scikit-image

Scikit-image adalah kumpulan algoritma sumber terbuka untuk pemrosesan gambar di Python. Pustaka ini mendukung berbagai tugas, antara lain, prapemrosesan, ekstraksi fitur, deteksi objek, dan segmentasi gambar. Kesederhanaannya membuatnya dapat diakses oleh pemula.

Tensorflow

TensorFlow adalah platform machine learning sumber terbuka dari Google. Meskipun melayani aplikasi pembelajaran mendalam untuk tujuan yang lebih umum, TensorFlow juga menyediakan kumpulan data khusus visi komputer, alat untuk prapemrosesan, dan fungsi untuk klasifikasi gambar dan video, segmentasi gambar, dan deteksi objek.

Torchvision

Pustaka torchvision merupakan bagian dari ekosistem PyTorch. Ini mencakup transformasi gambar umum, kumpulan data, dan fungsi utilitas lainnya. Paket ini juga menawarkan model untuk klasifikasi gambar dan video, deteksi objek, serta segmentasi semantik dan contoh.

Sejarah singkat visi komputer

Visi komputer adalah salah satu disiplin ilmu AI yang paling awal. Selama beberapa dekade, para peneliti ilmu komputer telah mengembangkan cara bagi mesin untuk memahami data visual.

Eksperimen dimulai pada tahun 1950-an hingga 1960-an ketika para ahli neurofisiologi menunjukkan serangkaian gambar kepada kucing seraya merekam aktivitas saraf. Mereka menemukan bahwa semua hewan tersebut pertama kali merespons garis yang menyimpulkan bahwa pemrosesan gambar dimulai dengan bentuk-bentuk sederhana seperti tepi yang lurus.8

Pada waktu yang hampir bersamaan, teknologi pemindaian gambar komputer pertama dikembangkan, melengkapi komputer dengan kemampuan untuk mendigitalkan dan mengakuisisi gambar.9 Tonggak sejarah lainnya dicapai ketika komputer mengembangkan kemampuan untuk mengubah gambar dua dimensi menjadi bentuk tiga dimensi.10

Pada tahun 1982, ilmuwan saraf David Marr menunjukkan bahwa penglihatan bekerja secara hierarkis dan memperkenalkan algoritma bagi mesin untuk mendeteksi sudut, kurva, tepi, dan bentuk dasar yang serupa.11 Pada dekade yang sama, ilmuwan komputer Kunihiko Fukushima mengembangkan jaringan sel yang dapat mengenali pola dan menamainya "neocognitron", yang mencakup lapisan konvolusional dalam neural networks.12

Pada tahun 2000, fokus penelitian adalah klasifikasi gambar dan pengenalan objek.13 Pada tahun 2009, kumpulan data ImageNet diperkenalkan, yang berisi jutaan gambar berlabel untuk melatih algoritma visi komputer.14 Pada tahun 2012, sebuah tim dari University of Toronto menciptakan AlexNet CNN, yang dilatih dengan kumpulan data ImageNet dan secara signifikan mengurangi tingkat kesalahan untuk pengenalan gambar, membuka jalan bagi model visi komputer saat ini.15

Solusi terkait
IBM Maximo Visual Inspection

Membebaskan kekuatan visi komputer no-code untuk otomatisasi inspeksi visual.

Jelajahi inspeksi visual Maximo
Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan Kecerdasan buatan
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Ambil langkah selanjutnya

IBM Maximo Visual Inspection menempatkan kekuatan kemampuan AI visi komputer ke tangan tim kontrol kualitas dan inspeksi Anda. Membebaskan kekuatan visi komputer no-code untuk otomatisasi inspeksi visual.

Jelajahi inspeksi visual Maximo Ikuti tur produk
Catatan kaki

1. The three R’s of computer vision: Recognition, reconstruction and reorganization, Pattern Recognition Letters, 8 Februari 2016
2. Efficient pneumonia detection using Vision Transformers on chest X-rays, Scientific Reports, 30 Januari 2024
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, arXiv, 3 Juni 2021
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification, Applied Sciences, 8 September 2025
5. Computer Vision Lends Precision to Robotic Grappling, NASA Technology Transfer Program, Diakses 11 September 2025
6. Amazon Just Walk Out, AWS, Diakses 11 September 2025
7. Laboratorium Visi Komputer, NASA JPL Robotics, Diakses 11 September 2025
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity, Cureus, 2 September 2024
9. Warisan Teknik Anda: Pemindai dan Pemrosesan Gambar Komputer, IEEE-USA InSight, 8 Februari 2016
10. Dunia Sederhana: Dunia Blok, Dasar-Dasar Visi Komputer, 2024
11. Teori Komputasi Marr tentang Penglihatan, Dasar-Dasar Visi Komputer, 2024
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position, Biological Cybernetics, 1980
13. Visi Komputer, Dasar-Dasar Visi Komputer, 2024
14. ImageNet: A large-scale hierarchical image database, Konferensi IEEE tentang Visi Komputer dan Pengenalan Pola, 2009
15. CHM Merilis Kode Sumber AlexNet, Computer History Museum, 20 Maret 2025