Apa itu pengenalan karakter optik (OCR)?

Penulis

Jim Holdsworth

Staff Writer

IBM Think

Apa itu OCR?

Pengenalan karakter optik (OCR) adalah teknologi yang menggunakan ekstraksi data otomatis untuk secara cepat mengonversi gambar teks ke dalam format yang dapat dibaca oleh mesin.

OCR terkadang disebut sebagai pengenalan teks. Program OCR mengekstrak dan menggunakan kembali data dari dokumen yang dipindai, gambar kamera, dan PDF hanya gambar. Perangkat lunak OCR memilih huruf-huruf pada gambar, memasukkannya ke dalam kata-kata, dan kemudian memasukkan kata-kata tersebut ke dalam kalimat, sehingga memungkinkan akses dan pengeditan konten asli. Hal ini juga menghilangkan upaya sia-sia dalam entri data manual yang berlebihan.

Sistem OCR menggunakan kombinasi perangkat keras dan perangkat lunak untuk mengubah dokumen fisik yang dicetak menjadi teks yang dapat dibaca mesin. Perangkat keras, seperti pemindai optik atau papan sirkuit khusus, menyalin atau membaca teks, kemudian perangkat lunak biasanya menangani pemrosesan lanjutan.

Perangkat lunak OCR dapat memanfaatkan kecerdasan buatan (AI) untuk menerapkan metode pengenalan karakter cerdas (ICR) yang lebih canggih untuk mengidentifikasi bahasa atau tulisan tangan. Organisasi sering menggunakan proses OCR untuk mengubah dokumen legal atau historis yang dicetak menjadi dokumen PDF sehingga pengguna dapat mengedit, memformat, dan mencari dokumen seolah-olah dokumen tersebut dibuat dengan pengolah kata.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Sejarah OCR

Pada tahun 1974, Ray Kurzweil memulai Kurzweil Computer Products, Inc, yang produk OCR omni-font-nya dapat mengenali teks yang dicetak dengan hampir semua jenis font. Ia memutuskan bahwa aplikasi terbaik dari teknologi ini adalah perangkat machine learning (ML) untuk orang dengan gangguan penglihatan, jadi ia menciptakan mesin baca yang dapat membaca teks dengan keras dalam format text to speech. Pada tahun 1980, Kurzweil menjual perusahaannya kepada Xerox, yang tertarik untuk mengomersialkan lebih lanjut konversi teks dari kertas ke komputer.

Teknologi OCR menjadi populer pada awal tahun 1990-an saat mendigitalkan surat kabar bersejarah. Sejak saat itu, teknologi telah mengalami beberapa perkembangan. Saat ini, produk tersebut dapat memberikan akurasi OCR yang hampir sempurna. Metode lanjutan dapat mengotomatiskan alur kerja pemrosesan dokumen yang kompleks.

Sebelum teknologi OCR tersedia, satu-satunya pilihan untuk memformat dokumen secara digital adalah memasukkan kembali teks secara manual. Input yang berlebihan tidak hanya memakan waktu, tetapi juga menimbulkan ketidakakuratan dan kesalahan pengetikan yang tidak terhindarkan. Saat ini, layanan OCR tersedia secara luas untuk umum. Misalnya, Google Cloud Vision OCR dapat digunakan untuk memindai dan menyimpan dokumen di ponsel cerdas Anda.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Bagaimana cara kerja OCR?

Perangkat lunak OCR menggunakan pemindai untuk memproses ulang bentuk fisik dokumen menjadi teks digital yang dapat diedit. Perangkat lunak OCR dapat berjalan sebagai program yang berdiri sendiri, antarmuka pemrograman aplikasi OCR, atau layanan berbasis web.

Akuisisi gambar: Semua halaman dokumen disalin, kemudian mesin OCR mengubah dokumen digital menjadi versi dua warna atau hitam-putih. Gambar atau bitmap yang dipindai dianalisis untuk bagian terang dan gelap. Program ini kemudian mengidentifikasi bagian gelap sebagai karakter yang perlu dikenali, sementara area terang diidentifikasi sebagai latar belakang.

Pra-pemrosesan: Gambar digital dibersihkan untuk menghilangkan piksel asing. Prapemrosesan ini dapat mencakup deskewing untuk mengoreksi gambar yang tidak disejajarkan dengan benar selama pemindaian, menghapus aturan grafis dan kotak yang merupakan bagian dari gambar yang dicetak dan menentukan apakah teks skrip disertakan.

Pengenalan teks: Bagian yang gelap diproses untuk menemukan huruf alfabet, angka atau simbol. Tahap ini biasanya melibatkan penargetan satu karakter, kata, atau blok teks pada satu waktu. Karakter kemudian diidentifikasi dengan menggunakan salah satu dari dua algoritma, baik pengenalan pola atau pengenalan fitur.

  • Pengenalan pola (atau pencocokan pola): Program OCR sebelumnya sudah dilatih pada contoh teks dalam berbagai jenis huruf dan format untuk mengenali karakter dengan membandingkannya dengan templat dalam dokumen atau file gambar yang dipindai. Setiap kombinasi unik dari bentuk, skala, dan font disebut glyph. Agar ini berfungsi, karakter harus dalam font yang telah dilatih oleh program OCR. Mengingat jumlah font di seluruh dunia dan bahasa yang menggunakan karakter yang berbeda, seperti Arab, Tionghoa, Inggris, Prancis, Jerman, Yunani, Jepang, Korea, atau Spanyol, pelatihan pada setiap kombinasi font dan bahasa akan menguras banyak sistem.

  • Pengenalan fitur (deteksi atau ekstraksi): Ini digunakan ketika program OCR menganalisis font yang belum pernah dilatih. OCR menerapkan aturan mengenai fitur huruf atau angka tertentu untuk mengenali karakter dalam dokumen yang dipindai. Fitur termasuk jumlah garis miring, persimpangan garis, loop atau kurva dalam karakter. Contohnya, huruf kapital "A" disimpan sebagai dua garis diagonal yang bertemu dengan garis horizontal di bagian tengah. Ketika sebuah karakter diidentifikasi, karakter tersebut dikonversi ke dalam kode American Standard Code for Information Interchange (ASCII) yang digunakan sistem komputer untuk menangani manipulasi lebih lanjut.

Pengenalan tata letak: Program OCR yang lebih lengkap, juga akan menganalisis struktur gambar dokumen. Ini membagi halaman menjadi elemen, seperti blok teks, tabel atau gambar. Garis dibagi menjadi kata-kata dan kemudian menjadi karakter. Setelah karakter dipilih, program membandingkannya dengan satu set gambar pola. Setelah memproses semua kemungkinan kecocokan, program mengembalikan teks yang dikenali.

Postprocessing: Informasi yang dikumpulkan disimpan sebagai file digital, baik dalam bentuk yang dapat diedit atau PDF. Beberapa sistem mempertahankan gambar input dan versi pasca-OCR untuk perbandingan yang lebih mudah dan manajemen dokumen yang lebih lengkap.

Jenis OCR

Ada 4 jenis program OCR, dengan peningkatan kecanggihan:

OCR sederhana: Analisis adalah pencocokan pola karakter per karakter, yang membandingkan karakter yang dipindai dengan glif yang disimpan. Dengan begitu banyak kombinasi font dan bahasa, jenis dokumen yang dapat dianalisis terbatas.

Pengenalan tanda optik (OMR): Untuk mengidentifikasi kotak yang dicentang dan tanda lainnya, seperti gelembung dalam survei atau tanda tangan pada formulir, ditambah logo, simbol, dan tanda air. Semua dapat diidentifikasi dengan mencocokkan ke gambar yang tersimpan, seperti halnya OCR sederhana.
 
Pengenalan karakter cerdas (ICR): Seperti yang sudah disebutkan sebelumnya, ICR menghadirkan AI. Dengan menggunakan ML atau pembelajaran mendalam, program OCR belajar membaca seperti halnya manusia: melalui latihan dan pelatihan terus-menerus. Neural networks meninjau teks berulang kali untuk mencari atribut khusus: lokasi kurva, persimpangan, garis, dan loop.

Pengenalan kata cerdas: Ini adalah evolusi alami dari pengenalan ICR sebelumnya, tetapi sekarang AI sudah dilatih untuk mengenali kata dalam satu gambar, sehingga pada akhirnya dapat berjalan lebih cepat.

Manfaat OCR

Manfaat menggunakan teknologi OCR meliputi kemampuan untuk:

  • Pangkas biaya dengan mengurangi atau menghilangkan input manual yang berlebihan.
     

  • Menyederhanakan alur kerja dengan input dokumen pracetak atau formulir tertulis dan mempercepat penelitian dengan data digital yang dapat dicari.
     

  • Mengotomatiskan pengarahan dokumen, pemrosesan konten, dan persiapan untuk penambangan teks.
     

  • Hemat biaya penyimpanan tetapi ada lebih banyak catatan kertas.
     

  • Memusatkan dan mengamankan kumpulan data untuk perlindungan terhadap kebakaran, pembobolan, dan dokumen yang hilang di brankas bank.
     

  • Memungkinkan akses yang lebih besar ke data untuk staf dan pelanggan tunanetra.
     

  • Meningkatkan layanan dengan memberikan informasi terbaru dan akurat kepada karyawan.

Contoh penggunaan OCR

Contoh penggunaan OCR yang paling dikenal adalah mengubah dokumen kertas cetak menjadi dokumen teks yang dapat dibaca mesin. Setelah dokumen kertas yang dipindai melalui pemrosesan OCR, teks dokumen dapat diedit dengan pengolah kata, seperti Microsoft Word atau Google Docs. Berbagai contoh penggunaan dapat mempercepat beban kerja di banyak industri, termasuk pendidikan, keuangan, perawatan kesehatan, logistik dan transportasi, memproses dan mengambil dokumen pinjaman, catatan pasien, formulir asuransi, label, faktur, dan tanda terima.

OCR sering digunakan sebagai teknologi tersembunyi yang memberdayakan banyak sistem dan layanan umum dalam kehidupan sehari-hari kita. Contoh penggunaan penting tetapi kurang banyak dikenal untuk teknologi OCR termasuk otomatisasi entri data yang membantu orang buta dan memiliki gangguan penglihatan, serta mengindeks dokumen untuk mesin pencari, seperti paspor, pelat nomor kendaraan, faktur, laporan bank, pemrosesan cek dan transkripsi, kartu nama, dan pengenalan pelat nomor otomatis.

OCR memungkinkan optimalisasi pemodelan big data dengan mengubah dokumen kertas dan gambar pindaian menjadi file PDF yang dapat dibaca mesin dan dapat dicari. Memproses dan mengambil informasi berharga memerlukan penerapan OCR terlebih dahulu pada dokumen yang belum memiliki lapisan teks.

Dengan pengenalan teks OCR, dokumen yang dipindai dapat diintegrasikan ke dalam sistem big data yang selanjutnya dapat membaca data klien dari laporan bank, kontrak, dan dokumen cetak penting lainnya. Alih-alih meminta karyawan memeriksa dokumen gambar yang tak terhitung jumlahnya dan secara manual memasukkan input ke alur kerja pemrosesan otomatis big data, organisasi dapat menggunakan OCR untuk mengotomatiskan proses tersebut pada tahap input penambangan data. Perangkat lunak OCR dapat mengekstrak teks yang terlihat pada gambar, menyimpan file teks, dan mendukung berbagai format termasuk jpg, jpeg, png, bmp, tiff, dan pdf.

Kemajuan terbaru dalam OCR

OCR telah bergerak maju secara signifikan melampaui sistem bisnis pertama pada tahun 1974 dan kemajuan terus berlanjut. Program OCR yang unggul dapat memberikan ekstraksi wawasan utama dari dokumen dalam kondisi kurang optimal, seperti font tidak teratur, resolusi yang tidak memadai, pencahayaan yang buruk dari pengambilan ponsel dan berbagai warna dan latar belakang.

Dengan menggabungkan visi komputer dan pemrosesan bahasa alami, representasi informasi yang lebih baik, serta pengoptimalan model, bisnis kini dapat menikmati pemahaman dokumen yang canggih. Perbaikan dapat mencakup analisis tata letak dan urutan membaca dalam dokumen yang kompleks, memahami visual dan merepresentasikannya dalam bentuk bagan dan diagram. Beberapa program OCR kini telah digerakkan oleh AI generatif untuk membantu menyusun data dokumen lebih cepat. Teknologi "lama" juga terus mempelajari trik baru.

Solusi terkait
IBM Maximo Visual Inspection

Membebaskan kekuatan visi komputer no-code untuk otomatisasi inspeksi visual.

Jelajahi inspeksi visual Maximo
Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan Kecerdasan buatan
Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Ambil langkah selanjutnya

IBM Maximo Visual Inspection menempatkan kekuatan kemampuan AI visi komputer ke tangan tim kontrol kualitas dan inspeksi Anda. Membebaskan kekuatan visi komputer no-code untuk otomatisasi inspeksi visual.

Jelajahi inspeksi visual Maximo Ikuti tur produk