Il riconoscimento ottico dei caratteri (OCR) è una tecnologia che utilizza l'estrazione automatica dei dati per convertire rapidamente le immagini di testo in un formato leggibile da un dispositivo automatico.
L'OCR viene talvolta definito riconoscimento del testo. Un programma OCR estrae e riutilizza i dati da documenti scansionati, immagini fotografiche e PDF di sole immagini. Il software OCR individua le lettere sull'immagine, le trasforma in parole e quindi in frasi, consentendo così l'accesso e la modifica del contenuto originale. Inoltre, elimina il tempo sprecato nell'inserimento manuale di dati ridondanti.
I sistemi OCR utilizzano una combinazione di hardware e software per convertire documenti fisici stampati in testo leggibile da un dispositivo automatico. L'hardware, come uno scanner ottico o un circuito stampato specializzato, copia o legge il testo, quindi il software in genere gestisce l'elaborazione avanzata.
Il software OCR può sfruttare l'intelligenza artificiale (AI) per implementare metodi più avanzati di riconoscimento intelligente dei caratteri (ICR) per identificare la lingua o la scrittura. Le organizzazioni utilizzano spesso il processo l'OCR per trasformare documenti legali o storici stampati in documenti PDF in modo che gli utenti possano modificare, formattare e cercare i documenti come se fossero stati creati con un elaboratore di testi.
Nel 1974, Ray Kurzweil fondò la Kurzweil Computer Products, Inc., il cui prodotto OCR omni-font era in grado di riconoscere testo stampato praticamente in qualsiasi tipo di carattere. Ritenne che l'applicazione migliore di questa tecnologia sarebbe stato un dispositivo di machine learning (ML) per non vedenti, per cui creò un sistema di lettura in grado di leggere il testo ad alta voce in un formato text to speech. Nel 1980, Kurzweil vendette la sua azienda a Xerox, interessata a commercializzare ulteriormente la conversione di testo da carta a computer.
La tecnologia OCR divenne popolare all'inizio degli anni '90 durante la digitalizzazione dei giornali storici. Da allora, la tecnologia ha subito diversi miglioramenti. Oggi i prodotti OCR garantiscono una precisione quasi perfetta. I metodi avanzati possono automatizzare workflow complessi per l'elaborazione dei documenti.
Prima che la tecnologia OCR diventasse disponibile, l’unica opzione per formattare digitalmente i documenti era reinserire manualmente il testo. Questo inserimento manuale non solo richiede molto tempo, ma comporta anche inevitabili imprecisioni ed errori di battitura. Oggi, i servizi OCR sono ampiamente disponibili al pubblico. Ad esempio, Google Cloud Vision OCR consente di scansionare e archiviare documenti sullo smartphone.
Il software OCR utilizza uno scanner per rielaborare la forma fisica di un documento in testo digitale modificabile. Il software OCR può funzionare come programma indipendente, interfaccia di programmazione di applicazioni OCR (API) o servizio disponibile sul web.
Acquisizione dell'immagine: tutte le pagine del documento vengono copiate e poi il motore OCR converte il documento digitale in una versione a due colori o in bianco e nero. L'immagine o la bitmap scansionata viene analizzata per individuare le parti chiare e scure. Il programma identifica quindi le parti scure come caratteri da riconoscere, mentre le aree chiare vengono identificate come sfondo.
Pre-elaborazione: l'immagine digitale viene pulita per rimuovere i pixel estranei. Questa pre-elaborazione può includere il raddrizzamento per correggere l'allineamento errato dell'immagine durante la scansione, la rimozione di righe e riquadri grafici che facevano parte dell'immagine stampata e la determinazione dell'inclusione del testo dello script.
Riconoscimento del testo: le parti scure vengono elaborate per trovare lettere alfabetiche, cifre numeriche o simboli. Questa fase solitamente prevede di concentrarsi su un carattere, una parola o un blocco di testo alla volta. I caratteri vengono quindi identificati utilizzando uno dei due algoritmi, pattern recognition o feature recognition.
Layout recognition: un programma OCR più completo analizzerà anche la struttura dell'immagine di un documento. Divide la pagina in elementi, come blocchi di testo, tabelle o immagini. Le righe sono divise in parole e poi in caratteri. Dopo che i caratteri sono stati individuati, il programma li confronta con una serie di immagini del pattern. Dopo aver elaborato tutte le probabili corrispondenze, il programma restituisce il testo riconosciuto.
Post-elaborazione: le informazioni raccolte vengono memorizzate come file digitale, in forma modificabile o PDF. Alcuni sistemi conservano sia l'immagine di input che le versioni post-OCR per un confronto più semplice e una gestione dei documenti più completa.
Esistono 4 tipi di programmi OCR, con un livello di sofisticazione crescente:
OCR semplice: l'analisi consiste nella corrispondenza dei pattern carattere per carattere, confrontando i caratteri scansionati con i glifi memorizzati. Con così tante combinazioni di caratteri e lingue possibili, i tipi di documenti che possono essere analizzati sono limitati.
Optical Mark Recognition (OMR): per identificare le caselle spuntate e altre marcature, come i riquadri nei sondaggi o una firma su un modulo, oltre a loghi, simboli e filigrane. Tutti possono essere identificati abbinandoli alle immagini memorizzate, come nell'OCR semplice.
Riconoscimento intelligente dei caratteri (ICR): come accennato in precedenza, l'ICR sfrutta la potenza dell'AI. Utilizzando il machine learning o il deep learning, il programma OCR impara a leggere proprio come fanno gli esseri umani: attraverso una pratica e un addestramento continui. Una rete neurale esamina ripetutamente il testo alla ricerca di attributi distintivi: la posizione di curve, intersezioni, linee e loop.
Riconoscimento intelligente delle parole: si tratta della naturale evoluzione del precedente riconoscimento ICR, ma in questo caso l'AI è stata addestrata a riconoscere una parola in una singola immagine, il che la rende più veloce.
I vantaggi dell'utilizzo della tecnologia OCR includono la capacità di:
Tagliare i costi riducendo o eliminando gli input manuali ridondanti.
Semplificare i workflow con l'immissione di documenti prestampati o moduli scritti e velocizza la ricerca con dati digitali ricercabili.
Automatizzare il routing dei documenti, l'elaborazione dei contenuti e la preparazione per il text mining.
Risparmiare sui costi di archiviazione di ulteriori documenti cartacei.
Centralizzare e proteggere i i set di dati contro incendi, effrazioni e lo smarrimento dei documenti nei caveau delle banche.
Facilitare l'accesso ai dati per il personale e i clienti ipovedenti.
Migliorare il servizio fornendo ai dipendenti le informazioni più aggiornate e accurate.
Il caso d'uso più noto dell'OCR è la conversione di documenti cartacei stampati in documenti di testo leggibili da un dispositivo automatico. Dopo che un documento cartaceo scansionato è stato sottoposto all'elaborazione OCR, il testo del documento può essere modificato con un elaboratore di testi come Microsoft Word o Google Docs. Diversi casi d'uso possono accelerare i workload in molti settori, tra cui l'istruzione, la finanza, la sanità, la logistica e i trasporti, l'elaborazione e il recupero di documenti di prestito, cartelle cliniche dei pazienti, moduli assicurativi, etichette, fatture e ricevute.
L'OCR viene spesso utilizzato come tecnologia nascosta, alla base di molti sistemi e servizi ben noti nella nostra vita quotidiana. Casi d'uso importanti, ma meno noti, della tecnologia OCR includono l'automazione dell'inserimento dati, l'assistenza a persone non vedenti e ipovedenti e l'indicizzazione di documenti per i motori di ricerca, come passaporti, numeri di targa, fatture, estratti conto bancari, elaborazione e trascrizione degli assegni, biglietti da visita e riconoscimento automatico dei numeri di targa.
L'OCR consente l'ottimizzazione del big data modeling convertendo documenti cartacei e scansionati in file PDF leggibili da un dispositivo automatico e ricercabili. L'elaborazione e il recupero di informazioni preziose richiedono innanzitutto l'applicazione dell'OCR nei documenti in cui non sono già presenti livelli di testo.
Con il riconoscimento del testo OCR, i documenti scansionati possono essere integrati in un sistema di big data che è quindi in grado di leggere i dati dei clienti da estratti conto bancari, contratti e altri importanti documenti stampati. Anziché far esaminare ai dipendenti innumerevoli documenti di immagine e inserire manualmente gli input in un workflow automatizzato di big-data processing, le organizzazioni possono utilizzare l'OCR per automatizzare tale processo nella fase di input di data mining. Il software OCR è in grado di estrarre il testo visualizzato nelle immagini, salvare il file di testo e supportare più formati, tra cui jpg, jpeg, png, bmp, tiff e pdf.
L'OCR è notevolmente avanzato rispetto ai primi sistemi aziendali nel 1974 e continua a progredire. I programmi OCR di livello superiore consentono di estrarre informazioni chiave da documenti in condizioni non ottimali, ad esempio con caratteri irregolari, risoluzione insufficiente, cattiva illuminazione dovuta all'acquisizione mobile e con diversi colori e sfondi.
Incorporando la computer vision e l'elaborazione del linguaggio naturale, una migliore rappresentazione delle informazioni e l'ottimizzazione dei modelli, le aziende possono ora godere di una comprensione dei documenti all'avanguardia. I miglioramenti possono includere l'analisi del layout e dell'ordine di lettura in documenti complessi, la comprensione delle immagini e la loro rappresentazione come grafici e diagrammi. Alcuni programmi OCR ora si basano sull'AI generativa che aiuta a strutturare i dati dei documenti ancora più velocemente. Una “vecchia” tecnologia continua ad apprendere nuovi trucchi.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Accedi al nostro catalogo completo di oltre 100 corsi online acquistando oggi stesso un abbonamento individuale o multiutente che ti consentirà di ampliare le tue competenze su una gamma di prodotti a un prezzo contenuto.
Condotto dai migliori leader di pensiero di IBM, il programma di studi è stato progettato per aiutare i dirigenti aziendali ad acquisire le conoscenze necessarie per dare priorità agli investimenti in AI che possono favorire la crescita.