¿Qué es el reconocimiento óptico de caracteres (OCR)?

Autor

Staff Writer

IBM Think

¿Qué es el OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología que emplea la extracción automatizada de datos para convertir rápidamente imágenes de texto en un formato legible por máquina.

El OCR a veces se denomina reconocimiento de texto. Un programa de OCR extrae y reutiliza datos de documentos escaneados, imágenes de cámara y PDF de solo imagen. El software de OCR selecciona letras en la imagen, las pone en palabras y luego pone las palabras en oraciones, lo que permite el acceso y la edición del contenido original. También elimina el esfuerzo desperdiciado de la entrada manual redundante de datos.

Los sistemas OCR emplean una combinación de hardware y software para convertir documentos físicos impresos en texto legible por máquina. El hardware, como un escáner óptico o una placa de circuito especializada, copia o lee el texto, y luego el software generalmente se encarga del procesamiento avanzado.

El software OCR puede aprovechar la inteligencia artificial (IA) para implementar métodos más avanzados de reconocimiento inteligente de caracteres (ICR) para identificar idiomas o escritura a mano. Las organizaciones suelen emplear el proceso de OCR para convertir documentos legales o históricos impresos en documentos PDF para que los usuarios puedan editar, formatear y buscar los documentos como si se crearan con un procesador de textos.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

La historia del OCR

En 1974, Ray Kurzweil fundó Kurzweil Computer Products, Inc., cuyo producto OCR omnifuente podría reconocer texto impreso en prácticamente cualquier fuente. Decidió que la mejor aplicación de esta tecnología sería un dispositivo de machine learning (ML) para personas con problemas de visión, por lo que creó una máquina de lectura que pudiera leer texto en voz alta en un formato Text to Speech. En 1980, Kurzweil vendió su empresa a Xerox, que estaba interesada en comercializar aún más la conversión de texto de papel a computadora.

La tecnología OCR se hizo popular a principios de la década de 1990 al digitalizar periódicos históricos. Desde entonces, la tecnología experimentó varias mejoras. Hoy en día, los productos pueden ofrecer una precisión de OCR casi perfecta. Los métodos avanzados pueden automatizar flujos de trabajo complejos de procesamiento de documentos.

Antes de que la tecnología OCR estuviera disponible, la única opción para formatear documentos digitalmente era volver a ingresar el texto de forma manual. La entrada redundante no solo requiere mucho tiempo, sino que también conlleva imprecisiones y errores tipográficos inevitables. Hoy en día, los servicios OCR están ampliamente disponibles para el público. Por ejemplo, Google Cloud Vision OCR se puede emplear para escanear y almacenar documentos en su teléfono inteligente.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

¿Cómo funciona el OCR?

El software OCR emplea un escáner para reprocesar la forma física de un documento y convertirlo en texto digital editable. El software de OCR puede funcionar como un programa independiente, una interfaz de programación de aplicaciones de OCR o un servicio basado en la web.

Adquisición de imágenes: se copian todas las páginas del documento y, a continuación, el motor de OCR convierte el documento digital en una versión en dos colores o en blanco y negro. La imagen escaneada o el mapa de bits se analizan en busca de partes claras y oscuras. A continuación, el programa identifica las partes oscuras como caracteres que hay que reconocer, mientras que las zonas claras se identifican como fondo.

Preprocesamiento: la imagen digital se limpia para eliminar píxeles extraños. Este preprocesamiento puede incluir la corrección de la inclinación para corregir la alineación inadecuada de la imagen durante el escaneo, la eliminación de reglas gráficas y cuadros que formaban parte de la imagen impresa y la determinación de si se incluye texto de script.

Reconocimiento de texto: las partes oscuras se procesan para encontrar letras alfabéticas, dígitos numéricos o símbolos. Esta etapa generalmente implica apuntar a un carácter, palabra o bloque de texto a la vez. Luego, los caracteres se identifican mediante el uso de uno de dos algoritmos, ya sea reconocimiento de patrones o reconocimiento de características.

Reconocimiento de patrones (o coincidencia de patrones): el programa OCR ha sido entrenado previamente en ejemplos de texto en diversas fuentes y formatos para reconocer caracteres en comparación con una plantilla en el documento escaneado o archivo de imagen. Cada combinación única de forma, escala y fuente se llama glifo. Para que esto funcione, los caracteres deben estar en una fuente en la que el programa OCR ya haya sido entrenado. Dada la cantidad de fuentes en todo el mundo e idiomas que utilizan diferentes caracteres, como árabe, chino, inglés, francés, alemán, griego, japonés, coreano o español, el entrenamiento en cada combinación de fuente e idioma sería una enorme fuga del sistema.
Reconocimiento de características (detección o extracción): esto se emplea cuando el programa OCR está analizando una fuente para la que no fue entrenado. El OCR aplica reglas sobre las características de una letra o número específico para reconocer caracteres en el documento escaneado. Las características incluyen el número de líneas en ángulo, intersecciones de líneas, bucles o curvas en un carácter. Por ejemplo, la letra mayúscula “A” se almacena como dos líneas diagonales que se encuentran con una línea horizontal en el medio. Cuando se identifica un carácter, se convierte en un código ASCII que los sistemas informáticos emplean para gestionar manipulaciones posteriores.

Reconocimiento de diseño: un programa de OCR más completo también analizará la estructura de la imagen de un documento. Divide la página en elementos, como bloques de texto, tablas o imágenes. Las líneas se dividen en palabras y luego en caracteres. Una vez seleccionados los caracteres, el programa los compara con un conjunto de imágenes de patrones. Después de procesar todas las coincidencias probables, el programa devuelve el texto reconocido.

Posprocesamiento: la información recopilada se almacena como un archivo digital, ya sea en formato editable o PDF. Algunos sistemas conservan tanto la imagen de entrada como las versiones posteriores a OCR para una comparación más sencilla y una gestión de documentos más completa.

Tipos de OCR

Hay 4 tipos de programas de OCR, cada vez más sofisticados:

OCR simple: el análisis es una coincidencia de patrones carácter por carácter, comparando los caracteres escaneados con los glifos almacenados. Con tantas posibles combinaciones de fuentes e idiomas, los tipos de documentos que se pueden analizar son limitados.

Reconocimiento óptico de marcas (OMR): para identificar casillas marcadas y otras marcas, como burbujas en encuestas o una firma en un formulario, además de logotipos, símbolos y marcas de agua. Todos pueden identificarse haciendo coincidir las imágenes almacenadas, como con el OCR simple.

Reconocimiento inteligente de caracteres (ICR): como se mencionó anteriormente, ICR aporta el poder de la IA. Mediante el uso de ML o aprendizaje profundo, el programa de OCR aprende a leer tal como lo hacen los humanos: a través de la práctica y el entrenamiento continuos. Una red neuronal revisa el texto repetidamente en busca de atributos distintivos: la ubicación de curvas, intersecciones, líneas y bucles.

Reconocimiento inteligente de palabras: esta es la evolución natural del reconocimiento ICR anterior, pero ahora la IA fue entrenada para reconocer una palabra en una sola imagen, haciéndola más rápida.

Los beneficios del OCR

Los beneficios de emplear la tecnología OCR incluyen la capacidad de:

Recortar costos reduciendo o eliminando las entradas manuales redundantes.
Optimiza los flujos de trabajo con la entrada de documentos preimpresos o formularios escritos y acelera la investigación con datos digitales que se pueden buscar.
Automatizar el enrutamiento de documentos, el procesamiento de contenido y la preparación para la minería de textos.
Ahorrar el costo de almacenar aún más registros en papel.
Centralizar y asegurar los conjuntos de datos para protegerlos contra incendios, robos y documentos perdidos en las bóvedas de los bancos.
Permitir un mayor acceso a los datos para el personal y los clientes con discapacidad visual.
Mejorar el servicio brindando a los empleados la información más actualizada y precisa.

Casos de uso de OCR

El caso de uso más conocido del OCR es la conversión de documentos impresos en papel en documentos de texto legibles por máquina. Después de que un documento en papel escaneado pase por el procesamiento OCR, el texto del documento puede editarse con un procesador de textos, como Microsoft Word o Google Docs. Múltiples casos de uso pueden acelerar las cargas de trabajo en muchos sectores, como la educación, las finanzas, la atención médica, la logística y el transporte, procesando y recuperando documentos de préstamos, historiales de pacientes, formularios de seguros, etiquetas, facturas y recibos.

El OCR se emplea a menudo como una tecnología oculta, que impulsa muchos sistemas y servicios conocidos en nuestra vida diaria. Entre los casos de uso importantes, pero menos conocidos, de la tecnología OCR se encuentran la automatización de la entrada de datos, la asistencia a personas ciegas y con discapacidad visual y la indexación de documentos para motores de búsqueda, como pasaportes, matrículas, facturas, extractos bancarios, procesamiento y transcripción de cheques, tarjetas de visita y reconocimiento automático de matrículas.

El OCR permite la optimización del modelado de big data convirtiendo documentos en papel e imágenes escaneadas en archivos PDF legibles por máquina y con capacidad de búsqueda. Procesar y recuperar información valiosa requiere primero aplicar OCR en documentos donde las capas de texto aún no están presentes.

Con el reconocimiento de texto OCR, los documentos escaneados se pueden integrar en un sistema de big data que luego puede leer los datos del cliente de extractos bancarios, contratos y otros documentos impresos importantes. En lugar de hacer que los empleados examinen innumerables documentos de imágenes e ingresen manualmente las entradas en un flujo de trabajo automatizado de procesamiento de big data, las organizaciones pueden usar OCR para automatizar ese proceso en la etapa de entrada de minería de datos. El software OCR puede extraer el texto que se ve en las imágenes, almacenar el archivo de texto y admitir múltiples formatos, incluidos jpg, jpeg, png, bmp, tiff y pdf.

Últimos avances en OCR

El OCR ha avanzado significativamente más allá de los primeros sistemas empresariales en 1974 y el progreso continúa. Los programas de OCR superiores pueden proporcionar la extracción de insights clave de documentos en condiciones que no son las óptimas, como fuentes irregulares, resolución insuficiente, mala iluminación de la captura móvil y varios colores y fondos.

Al incorporar visión artificial y procesamiento de lenguaje natural, representación mejorada de la información y optimización de modelos, las empresas ahora pueden disfrutar de una comprensión de documentos de última generación. Las mejoras pueden incluir el análisis del diseño y el orden de lectura en documentos complejos, comprender los elementos visuales y representarlos como gráficos y diagramas. Algunos programas de OCR ahora están impulsados por IA generativa para ayudar a estructurar los datos de los documentos aún más rápido. Una tecnología “antigua” sigue aprendiendo nuevos trucos.

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM Maximo Visual Inspection

Libere el poder de la visión artificial sin código para la automatización de inspecciones visuales.

Explore Maximo Visual Inspection

Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de inteligencia artificial

Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Dé el siguiente paso

IBM Maximo Visual Inspection pone el poder de las capacidades de IA de visión artificial en manos de sus equipos de inspección y control de calidad. Libere el poder de la visión artificial sin código para la automatización de la inspección visual.