¿Qué es el reconocimiento óptico de caracteres (OCR)?

Dos mujeres de negocios trabajan juntas usando una tableta digital en una oficina moderna

¿Qué es el OCR?

El reconocimiento óptico de caracteres (OCR) es una tecnología que emplea la extracción automatizada de datos para convertir rápidamente imágenes de texto en un formato legible por máquina.

El OCR a veces se denomina reconocimiento de texto. Un programa de OCR extrae y reutiliza datos de documentos escaneados, imágenes de cámara y PDF de solo imagen. El software de OCR selecciona letras en la imagen, las pone en palabras y luego pone las palabras en oraciones, lo que permite el acceso y la edición del contenido original. También elimina el esfuerzo desperdiciado de la entrada manual redundante de datos.

Los sistemas OCR emplean una combinación de hardware y software para convertir documentos físicos impresos en texto legible por máquina. El hardware, como un escáner óptico o una placa de circuito especializada, copia o lee el texto, y luego el software generalmente se encarga del procesamiento avanzado.

El software OCR puede aprovechar la inteligencia artificial (IA) para implementar métodos más avanzados de reconocimiento inteligente de caracteres (ICR) para identificar idiomas o escritura a mano. Las organizaciones suelen emplear el proceso de OCR para convertir documentos legales o históricos impresos en documentos PDF para que los usuarios puedan editar, formatear y buscar los documentos como si se crearan con un procesador de textos.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

La historia del OCR

En 1974, Ray Kurzweil fundó Kurzweil Computer Products, Inc., cuyo producto OCR omnifuente podría reconocer texto impreso en prácticamente cualquier fuente. Decidió que la mejor aplicación de esta tecnología sería un dispositivo de machine learning (ML) para personas con problemas de visión, por lo que creó una máquina de lectura que pudiera leer texto en voz alta en un formato Text to Speech. En 1980, Kurzweil vendió su empresa a Xerox, que estaba interesada en comercializar aún más la conversión de texto de papel a computadora.

La tecnología OCR se hizo popular a principios de la década de 1990 al digitalizar periódicos históricos. Desde entonces, la tecnología experimentó varias mejoras. Hoy en día, los productos pueden ofrecer una precisión de OCR casi perfecta. Los métodos avanzados pueden automatizar flujos de trabajo complejos de procesamiento de documentos.

Antes de que la tecnología OCR estuviera disponible, la única opción para formatear documentos digitalmente era volver a ingresar el texto de forma manual. La entrada redundante no solo requiere mucho tiempo, sino que también conlleva imprecisiones y errores tipográficos inevitables. Hoy en día, los servicios OCR están ampliamente disponibles para el público. Por ejemplo, Google Cloud Vision OCR se puede emplear para escanear y almacenar documentos en su teléfono inteligente.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

¿Cómo funciona el OCR?

El software OCR emplea un escáner para reprocesar la forma física de un documento y convertirlo en texto digital editable. El software de OCR puede funcionar como un programa independiente, una interfaz de programación de aplicaciones de OCR o un servicio basado en la web.

Adquisición de imágenes: se copian todas las páginas del documento y, a continuación, el motor de OCR convierte el documento digital en una versión en dos colores o en blanco y negro. La imagen escaneada o el mapa de bits se analizan en busca de partes claras y oscuras. A continuación, el programa identifica las partes oscuras como caracteres que hay que reconocer, mientras que las zonas claras se identifican como fondo.

Preprocesamiento: la imagen digital se limpia para eliminar píxeles extraños. Este preprocesamiento puede incluir la corrección de la inclinación para corregir la alineación inadecuada de la imagen durante el escaneo, la eliminación de reglas gráficas y cuadros que formaban parte de la imagen impresa y la determinación de si se incluye texto de script.

Reconocimiento de texto: las partes oscuras se procesan para encontrar letras alfabéticas, dígitos numéricos o símbolos. Esta etapa generalmente implica apuntar a un carácter, palabra o bloque de texto a la vez. Luego, los caracteres se identifican mediante el uso de uno de dos algoritmos, ya sea reconocimiento de patrones o reconocimiento de características.

  • Reconocimiento de patrones (o coincidencia de patrones): el programa OCR ha sido entrenado previamente en ejemplos de texto en diversas fuentes y formatos para reconocer caracteres en comparación con una plantilla en el documento escaneado o archivo de imagen. Cada combinación única de forma, escala y fuente se llama glifo. Para que esto funcione, los caracteres deben estar en una fuente en la que el programa OCR ya haya sido entrenado. Dada la cantidad de fuentes en todo el mundo e idiomas que utilizan diferentes caracteres, como árabe, chino, inglés, francés, alemán, griego, japonés, coreano o español, el entrenamiento en cada combinación de fuente e idioma sería una enorme fuga del sistema.

  • Reconocimiento de características (detección o extracción): esto se emplea cuando el programa OCR está analizando una fuente para la que no fue entrenado. El OCR aplica reglas sobre las características de una letra o número específico para reconocer caracteres en el documento escaneado. Las características incluyen el número de líneas en ángulo, intersecciones de líneas, bucles o curvas en un carácter. Por ejemplo, la letra mayúscula “A” se almacena como dos líneas diagonales que se encuentran con una línea horizontal en el medio. Cuando se identifica un carácter, se convierte en un código ASCII que los sistemas informáticos emplean para gestionar manipulaciones posteriores.

Reconocimiento de diseño: un programa de OCR más completo también analizará la estructura de la imagen de un documento. Divide la página en elementos, como bloques de texto, tablas o imágenes. Las líneas se dividen en palabras y luego en caracteres. Una vez seleccionados los caracteres, el programa los compara con un conjunto de imágenes de patrones. Después de procesar todas las coincidencias probables, el programa devuelve el texto reconocido.

Posprocesamiento: la información recopilada se almacena como un archivo digital, ya sea en formato editable o PDF. Algunos sistemas conservan tanto la imagen de entrada como las versiones posteriores a OCR para una comparación más sencilla y una gestión de documentos más completa.

Tipos de OCR

Hay 4 tipos de programas de OCR, cada vez más sofisticados:

OCR simple: el análisis es una coincidencia de patrones carácter por carácter, comparando los caracteres escaneados con los glifos almacenados. Con tantas posibles combinaciones de fuentes e idiomas, los tipos de documentos que se pueden analizar son limitados.

Reconocimiento óptico de marcas (OMR): para identificar casillas marcadas y otras marcas, como burbujas en encuestas o una firma en un formulario, además de logotipos, símbolos y marcas de agua. Todos pueden identificarse haciendo coincidir las imágenes almacenadas, como con el OCR simple.
 
Reconocimiento inteligente de caracteres (ICR): como se mencionó anteriormente, ICR aporta el poder de la IA. Mediante el uso de ML o aprendizaje profundo, el programa de OCR aprende a leer tal como lo hacen los humanos: a través de la práctica y el entrenamiento continuos. Una red neuronal revisa el texto repetidamente en busca de atributos distintivos: la ubicación de curvas, intersecciones, líneas y bucles.

Reconocimiento inteligente de palabras: esta es la evolución natural del reconocimiento ICR anterior, pero ahora la IA fue entrenada para reconocer una palabra en una sola imagen, haciéndola más rápida.

Los beneficios del OCR

Los beneficios de emplear la tecnología OCR incluyen la capacidad de:

  • Recortar costos reduciendo o eliminando las entradas manuales redundantes.

  • Optimiza los flujos de trabajo con la entrada de documentos preimpresos o formularios escritos y acelera la investigación con datos digitales que se pueden buscar.

  • Automatizar el enrutamiento de documentos, el procesamiento de contenido y la preparación para la minería de textos.

  • Ahorra el costo de almacenar más registros en papel.

  • Centralice y asegure los conjuntos de datos para protegerlos contra incendios, robos y documentos perdidos en las bóvedas bancarias.

  • Permita un mayor acceso a los datos para el personal y los clientes con discapacidad visual.

  • Mejorar el servicio brindando a los empleados la información más actualizada y precisa.

Casos de uso de OCR

El caso de uso más conocido del OCR es la conversión de documentos impresos en papel en documentos de texto legibles por máquina. Después de que un documento en papel escaneado pase por el procesamiento OCR, el texto del documento puede editarse con un procesador de textos, como Microsoft Word o Google Docs. Múltiples casos de uso pueden acelerar las cargas de trabajo en muchos sectores, como la educación, las finanzas, la atención médica, la logística y el transporte, procesando y recuperando documentos de préstamos, historiales de pacientes, formularios de seguros, etiquetas, facturas y recibos.

El OCR se emplea a menudo como una tecnología oculta, que impulsa muchos sistemas y servicios conocidos en nuestra vida diaria. Entre los casos de uso importantes, pero menos conocidos, de la tecnología OCR se encuentran la automatización de la entrada de datos, la asistencia a personas ciegas y con discapacidad visual y la indexación de documentos para motores de búsqueda, como pasaportes, matrículas, facturas, extractos bancarios, procesamiento y transcripción de cheques, tarjetas de visita y reconocimiento automático de matrículas.

El OCR permite la optimización del modelado de big data convirtiendo documentos en papel e imágenes escaneadas en archivos PDF legibles por máquina y con capacidad de búsqueda. Procesar y recuperar información valiosa requiere primero aplicar OCR en documentos donde las capas de texto aún no están presentes.

Con el reconocimiento de texto OCR, los documentos escaneados se pueden integrar en un sistema de big data que luego puede leer los datos del cliente de extractos bancarios, contratos y otros documentos impresos importantes. En lugar de hacer que los empleados examinen innumerables documentos de imágenes e ingresen manualmente las entradas en un flujo de trabajo automatizado de procesamiento de big data, las organizaciones pueden usar OCR para automatizar ese proceso en la etapa de entrada de minería de datos. El software OCR puede extraer el texto que se ve en las imágenes, almacenar el archivo de texto y admitir múltiples formatos, incluidos jpg, jpeg, png, bmp, tiff y pdf.

Últimos avances en OCR

El OCR ha avanzado significativamente más allá de los primeros sistemas empresariales en 1974 y el progreso continúa. Los programas de OCR superiores pueden proporcionar la extracción de insights clave de documentos en condiciones que no son las óptimas, como fuentes irregulares, resolución insuficiente, mala iluminación de la captura móvil y varios colores y fondos.

Al incorporar visión artificial y procesamiento de lenguaje natural, representación mejorada de la información y optimización de modelos, las empresas ahora pueden disfrutar de una comprensión de documentos de última generación. Las mejoras pueden incluir el análisis del diseño y el orden de lectura en documentos complejos, comprender los elementos visuales y representarlos como gráficos y diagramas. Algunos programas de OCR ahora están impulsados por IA generativa para ayudar a estructurar los datos de los documentos aún más rápido. Una tecnología “antigua” sigue aprendiendo nuevos trucos.

Soluciones relacionadas
IBM® watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo