¿Qué es la Visión Artificial?

Utilice el aprendizaje automático y las redes neuronales para enseñar a las computadoras a ver defectos y problemas antes de que afecten las operaciones.

3D rendering of a scientific technology data binary code network. computer binary code blue with depth of field

¿Qué es la Visión Artificial?

La visión artificial es un campo de la IA que permite que las computadoras y los sistemas obtengan información significativa de imágenes digitales, videos y otras entradas visuales, y tomen acciones o hagan recomendaciones basadas en esa información. Si la IA permite que las computadoras piensen, la visión artificial les permite ver, observar y comprender.

La visión artificial funciona de manera muy similar a la visión humana, excepto que los humanos tienen una ventaja. La vista humana tiene la ventaja de las experiencias y los contextos aprendidos para diferenciar entre los objetos, qué tan lejos están, si se están moviendo o si hay algo mal en una imagen.

La visión artificial entrena a las máquinas para realizar estas funciones, pero tiene que hacerlo en mucho menos tiempo con cámaras, datos y algoritmos en lugar de retinas, nervios ópticos y una corteza visual. Debido a que un sistema capacitado para inspeccionar productos o la manufactura de estos puede analizar miles de productos o procesos por minuto puede superar rápidamente las capacidades humanas, notando defectos o problemas imperceptibles.

La visión artificial se utiliza en industrias que van desde la energía y los servicios públicos hasta la manufactura y la industria automotriz, y el mercado sigue creciendo. Se espera que alcance los USD 48.6 miles de millones en 2022.1


¿Cómo funciona la visión artificial?

La visión artificial necesita de muchos datos. Ejecuta análisis de datos una y otra vez hasta identificar diferencias y, finalmente, reconocer imágenes. Por ejemplo, para entrenar a una computadora para que reconozca los neumáticos de los automóviles, es necesario alimentarla con grandes cantidades de imágenes de neumáticos y elementos relacionados con los neumáticos para aprender las diferencias y reconocer un neumático, especialmente uno sin defectos.

Se utilizan dos tecnologías esenciales para lograr esto: un tipo de machine learning llamado deep learning y una red neuronal convolucional (CNN).

Machine learning utiliza modelos algorítmicos que permiten que una computadora se enseñe a sí misma sobre el contexto de los datos visuales. Si se alimentan suficientes datos a través del modelo, la computadora "observará" los datos y se enseñará a diferenciar una imagen de otra. Los algoritmos permiten que la máquina aprenda por sí misma, en lugar de que alguien la programe para reconocer una imagen.

Una CNN ayuda a un modelo de machine learning o deep learning a "ver" al dividir las imágenes en píxeles a los que se les asignan etiquetas o rótulos. Utiliza las etiquetas para realizar convoluciones (una operación matemática en dos funciones para producir una tercera función) y hace predicciones sobre lo que está "viendo". La red neuronal ejecuta convoluciones y verifica la precisión de sus predicciones en una serie de iteraciones hasta que las predicciones comienzan a hacerse realidad. Luego reconocerá o verá imágenes de una manera similar a los humanos.

Al igual que un humano que distingue una imagen a distancia, una CNN primero discierne los bordes sólidos y las formas simples, luego completa la información mientras ejecuta iteraciones de sus predicciones. Se utiliza una CNN para comprender imágenes individuales. Una red neuronal recurrente (RNN) se usa de manera similar para aplicaciones de video para ayudar a las computadoras a comprender cómo las imágenes en una serie de cuadros se relacionan entre sí.


La historia de la visión artificial

Los científicos e ingenieros han estado tratando de desarrollar formas para que las máquinas vean y comprendan datos visuales durante aproximadamente 60 años. La experimentación comenzó en 1959 cuando los neurofisiólogos le mostraron a un gato una serie de imágenes, intentando correlacionar una respuesta en su cerebro. Descubrieron que respondía primero a bordes o líneas sólidas y, científicamente, esto significaba que el procesamiento de imágenes inicia con formas simples, como los bordes rectos.(2)

Prácticamente al mismo tiempo, se desarrolló la primera tecnología de escaneo artificial de imágenes, que permite a las computadoras digitalizar y adquirir imágenes. Ya para 1963, las computadoras pudieron transformar imágenes bidimensionales en formas tridimensionales. En la década de 1960, la IA surgió como un campo de estudio académico y también marcó el comienzo de la búsqueda de la IA para resolver el problema de la visión humana.

En 1974 salió a la luz la tecnología de reconocimiento óptico de caracteres (OCR), que podía reconocer el texto impreso en cualquier fuente o tipo de letra.(3) De manera similar, el reconocimiento inteligente de caracteres (ICR) podría descifrar el texto escrito a mano utilizando redes neuronales.(4) Desde entonces, OCR e ICR se han abierto camino en el procesamiento de documentos y facturas, el reconocimiento de placas de vehículos, los pagos móviles, la traducción automática y otras aplicaciones comunes.

En 1982, el neurocientífico David Marr estableció que este tipo de visión tecnológica funcionaba de forma jerárquica, e introdujo algoritmos para que las máquinas detecten bordes, esquinas, curvas y formas básicas similares. Al mismo tiempo, el científico informático Kunihiko Fukushima desarrolló una red de células capaces de reconocer patrones. La red, llamada Neocognitron, incluía capas convolucionales en una red neuronal.

Para el año 2000, el estudio se enfocaba en el reconocimiento de objetos, y para el 2001 aparecieron las primeras aplicaciones de reconocimiento facial en tiempo real. La estandarización de cómo se etiquetan y anotan los conjuntos de datos visuales surgió a lo largo de la década de 2000. En 2010, el conjunto de datos de ImageNet estuvo disponible. Contenía millones de imágenes etiquetadas en miles de diferentes tipos de objeto, lo que proporcionó una base para las CNN y los modelos de Deep Learning que se utilizan en la actualidad. En 2012, un equipo de la Universidad de Toronto inscribió a las CNN en un concurso de reconocimiento de imágenes. El modelo, llamado AlexNet, redujo significativamente la tasa de error para el reconocimiento de imágenes. Después de este gran avance, las tasas de error se han reducido a solo un pequeño porcentaje.(5)


Aplicaciones de la visión artificial

Hay mucha investigación que se está realizando en el campo de la visión artificial, pero no es solo investigación. Las aplicaciones del mundo real demuestran lo importante que es la visión artificial para las empresas, el entretenimiento, el transporte, la atención médica y la vida cotidiana. Un factor clave para que estas aplicaciones crezcan es la avalancha de información visual que fluye desde teléfonos inteligentes, sistemas de seguridad, cámaras de tráfico y otros dispositivos visualmente instrumentados. Estos datos podrían desempeñar un papel importante en las operaciones de todas las industrias, pero hoy en día no se utilizan. La información crea un banco de pruebas para entrenar aplicaciones de visión artificial y una plataforma de lanzamiento para que se conviertan en parte de una variedad de actividades humanas:

  • IBM utilizó la visión artificial para crear My Moments para el torneo de golf Masters 2018. IBM Watson observó cientos de horas de imágenes de Masters y pudo identificar las imágenes (y los sonidos) de las tomas importantes. Seleccionó estos momentos clave se los dio los fanáticos como una colección personalizada de imágenes.
  • Google Translate permite a los usuarios apuntar la cámara de un smartphone a un texto en otro idioma y obtener casi de inmediato una traducción al idioma elegido.(6)
  • El desarrollo de vehículos autónomos está basado en la visión artificial, con el fin de dar sentido a la información visual de las cámaras de un automóvil y otros sensores. Es esencial identificar otros automóviles, señales de tráfico, marcadores de carril, peatones, bicicletas y toda la otra información visual que se encuentre en la carretera.
  • IBM está aplicando tecnología de visión artificial en alianza con asociados como Verizon para llevar la inteligencia artificial inteligente al límite y ayudar a los fabricantes de automóviles a identificar defectos de calidad antes de que un vehículo salga de la fábrica.

Ejemplos de visión artificial

Muchas organizaciones no tienen los recursos para financiar laboratorios de visión artificial y crear modelos de Deep Learning y redes neuronales. También pueden carecer de la potencia computacional necesaria para procesar grandes conjuntos de datos visuales. Empresas como IBM están ayudando al ofrecer servicios de desarrollo de software de visión artificial. Estos servicios brindan modelos de aprendizaje prediseñados disponibles desde la nube y también ayudan con la demanda de recursos informáticos. Los usuarios se conectan a los servicios a través de una interfaz de programación de aplicaciones (API) y los utilizan para desarrollar aplicaciones de visión artificial.

IBM también presentó una plataforma de visión artificial que aborda los problemas de desarrollo y recursos informáticos. IBM Maximo Visual Inspection incluye herramientas que permiten a los expertos en la materia etiquetar, capacitar e implementar modelos de visión de deep learning, sin necesidad de codificación o experiencia en el área. Los modelos de visión se pueden implementar en centros de datos locales, la nube y dispositivos de borde.

Si bien cada vez es más fácil obtener recursos para desarrollar aplicaciones de visión artificial, una pregunta importante a responder desde el principio es: ¿Qué harán exactamente estas aplicaciones? Comprender y definir tareas específicas de visión artificial puede enfocar y validar proyectos y aplicaciones y facilitar el inicio.

Aquí hay algunos ejemplos de tareas de visión artificial establecidas:

  • La clasificación de imágenes ve una imagen y puede clasificarla (un perro, una manzana, la cara de una persona). Más precisamente, puede predecir con precisión que una imagen determinada pertenece a un cierto tipo. Por ejemplo, una empresa de redes sociales podría querer usarlo para identificar y segregar automáticamente las imágenes objetables cargadas por los usuarios.
  • La detección de objetos puede usar la clasificación de imágenes para identificar una determinada clase de imagen y luego detectar y tabular su apariencia en una imagen o video. Los ejemplos incluyen la detección de daños en una línea de montaje o la identificación de maquinaria que requiera mantenimiento.
  • El seguimiento de objetos sigue o rastrea un objeto una vez que se detecta. Esta tarea a menudo se ejecuta con imágenes capturadas en secuencia o con videos en tiempo real. Los vehículos autónomos, por ejemplo, no solo deben clasificar e identificar objetos como peatones, otros automóviles e infraestructura vial, sino que también deben detectarlos en movimiento para evitar colisiones y obedecer las leyes de tránsito.(7)
  • La recuperación de imágenes basada en contenido utiliza la visión artificial para navegar, buscar y recuperar imágenes de grandes almacenes de datos, basándose en el contenido de las imágenes en lugar de en las etiquetas de metadatos asociadas con ellas. Esta tarea puede incorporar la anotación automática de imágenes que reemplaza el etiquetado manual de imágenes. Estas tareas se pueden utilizar para los sistemas de gestión de activos digitales, y puede aumentar la precisión de la búsqueda y recuperación.

Soluciones de IBM

IBM Maximo Visual Inspection

Aproveche rápidamente el potencial de la visión computacional para la automatización de las inspecciones, sin necesidad de experiencia en deep learning.

IBM Maximo Visual Inspection Mobile

Amplíe su control de calidad con visión artificial en dispositivos móviles iOS y detecte rápidamente defectos en su línea de producción