¿Qué es la visión artificial?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es la visión artificial?

La visión artificial es un subcampo de la inteligencia artificial (IA) que dota a las máquinas con la capacidad de procesar, analizar e interpretar entradas visuales como imágenes y vídeos. Utiliza machine learning para ayudar a los ordenadores y otros sistemas a obtener información significativa a partir de datos visuales.

La visión artificial puede concebirse como la interacción entre tres procesos amplios, cada uno de los cuales trabaja en conjunto y se informa mutuamente: el reconocimiento, la reconstrucción y la reorganización. El reconocimiento de imágenes consiste en identificar acciones, objetos, personas, lugares y escritura en imágenes o vídeos digitales. La reconstrucción deriva las características tridimensionales de esas entidades, mientras que la reorganización infiere las relaciones entre las entidades1.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Cómo funciona la visión artificial

Las imágenes radiológicas en el diagnóstico de neumonía son un caso de uso común en visión artificial. Los radiólogos tienen que interpretar cuidadosamente las radiografías de tórax, un proceso que puede ser propenso a errores y llevar mucho tiempo debido a la sutileza de los síntomas de la neumonía y sus similitudes con otras afecciones pulmonares2. Un sistema de visión artificial puede ser de gran ayuda.

Existen varios tipos de modelos y enfoques para las tareas de visión artificial, pero el siguiente ejemplo ilustra un flujo de trabajo común:

  1. Recopilación de datos
  2. Preprocesamiento
  3. Selección de modelo
  4. Entrenamiento de modelos

Recopilación de datos

El primer paso es recopilar los datos visuales necesarios. Los hospitales generan enormes volúmenes de radiografías de tórax, que pueden utilizar para entrenar un algoritmo de visión artificial. Dado que el objetivo es que el algoritmo clasifique si una imagen de rayos X muestra neumonía o no, los hospitales deberán compilar un conjunto de datos de radiografías de tórax y etiquetar o anotar correctamente cada exploración como normal o que signifique neumonía.

Para otros casos de uso, las imágenes y los vídeos pueden proceder de fuentes como cámaras y sensores. Los conjuntos de datos como COCO, ImageNet y Open Images proporcionan grandes colecciones de imágenes anotadas.

Preprocesamiento

Un modelo de IA es tan bueno como los datos utilizados para entrenarlo, lo que hace que los datos de alta calidad sean cruciales para la visión artificial. El preprocesamiento puede ayudar a mejorar la calidad de los datos mediante la limpieza de datos y mejoras como el ajuste del brillo o el contraste para afinar las imágenes, así como el cambio de tamaño y el suavizado.

Los conjuntos de datos también deben ser lo suficientemente grandes y diversos para que los algoritmos de visión artificial produzcan resultados precisos. La generación de datos sintéticos y el aumento de datos pueden ayudar a ampliar el tamaño y la diversidad de los conjuntos de datos. Por ejemplo, los hospitales pueden utilizar transformaciones geométricas como girar las imágenes de radiografía de tórax hacia la izquierda o hacia la derecha o invertir las imágenes para aumentar sus datos.

Selección del modelo

Seleccionar el modelo de machine learning adecuado es crucial para optimizar la eficiencia y el rendimiento. Las redes neuronales convolucionales (CNNs) siguen siendo el principal modelo de deep learning para tareas de procesamiento de imágenes, mientras que las redes neuronales recurrentes (RNNs) son especialmente adecuadas para procesar datos secuenciales como fotogramas de vídeo.

Sin embargo, los avances en IA están impulsando un cambio hacia modelos de transformador. Por ejemplo, un transformador de visión (ViT) aplica elementos de un modelo de lenguaje basado en transformadores a la visión artificial. Los ViT procesan una imagen en parches y los tratan como secuencias, de forma similar a los tokens en un transformador de lenguaje. A continuación, el transformador de visión implementa un mecanismo de autoatención en estos parches para crear una representación basada en transformadores de la imagen de entrada. Los ViT a menudo igualan o superan el rendimiento de las CNN en tareas de visión artificial como la clasificación de imágenes3.

Entrenamiento de modelos

Una vez elegido un modelo, sigue el entrenamiento del mismo. La etapa de entrenamiento implica ejecutar el modelo con datos de entrenamiento específicos para una tarea de visión artificial, medir el rendimiento con respecto a la verdad sobre el terreno y optimizar los parámetros para mejorar el rendimiento a lo largo del tiempo.

Las CNN constan de tres tipos de capas: una capa convolucional, una capa de agrupamiento y una capa totalmente conectada. La capa convolucional es donde ocurre la extracción de características. La extracción de características implica determinar y capturar atributos visuales clave a partir de datos de imágenes sin procesar, como colores, bordes, formas y texturas. En el caso de las imágenes de rayos X con neumonía, las características que deben extraerse incluyen contornos pulmonares asimétricos, regiones brillantes que indican inflamación o la presencia de líquido (en lugar de regiones oscuras llenas de aire), áreas pulmonares nubladas u opacas y o texturas irregulares4. La extracción de características permite a los algoritmos distinguir relaciones y patrones significativos en los datos visuales.

Una imagen de rayos X se trata como una matriz de valores de píxeles. Otra matriz de ponderaciones (parámetros que controlan cuánta influencia tiene una característica de entrada determinada en el resultado del modelo) conocida como filtro o núcleo se aplica a un área de la imagen de rayos X, con un producto escalar calculado entre los valores de píxeles de entrada. El filtro se mueve, o "convoluciona", a través de la imagen para extraer características, y todo el proceso se conoce como convolución. El resultado final de la serie de productos escalares se denomina mapa de activación o mapa de característica. Cada filtro se ajusta para responder a patrones específicos, como bordes, formas o texturas, lo que permite a la CNN aprender múltiples características visuales simultáneamente.

 El mapa de características se introduce en una capa de agrupamiento para reducir aún más el tamaño del mapa y comprimir sus dimensiones. Otro filtro barre toda la entrada, tomando los valores máximos o promedio dentro de un grupo de celdas en el mapa de características. Esto conserva las características más esenciales, lo que permite que el modelo centre su atención en ellas.

 El acto de moverse por una imagen para extraer características, reducir dimensiones y producir una clasificación se conoce como propagación hacia adelante. Después de esta propagación hacia adelante, el modelo aplica una función de pérdida para calcular su error o la diferencia entre su clasificación prevista y la clasificación real.

Para minimizar la función de pérdida, se emplea la retropropagación. La retropropagación es una propagación hacia atrás para calcular el gradiente de la función de pérdida con respecto a cada peso. A continuación, se implementa la técnica de descenso de gradiente para actualizar las ponderaciones del modelo y optimizarlo.

Por último, la capa totalmente conectada realiza la tarea de clasificación en función de las características extraídas a través de las capas anteriores y sus diferentes filtros. A continuación, la CNN genera sus resultados, que son probabilidades para cada clase (en este caso, normal frente a neumonía). Para la tarea de clasificación de imágenes de rayos X de tórax, este resultado indicará una exploración normal o, si la probabilidad supera un umbral predeterminado, una exploración positiva para neumonía.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Tareas de visión artificial

Los algoritmos de visión artificial pueden ser entrenados en una amplia gama de tareas, algunas de las cuales incluyen:

  • Reconocimiento de imágenes
  • Clasificación de imágenes
  • Detección de objetos
  • Segmentación de imágenes
  • Seguimiento de objetos
  • Comprensión de la escena
  • Reconocimiento facial
  • Estimación de la pose
  • Reconocimiento óptico de caracteres
  • Generación de imágenes
  • Visual inspection

Reconocimiento de imágenes

El reconocimiento de imágenes es la forma más amplia de visión artificial. Abarca la identificación de personas, lugares, objetos y otras entidades en imágenes digitales y sirve como base para tareas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes.

Clasificación de imágenes

La clasificación de imágenes es una tarea básica de visión artificial que clasifica las imágenes en grupos o clases predefinidos. Predice la etiqueta más adecuada para una imagen u objetos dentro de una imagen. El escenario ilustrado anteriormente del diagnóstico de neumonía mediante radiografías de tórax es un ejemplo de clasificación de imágenes.

Detección de objetos

La detección de objetos tiene como objetivo determinar dónde se encuentran los objetos en las imágenes digitales. Combina dos técnicas de aprendizaje: localización de objetos y clasificación de imágenes.

La localización de objetos identifica la ubicación de objetos específicos en una imagen dibujando cuadros delimitadores a su alrededor. Luego, la clasificación de imágenes distingue la categoría a la que pertenecen los objetos. En las imágenes del tráfico rodado, por ejemplo, las aplicaciones de visión artificial pueden utilizar la detección de objetos no solo para clasificar los vehículos, sino también para localizarlos en la carretera.

Software de detección de objetos que se utiliza en el tráfico

Las arquitecturas de CNN comunes para la detección de objetos incluyen R-CNN (red neuronal convolucional basada en regiones) y YOLO (you only look once). R-CNN implementa la detección en dos etapas determinando primero las regiones que contienen objetos y luego ejecutando esas regiones a través de redes separadas para su clasificación y localización más exacta. Mientras tanto, YOLO realiza la detección en una sola etapa combinando la localización y la clasificación en un solo paso de red, lo que lo hace lo suficientemente rápido para la detección de objetos en tiempo real.

La detección de objetos para vídeos suele aplicar modelos basados en transformadores y RNN, en particular la arquitectura de memoria a largo plazo.

Segmentación de imágenes

La segmentación de imágenes es una versión más precisa, a nivel de píxeles, de la detección de objetos. Divide una imagen digital en grupos discretos de píxeles conocidos como segmentos de imagen y, a continuación, etiqueta los píxeles según su clase o instancia.

Mientras que la detección de objetos puede clasificar varios elementos dentro de una imagen y aproximar el ancho y la altura de cada elemento, la segmentación de imágenes discierne límites o formas exactos. Esto hace que la segmentación de imágenes sea valiosa para delinear objetos muy agrupados con cuadros delimitadores superpuestos.

La segmentación de imágenes se puede subdividir en tres tipos de tareas:

  • La segmentación semántica es el tipo más simple, asignando una clase semántica (la categoría específica a la que podría pertenecer un píxel dado) a cada píxel.
  • La segmentación de instancias predice los límites exactos en píxeles de cada instancia de objeto individual en una imagen.
  • La segmentación panóptica combina la segmentación semántica y de instancias determinando la clasificación semántica de todos los píxeles y diferenciando cada instancia de objeto en una imagen.

Por ejemplo, en una imagen de la calle de una ciudad, la segmentación semántica podría tratar a los coches aparcados uno delante del otro como un segmento de coche largo, mientras que la segmentación de instancias separa y determina la forma de cada coche.

Un gráfico que compara imágenes de origen con segmentación semántica, de instancia y panóptica.

Seguimiento de objetos

El seguimiento de objetos sigue y rastrea un objeto a medida que se mueve a través de una secuencia de fotogramas de vídeo o imagen. Localiza y distingue el objeto en cada fotograma y preserva la continuidad del objeto durante el recorrido.

Comprensión de la escena

La comprensión de la escena va un paso más allá del reconocimiento de objetos, capturando un mayor nivel de información visual. Al identificar objetos en una imagen, los modelos de deep learning predicen conexiones entre ellos, como acciones, eventos e interacciones.

Las redes neuronales gráficas (GNN) se pueden utilizar para representar las relaciones espaciales entre objetos en una imagen. En el ejemplo de las imágenes de tráfico, los sistemas de visión artificial pueden inferir que un taxi se mueve delante de un coche, un coche está aparcado a la izquierda de un taxi o un coche gira a la derecha.

Los modelos de lenguaje de visión (VLM) también pueden ayudar a comprender la escena. Este emparejamiento de modelos de lenguaje de gran tamaño (LLM) con transformadores de visión puede reconocer y clasificar objetos dentro de una imagen y proporcionar descripciones contextuales, como la posición de un objeto en relación con otros elementos visuales.

Reconocimiento facial

El reconocimiento facial aplica el reconocimiento de imágenes a las características faciales. Captura la geometría de una cara y detecta patrones clave como la distancia entre los ojos, la distancia desde la frente hasta la barbilla, el contorno de la nariz y la forma de los labios.

El reconocimiento facial puede identificar a las personas en tiempo real o en fotos o vídeos. Un ejemplo popular es la autenticación biométrica a través del reconocimiento facial para desbloquear smartphones.

 

Autenticación facial biométrica

Estimación de la pose

La estimación de pose mide la posición espacial de diferentes partes del cuerpo para reconocer gestos y rastrear movimientos corporales. Por ejemplo, la estimación de poses puede ayudar a marcar la orientación de los brazos y las manos de un jugador durante el juego de realidad virtual. Un ejemplo más real es el software de visión artificial de la NASA que proporciona a los operadores de brazos robóticos a bordo de la Estación Espacial Internacional una estimación de la pose en tiempo real para un agarre preciso de los objetivos5.

Reconocimiento óptico de caracteres

El reconocimiento óptico de caracteres (OCR), también conocido como reconocimiento de texto, extrae y convierte texto de imágenes, documentos escaneados y otras fuentes en un formato legible por máquina. Como tal, ayuda a automatizar la digitalización de textos escritos a mano y registros en papel.

El flujo de trabajo de OCR sigue estos pasos:

  1. La adquisición de imágenes convierte la imagen o el documento digital en una versión en blanco y negro, con las áreas claras marcadas como fondo y las áreas oscuras marcadas como caracteres para su reconocimiento.
  2. El preprocesamiento elimina los píxeles extraños y puede incluir la corrección de la inclinación para corregir la alineación incorrecta de la imagen durante el escaneo.
  3. El reconocimiento de texto encuentra letras alfabéticas, dígitos numéricos o símbolos, apuntando a un carácter a la vez. A continuación, identifica los caracteres mediante el reconocimiento de patrones, haciendo coincidir la fuente, la escala y la forma de un carácter con una plantilla.

Las CNN y los modelos basados en transformadores son capaces de reconocer caracteres de forma más inteligente, extrayendo características como curvas, intersecciones de líneas, bucles y el número de líneas angulares de un carácter. Estos algoritmos también son capaces de reconocer palabras de forma inteligente, distinguiendo palabras en lugar de caracteres para un procesamiento más rápido.

Generación de imágenes

La generación de imágenes emplea modelos de IA generativa para producir imágenes. Estos son algunos modelos generativos comunes utilizados para la generación de imágenes:

  • Los modelos de difusión se entrenan para crear imágenes novedosas aprendiendo a eliminar el ruido o reconstruir muestras en sus datos de entrenamiento que se han difundido gradualmente con ruido aleatorio y se han codificado hasta ser irreconocibles.
  • Las redes generativas adversarias (GAN) constan de dos redes neuronales: un generador que crea imágenes y un discriminador que actúa como adversario, discriminando entre imágenes artificiales y reales. Ambas redes se entrenan de forma iterativa, con el feedback del discriminador mejorando el resultado del generador hasta que el discriminador ya no es capaz de distinguir los datos artificiales de los reales.
  • Los autocodificadores variacionales (VAE) son modelos de deep learning que generan variaciones de las imágenes en las que se entrenan. Un codificador comprime las imágenes de entrada en un espacio de menor dimensión, capturando la información significativa contenida en las imágenes. A continuación, un decodificador reconstruye nuevas imágenes a partir de esta representación comprimida.

Los VLM también son capaces de generar imágenes a partir de una descripción de texto.

Inspección visual

La inspección visual automatiza la identificación de defectos. Mediante la detección, los sistemas de visión artificial inspeccionan imágenes o vídeos para detectar fallos y defectos. La segmentación de imágenes también se puede implementar para localizar defectos con mayor precisión.

Las máquinas de inspección visual impulsadas por visión artificial pueden ayudar a las empresas a realizar inspecciones más rápidas y seguras con mayor coherencia y precisión, ya sea señalando la corrosión en zonas de difícil acceso de los puentes o detectando conectores defectuosos en productos electrónicos ensamblados.

Aplicaciones de visión artificial

Como campo maduro de la IA, la visión artificial ha experimentado muchos avances, lo que ha dado lugar a una amplia gama de casos de uso. Estas son algunas aplicaciones reales de visión artificial:

Agricultura

Cámaras, drones y satélites capturan imágenes de alta resolución de cultivos y zonas agrícolas. A continuación, las tecnologías de visión artificial analizan estas imágenes para ayudar a evaluar el estado de las plantas y detectar plagas y malas hierbas para una aplicación más específica de herbicidas.

Vehículos autónomos

En la industria de la automoción, los coches autónomos componen un modelo 3D de su entorno utilizando una combinación de cámaras, lidar, radar y sensores. A continuación, aplican la detección de objetos, la segmentación de imágenes y la comprensión de la escena para una navegación segura, evitando obstáculos como peatones y otros vehículos y detectando con precisión características de la carretera como carriles, semáforos y señales de tráfico.

Sanidad

La imagen médica es un área clave de aplicación de la visión artificial. Por ejemplo, la detección de objetos puede automatizar el análisis de imágenes, localizando e identificando posibles marcadores de enfermedades en rayos X y tomografías computarizadas, resonancias magnéticas y ecografías. Además, la segmentación de instancias puede delinear los límites específicos de órganos, tejidos y tumores, lo que ayuda a un diagnóstico más preciso que puede informar mejor la toma de decisiones para los tratamientos y la atención al paciente.

Fabricación

Los sistemas de visión artificial ayudan con la gestión de inventarios, escaneando artículos para determinar los niveles de stock. También pueden impulsar el control de calidad, reconociendo defectos en tiempo real. Estos sistemas analizan las imágenes de los productos y pueden señalar fallos o incoherencias de forma rápida y precisa en comparación con los inspectores que utilizan su propia visión humana.

Venta al por menor y comercio electrónico

La tecnología Just Walk Out de Amazon, por ejemplo, utiliza visión artificial en pequeñas tiendas de venta minorista y de servicios de alimentación para rastrear las selecciones de los clientes y automatizar la experiencia de pago. Los clientes pueden simplemente tomar sus artículos y marcharse sin hacer cola en los mostradores de pago6.

Las tiendas en línea también pueden utilizar la realidad aumentada junto con el reconocimiento facial y la estimación de poses para sus experiencias de prueba virtuales, lo que permite a los clientes visualizar cómo les quedará la ropa, las gafas o el maquillaje antes de comprarlos.

Robótica

Al igual que los vehículos autónomos, los robots utilizan cámaras, lidar y sensores para mapear su entorno. A continuación, aplican algoritmos de visión artificial para completar sus tareas, como ayudar a los cirujanos con procedimientos complejos, navegar por los almacenes para transportar mercancías, recoger solo productos maduros y colocar objetos en líneas de montaje.

Exploración espacial

La detección de objetos puede ayudar a las naves espaciales a localizar y evitar peligros durante el aterrizaje, mientras que los rovers pueden implementar la misma capacidad para navegar por el terreno7. La clasificación de imágenes se puede emplear para categorizar asteroides, meteoros e incluso basura espacial, mientras que el seguimiento de objetos monitoriza las trayectorias de estos objetos astronómicos.

Herramientas de visión artificial

Muchas herramientas existen para crear aplicaciones de visión artificial, ayudando a agilizar el proceso de desarrollo. Algunas de las herramientas más populares son:

  • Keras
  • OpenCV
  • Scikit-image
  • TensorFlow
  • Torchvision

Keras

Keras es una interfaz de programación de aplicaciones (API) de deep learning que puede ejecutarse sobre otros marcos de IA como PyTorch y TensorFlow. Proporciona docenas de tutoriales y ejemplos para diversas tareas de visión artificial, incluida la clasificación de imágenes y vídeos, la segmentación de imágenes, la detección de objetos y el reconocimiento óptico de caracteres.

OpenCV

OpenCV es una de las bibliotecas de visión artificial más utilizadas. Esta biblioteca de código abierto alberga más de 2500 algoritmos de visión artificial y contiene módulos para el procesamiento de imágenes, la detección de objetos, el análisis de vídeo y mucho más. Está escrita en C++, pero también tiene contenedores para lenguajes de programación como Java y Python.

Scikit-image

Scikit-image es una colección de código abierto de algoritmos para el procesamiento de imágenes en Python. Admite el preprocesamiento, la extracción de características, la detección de objetos y la segmentación de imágenes, entre otras tareas. Su simplicidad lo hace accesible para principiantes.

TensorFlow

TensorFlow es una plataforma de machine learning de código abierto de Google. Aunque sirve para aplicaciones de deep learning de uso más general, TensorFlow también proporciona conjuntos de datos específicos de visión artificial, herramientas para el preprocesamiento y funciones para la clasificación de imágenes y vídeos, la segmentación de imágenes y la detección de objetos.

Torchvision

La biblioteca torchvision forma parte del ecosistema PyTorch. Abarca transformaciones de imágenes comunes, conjuntos de datos y otras funciones de servicios. El paquete también ofrece modelos para la clasificación de imágenes y vídeos, la detección de objetos y la segmentación semántica y de instancias.

Breve historia de la visión artificial

La visión artificial es una de las primeras disciplinas de la IA. Durante décadas, los investigadores informáticos han estado desarrollando formas para que las máquinas entiendan los datos visuales.

La experimentación comenzó en las décadas de 1950 y 1960, cuando los neurofisiólogos mostraban a los gatos una serie de imágenes mientras registraban la actividad neuronal. Descubrieron que los animales respondían primero a las líneas, y concluyeron que el procesamiento de imágenes comienza con formas simples como los bordes rectos8.

Aproximadamente al mismo tiempo, se desarrolló la primera tecnología de escaneo de imágenes por ordenador, dotando a los ordenadores de la capacidad de digitalizar y adquirir imágenes9. Otro hito se alcanzó cuando los ordenadores desarrollaron la capacidad de transformar imágenes bidimensionales en formas tridimensionales10.

En 1982, el neurocientífico David Marr estableció que la visión funciona de forma jerárquica e introdujo algoritmos para que las máquinas detectaran esquinas, curvas, bordes y formas básicas similares11. Durante la misma década, el científico informático Kunihiko Fukushima desarrolló una red de células que podían reconocer patrones y la denominó "neocognitrón", que incluía capas convolucionales en una red neuronal12.

En 2000, el enfoque del estudio se centró en la clasificación de imágenes y el reconocimiento de objetos13. En 2009, se introdujo el conjunto de datos ImageNet, que contiene millones de imágenes etiquetadas para entrenar algoritmos de visión artificial14. En 2012, un equipo de la Universidad de Toronto creó la AlexNet CNN, que se entrenó con el conjunto de datos ImageNet y redujo significativamente la tasa de error para el reconocimiento de imágenes, allanando el camino para los modelos de visión artificial actuales15.

Soluciones relacionadas
IBM Maximo Visual Inspection

Aproveche todo el potencial de la visión artificial no-code para la automatización de la inspección visual.

Explore Maximo Visual Inspection
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la manera de trabajar de las empresas usando IA para la transformación.

Explore los servicios de inteligencia artificial
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IBM.

Explore las soluciones de IA
Dé el siguiente paso

IBM Maximo Visual Inspection pone el poder de las capacidades de IA de visión artificial en manos de sus equipos de control de calidad e inspección. Libere el poder de la visión artificial no-code para la automatización de la inspección visual.

Explore Maximo Visual Inspection Realice un recorrido por el producto
Notas a pie de página

1. The three R’s of computer vision: Recognition, reconstruction and reorganization. Pattern Recognition Letters. 8 de febrero de 2016.
2. Efficient pneumonia detection using Vision Transformers on chest X-rays. Scientific Reports. 30 de enero de 2024.
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv. 3 de junio de 2021.
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification. Applied Sciences. 8 de septiembre de 2025.
5. Computer Vision Lends Precision to Robotic Grappling. NASA Technology Transfer Program. Consultado el 11 de septiembre de 2025.
6. Amazon Just Walk Out. AWS. Consultado el 11 de septiembre de 2025.
7. The Computer Vision Laboratory. NASA JPL Robotics. Consultado el 11 de septiembre de 2025.
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity. Cureus. 2 de septiembre de 2024.
9. Your Engineering Heritage: Scanners and Computer Image Processing. IEEE-USA InSight. 8 de febrero de 2016.
10. A Simple World: The Blocks World. Foundations of Computer Vision. 2024.
11. Marr’s Computational Theory of Vision. Foundations of Computer Vision. 2024.
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. Biological Cybernetics. 1980.
13. Computer Vision. Foundations of Computer Vision. 2024.
14. ImageNet: A large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition. 2009.
15. CHM Releases AlexNet Source Code. Computer History Museum. 20 de marzo de 2025.