Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
La visión artificial es un subcampo de la inteligencia artificial (IA) que dota a las máquinas con la capacidad de procesar, analizar e interpretar entradas visuales como imágenes y vídeos. Utiliza machine learning para ayudar a los ordenadores y otros sistemas a obtener información significativa a partir de datos visuales.
La visión artificial puede concebirse como la interacción entre tres procesos amplios, cada uno de los cuales trabaja en conjunto y se informa mutuamente: el reconocimiento, la reconstrucción y la reorganización. El reconocimiento de imágenes consiste en identificar acciones, objetos, personas, lugares y escritura en imágenes o vídeos digitales. La reconstrucción deriva las características tridimensionales de esas entidades, mientras que la reorganización infiere las relaciones entre las entidades1.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Las imágenes radiológicas en el diagnóstico de neumonía son un caso de uso común en visión artificial. Los radiólogos tienen que interpretar cuidadosamente las radiografías de tórax, un proceso que puede ser propenso a errores y llevar mucho tiempo debido a la sutileza de los síntomas de la neumonía y sus similitudes con otras afecciones pulmonares2. Un sistema de visión artificial puede ser de gran ayuda.
Existen varios tipos de modelos y enfoques para las tareas de visión artificial, pero el siguiente ejemplo ilustra un flujo de trabajo común:
El primer paso es recopilar los datos visuales necesarios. Los hospitales generan enormes volúmenes de radiografías de tórax, que pueden utilizar para entrenar un algoritmo de visión artificial. Dado que el objetivo es que el algoritmo clasifique si una imagen de rayos X muestra neumonía o no, los hospitales deberán compilar un conjunto de datos de radiografías de tórax y etiquetar o anotar correctamente cada exploración como normal o que signifique neumonía.
Para otros casos de uso, las imágenes y los vídeos pueden proceder de fuentes como cámaras y sensores. Los conjuntos de datos como COCO, ImageNet y Open Images proporcionan grandes colecciones de imágenes anotadas.
Un modelo de IA es tan bueno como los datos utilizados para entrenarlo, lo que hace que los datos de alta calidad sean cruciales para la visión artificial. El preprocesamiento puede ayudar a mejorar la calidad de los datos mediante la limpieza de datos y mejoras como el ajuste del brillo o el contraste para afinar las imágenes, así como el cambio de tamaño y el suavizado.
Los conjuntos de datos también deben ser lo suficientemente grandes y diversos para que los algoritmos de visión artificial produzcan resultados precisos. La generación de datos sintéticos y el aumento de datos pueden ayudar a ampliar el tamaño y la diversidad de los conjuntos de datos. Por ejemplo, los hospitales pueden utilizar transformaciones geométricas como girar las imágenes de radiografía de tórax hacia la izquierda o hacia la derecha o invertir las imágenes para aumentar sus datos.
Seleccionar el modelo de machine learning adecuado es crucial para optimizar la eficiencia y el rendimiento. Las redes neuronales convolucionales (CNNs) siguen siendo el principal modelo de deep learning para tareas de procesamiento de imágenes, mientras que las redes neuronales recurrentes (RNNs) son especialmente adecuadas para procesar datos secuenciales como fotogramas de vídeo.
Sin embargo, los avances en IA están impulsando un cambio hacia modelos de transformador. Por ejemplo, un transformador de visión (ViT) aplica elementos de un modelo de lenguaje basado en transformadores a la visión artificial. Los ViT procesan una imagen en parches y los tratan como secuencias, de forma similar a los tokens en un transformador de lenguaje. A continuación, el transformador de visión implementa un mecanismo de autoatención en estos parches para crear una representación basada en transformadores de la imagen de entrada. Los ViT a menudo igualan o superan el rendimiento de las CNN en tareas de visión artificial como la clasificación de imágenes3.
Una vez elegido un modelo, sigue el entrenamiento del mismo. La etapa de entrenamiento implica ejecutar el modelo con datos de entrenamiento específicos para una tarea de visión artificial, medir el rendimiento con respecto a la verdad sobre el terreno y optimizar los parámetros para mejorar el rendimiento a lo largo del tiempo.
Las CNN constan de tres tipos de capas: una capa convolucional, una capa de agrupamiento y una capa totalmente conectada. La capa convolucional es donde ocurre la extracción de características. La extracción de características implica determinar y capturar atributos visuales clave a partir de datos de imágenes sin procesar, como colores, bordes, formas y texturas. En el caso de las imágenes de rayos X con neumonía, las características que deben extraerse incluyen contornos pulmonares asimétricos, regiones brillantes que indican inflamación o la presencia de líquido (en lugar de regiones oscuras llenas de aire), áreas pulmonares nubladas u opacas y o texturas irregulares4. La extracción de características permite a los algoritmos distinguir relaciones y patrones significativos en los datos visuales.
Una imagen de rayos X se trata como una matriz de valores de píxeles. Otra matriz de ponderaciones (parámetros que controlan cuánta influencia tiene una característica de entrada determinada en el resultado del modelo) conocida como filtro o núcleo se aplica a un área de la imagen de rayos X, con un producto escalar calculado entre los valores de píxeles de entrada. El filtro se mueve, o "convoluciona", a través de la imagen para extraer características, y todo el proceso se conoce como convolución. El resultado final de la serie de productos escalares se denomina mapa de activación o mapa de característica. Cada filtro se ajusta para responder a patrones específicos, como bordes, formas o texturas, lo que permite a la CNN aprender múltiples características visuales simultáneamente.
El mapa de características se introduce en una capa de agrupamiento para reducir aún más el tamaño del mapa y comprimir sus dimensiones. Otro filtro barre toda la entrada, tomando los valores máximos o promedio dentro de un grupo de celdas en el mapa de características. Esto conserva las características más esenciales, lo que permite que el modelo centre su atención en ellas.
El acto de moverse por una imagen para extraer características, reducir dimensiones y producir una clasificación se conoce como propagación hacia adelante. Después de esta propagación hacia adelante, el modelo aplica una función de pérdida para calcular su error o la diferencia entre su clasificación prevista y la clasificación real.
Para minimizar la función de pérdida, se emplea la retropropagación. La retropropagación es una propagación hacia atrás para calcular el gradiente de la función de pérdida con respecto a cada peso. A continuación, se implementa la técnica de descenso de gradiente para actualizar las ponderaciones del modelo y optimizarlo.
Por último, la capa totalmente conectada realiza la tarea de clasificación en función de las características extraídas a través de las capas anteriores y sus diferentes filtros. A continuación, la CNN genera sus resultados, que son probabilidades para cada clase (en este caso, normal frente a neumonía). Para la tarea de clasificación de imágenes de rayos X de tórax, este resultado indicará una exploración normal o, si la probabilidad supera un umbral predeterminado, una exploración positiva para neumonía.
Los algoritmos de visión artificial pueden ser entrenados en una amplia gama de tareas, algunas de las cuales incluyen:
El reconocimiento de imágenes es la forma más amplia de visión artificial. Abarca la identificación de personas, lugares, objetos y otras entidades en imágenes digitales y sirve como base para tareas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes.
La clasificación de imágenes es una tarea básica de visión artificial que clasifica las imágenes en grupos o clases predefinidos. Predice la etiqueta más adecuada para una imagen u objetos dentro de una imagen. El escenario ilustrado anteriormente del diagnóstico de neumonía mediante radiografías de tórax es un ejemplo de clasificación de imágenes.
La detección de objetos tiene como objetivo determinar dónde se encuentran los objetos en las imágenes digitales. Combina dos técnicas de aprendizaje: localización de objetos y clasificación de imágenes.
La localización de objetos identifica la ubicación de objetos específicos en una imagen dibujando cuadros delimitadores a su alrededor. Luego, la clasificación de imágenes distingue la categoría a la que pertenecen los objetos. En las imágenes del tráfico rodado, por ejemplo, las aplicaciones de visión artificial pueden utilizar la detección de objetos no solo para clasificar los vehículos, sino también para localizarlos en la carretera.
Las arquitecturas de CNN comunes para la detección de objetos incluyen R-CNN (red neuronal convolucional basada en regiones) y YOLO (you only look once). R-CNN implementa la detección en dos etapas determinando primero las regiones que contienen objetos y luego ejecutando esas regiones a través de redes separadas para su clasificación y localización más exacta. Mientras tanto, YOLO realiza la detección en una sola etapa combinando la localización y la clasificación en un solo paso de red, lo que lo hace lo suficientemente rápido para la detección de objetos en tiempo real.
La detección de objetos para vídeos suele aplicar modelos basados en transformadores y RNN, en particular la arquitectura de memoria a largo plazo.
La segmentación de imágenes es una versión más precisa, a nivel de píxeles, de la detección de objetos. Divide una imagen digital en grupos discretos de píxeles conocidos como segmentos de imagen y, a continuación, etiqueta los píxeles según su clase o instancia.
Mientras que la detección de objetos puede clasificar varios elementos dentro de una imagen y aproximar el ancho y la altura de cada elemento, la segmentación de imágenes discierne límites o formas exactos. Esto hace que la segmentación de imágenes sea valiosa para delinear objetos muy agrupados con cuadros delimitadores superpuestos.
La segmentación de imágenes se puede subdividir en tres tipos de tareas:
Por ejemplo, en una imagen de la calle de una ciudad, la segmentación semántica podría tratar a los coches aparcados uno delante del otro como un segmento de coche largo, mientras que la segmentación de instancias separa y determina la forma de cada coche.
El seguimiento de objetos sigue y rastrea un objeto a medida que se mueve a través de una secuencia de fotogramas de vídeo o imagen. Localiza y distingue el objeto en cada fotograma y preserva la continuidad del objeto durante el recorrido.
La comprensión de la escena va un paso más allá del reconocimiento de objetos, capturando un mayor nivel de información visual. Al identificar objetos en una imagen, los modelos de deep learning predicen conexiones entre ellos, como acciones, eventos e interacciones.
Las redes neuronales gráficas (GNN) se pueden utilizar para representar las relaciones espaciales entre objetos en una imagen. En el ejemplo de las imágenes de tráfico, los sistemas de visión artificial pueden inferir que un taxi se mueve delante de un coche, un coche está aparcado a la izquierda de un taxi o un coche gira a la derecha.
Los modelos de lenguaje de visión (VLM) también pueden ayudar a comprender la escena. Este emparejamiento de modelos de lenguaje de gran tamaño (LLM) con transformadores de visión puede reconocer y clasificar objetos dentro de una imagen y proporcionar descripciones contextuales, como la posición de un objeto en relación con otros elementos visuales.
El reconocimiento facial aplica el reconocimiento de imágenes a las características faciales. Captura la geometría de una cara y detecta patrones clave como la distancia entre los ojos, la distancia desde la frente hasta la barbilla, el contorno de la nariz y la forma de los labios.
El reconocimiento facial puede identificar a las personas en tiempo real o en fotos o vídeos. Un ejemplo popular es la autenticación biométrica a través del reconocimiento facial para desbloquear smartphones.
La estimación de pose mide la posición espacial de diferentes partes del cuerpo para reconocer gestos y rastrear movimientos corporales. Por ejemplo, la estimación de poses puede ayudar a marcar la orientación de los brazos y las manos de un jugador durante el juego de realidad virtual. Un ejemplo más real es el software de visión artificial de la NASA que proporciona a los operadores de brazos robóticos a bordo de la Estación Espacial Internacional una estimación de la pose en tiempo real para un agarre preciso de los objetivos5.
El reconocimiento óptico de caracteres (OCR), también conocido como reconocimiento de texto, extrae y convierte texto de imágenes, documentos escaneados y otras fuentes en un formato legible por máquina. Como tal, ayuda a automatizar la digitalización de textos escritos a mano y registros en papel.
El flujo de trabajo de OCR sigue estos pasos:
Las CNN y los modelos basados en transformadores son capaces de reconocer caracteres de forma más inteligente, extrayendo características como curvas, intersecciones de líneas, bucles y el número de líneas angulares de un carácter. Estos algoritmos también son capaces de reconocer palabras de forma inteligente, distinguiendo palabras en lugar de caracteres para un procesamiento más rápido.
La generación de imágenes emplea modelos de IA generativa para producir imágenes. Estos son algunos modelos generativos comunes utilizados para la generación de imágenes:
Los VLM también son capaces de generar imágenes a partir de una descripción de texto.
La inspección visual automatiza la identificación de defectos. Mediante la detección, los sistemas de visión artificial inspeccionan imágenes o vídeos para detectar fallos y defectos. La segmentación de imágenes también se puede implementar para localizar defectos con mayor precisión.
Las máquinas de inspección visual impulsadas por visión artificial pueden ayudar a las empresas a realizar inspecciones más rápidas y seguras con mayor coherencia y precisión, ya sea señalando la corrosión en zonas de difícil acceso de los puentes o detectando conectores defectuosos en productos electrónicos ensamblados.
Como campo maduro de la IA, la visión artificial ha experimentado muchos avances, lo que ha dado lugar a una amplia gama de casos de uso. Estas son algunas aplicaciones reales de visión artificial:
Cámaras, drones y satélites capturan imágenes de alta resolución de cultivos y zonas agrícolas. A continuación, las tecnologías de visión artificial analizan estas imágenes para ayudar a evaluar el estado de las plantas y detectar plagas y malas hierbas para una aplicación más específica de herbicidas.
En la industria de la automoción, los coches autónomos componen un modelo 3D de su entorno utilizando una combinación de cámaras, lidar, radar y sensores. A continuación, aplican la detección de objetos, la segmentación de imágenes y la comprensión de la escena para una navegación segura, evitando obstáculos como peatones y otros vehículos y detectando con precisión características de la carretera como carriles, semáforos y señales de tráfico.
La imagen médica es un área clave de aplicación de la visión artificial. Por ejemplo, la detección de objetos puede automatizar el análisis de imágenes, localizando e identificando posibles marcadores de enfermedades en rayos X y tomografías computarizadas, resonancias magnéticas y ecografías. Además, la segmentación de instancias puede delinear los límites específicos de órganos, tejidos y tumores, lo que ayuda a un diagnóstico más preciso que puede informar mejor la toma de decisiones para los tratamientos y la atención al paciente.
Los sistemas de visión artificial ayudan con la gestión de inventarios, escaneando artículos para determinar los niveles de stock. También pueden impulsar el control de calidad, reconociendo defectos en tiempo real. Estos sistemas analizan las imágenes de los productos y pueden señalar fallos o incoherencias de forma rápida y precisa en comparación con los inspectores que utilizan su propia visión humana.
La tecnología Just Walk Out de Amazon, por ejemplo, utiliza visión artificial en pequeñas tiendas de venta minorista y de servicios de alimentación para rastrear las selecciones de los clientes y automatizar la experiencia de pago. Los clientes pueden simplemente tomar sus artículos y marcharse sin hacer cola en los mostradores de pago6.
Las tiendas en línea también pueden utilizar la realidad aumentada junto con el reconocimiento facial y la estimación de poses para sus experiencias de prueba virtuales, lo que permite a los clientes visualizar cómo les quedará la ropa, las gafas o el maquillaje antes de comprarlos.
Al igual que los vehículos autónomos, los robots utilizan cámaras, lidar y sensores para mapear su entorno. A continuación, aplican algoritmos de visión artificial para completar sus tareas, como ayudar a los cirujanos con procedimientos complejos, navegar por los almacenes para transportar mercancías, recoger solo productos maduros y colocar objetos en líneas de montaje.
La detección de objetos puede ayudar a las naves espaciales a localizar y evitar peligros durante el aterrizaje, mientras que los rovers pueden implementar la misma capacidad para navegar por el terreno7. La clasificación de imágenes se puede emplear para categorizar asteroides, meteoros e incluso basura espacial, mientras que el seguimiento de objetos monitoriza las trayectorias de estos objetos astronómicos.
Muchas herramientas existen para crear aplicaciones de visión artificial, ayudando a agilizar el proceso de desarrollo. Algunas de las herramientas más populares son:
Keras es una interfaz de programación de aplicaciones (API) de deep learning que puede ejecutarse sobre otros marcos de IA como PyTorch y TensorFlow. Proporciona docenas de tutoriales y ejemplos para diversas tareas de visión artificial, incluida la clasificación de imágenes y vídeos, la segmentación de imágenes, la detección de objetos y el reconocimiento óptico de caracteres.
OpenCV es una de las bibliotecas de visión artificial más utilizadas. Esta biblioteca de código abierto alberga más de 2500 algoritmos de visión artificial y contiene módulos para el procesamiento de imágenes, la detección de objetos, el análisis de vídeo y mucho más. Está escrita en C++, pero también tiene contenedores para lenguajes de programación como Java y Python.
Scikit-image es una colección de código abierto de algoritmos para el procesamiento de imágenes en Python. Admite el preprocesamiento, la extracción de características, la detección de objetos y la segmentación de imágenes, entre otras tareas. Su simplicidad lo hace accesible para principiantes.
TensorFlow es una plataforma de machine learning de código abierto de Google. Aunque sirve para aplicaciones de deep learning de uso más general, TensorFlow también proporciona conjuntos de datos específicos de visión artificial, herramientas para el preprocesamiento y funciones para la clasificación de imágenes y vídeos, la segmentación de imágenes y la detección de objetos.
La biblioteca torchvision forma parte del ecosistema PyTorch. Abarca transformaciones de imágenes comunes, conjuntos de datos y otras funciones de servicios. El paquete también ofrece modelos para la clasificación de imágenes y vídeos, la detección de objetos y la segmentación semántica y de instancias.
La visión artificial es una de las primeras disciplinas de la IA. Durante décadas, los investigadores informáticos han estado desarrollando formas para que las máquinas entiendan los datos visuales.
La experimentación comenzó en las décadas de 1950 y 1960, cuando los neurofisiólogos mostraban a los gatos una serie de imágenes mientras registraban la actividad neuronal. Descubrieron que los animales respondían primero a las líneas, y concluyeron que el procesamiento de imágenes comienza con formas simples como los bordes rectos8.
Aproximadamente al mismo tiempo, se desarrolló la primera tecnología de escaneo de imágenes por ordenador, dotando a los ordenadores de la capacidad de digitalizar y adquirir imágenes9. Otro hito se alcanzó cuando los ordenadores desarrollaron la capacidad de transformar imágenes bidimensionales en formas tridimensionales10.
En 1982, el neurocientífico David Marr estableció que la visión funciona de forma jerárquica e introdujo algoritmos para que las máquinas detectaran esquinas, curvas, bordes y formas básicas similares11. Durante la misma década, el científico informático Kunihiko Fukushima desarrolló una red de células que podían reconocer patrones y la denominó "neocognitrón", que incluía capas convolucionales en una red neuronal12.
En 2000, el enfoque del estudio se centró en la clasificación de imágenes y el reconocimiento de objetos13. En 2009, se introdujo el conjunto de datos ImageNet, que contiene millones de imágenes etiquetadas para entrenar algoritmos de visión artificial14. En 2012, un equipo de la Universidad de Toronto creó la AlexNet CNN, que se entrenó con el conjunto de datos ImageNet y redujo significativamente la tasa de error para el reconocimiento de imágenes, allanando el camino para los modelos de visión artificial actuales15.
1. The three R’s of computer vision: Recognition, reconstruction and reorganization. Pattern Recognition Letters. 8 de febrero de 2016.
2. Efficient pneumonia detection using Vision Transformers on chest X-rays. Scientific Reports. 30 de enero de 2024.
3. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv. 3 de junio de 2021.
4. NGBoost Classifier Using Deep Features for Pneumonia Chest X-Ray Classification. Applied Sciences. 8 de septiembre de 2025.
5. Computer Vision Lends Precision to Robotic Grappling. NASA Technology Transfer Program. Consultado el 11 de septiembre de 2025.
6. Amazon Just Walk Out. AWS. Consultado el 11 de septiembre de 2025.
7. The Computer Vision Laboratory. NASA JPL Robotics. Consultado el 11 de septiembre de 2025.
8. From Cats to the Cortex: Unravelling the Hierarchical Processing System of Vision and Brain Plasticity. Cureus. 2 de septiembre de 2024.
9. Your Engineering Heritage: Scanners and Computer Image Processing. IEEE-USA InSight. 8 de febrero de 2016.
10. A Simple World: The Blocks World. Foundations of Computer Vision. 2024.
11. Marr’s Computational Theory of Vision. Foundations of Computer Vision. 2024.
12. Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position. Biological Cybernetics. 1980.
13. Computer Vision. Foundations of Computer Vision. 2024.
14. ImageNet: A large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition. 2009.
15. CHM Releases AlexNet Source Code. Computer History Museum. 20 de marzo de 2025.