¿Qué es la percepción del agente de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

¿Qué es la percepción del agente de IA?

La percepción del agente de IA se refiere a la capacidad de un agente de inteligencia artificial (IA) para recopilar, interpretar y procesar datos de su entorno para tomar decisiones informadas. Esto implica el uso de sensores, entradas de datos o fuentes externas para comprender el estado actual del sistema en el que opera.

El proceso de percepción permite que un agente impulsado por IA reaccione a los cambios del mundo real, se adapte a entornos dinámicos y maneje tareas complejas de manera efectiva.

Primero, los agentes perciben su entorno, luego procesan los datos recopilados para tomar una acción. Un agente de IA sin percepción sería un sistema basado en reglas o un programa impulsado por la lógica que opera únicamente con entradas predefinidas y estados internos, en lugar de interactuar dinámicamente con el entorno.

En otras palabras, no sería un agente. La percepción es una parte central de lo que hace que los agentes de IA sean verdaderamente inteligentes y útiles en aplicaciones del mundo real.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Tipos de percepción de los agentes de IA

Dependiendo de su propósito y de los sensores disponibles, los sistemas de IA pueden percibir el mundo a través de la visión, el sonido, el texto, los factores ambientales y el análisis predictivo.

Estos diferentes tipos de percepción permiten a los agentes de IA interactuar con el mundo que los rodea, optimizando los flujos de trabajo, mejorando la automatización y más.

Percepción visual

La percepción visual permite a los agentes interpretar y responder al mundo a través de imágenes, videos y otros datos visuales. Esta capacidad imita la vista humana, lo que permite a la IA reconocer objetos y comprender entornos.

Los avances en la visión por computadora y el aprendizaje profundo han mejorado la percepción visual de la IA, lo que ha llevado a avances en numerosos campos, como vehículos autónomos, atención médica y robótica.

A medida que los modelos de IA se vuelvan más sofisticados, los agentes de IA exhibirán cada vez más una comprensión visual similar a la humana, lo que les permitirá funcionar de forma autónoma y segura en escenarios complejos del mundo real.

Percepción auditiva

La percepción auditiva permite a los agentes procesar y comprender el sonido. Esta capacidad permite a la IA interpretar el habla, reconocer ruidos ambientales e interactuar con los usuarios a través de la comunicación basada en la voz.

Los avances en el procesamiento de lenguaje natural (PLN) y el aprendizaje profundo mejoraron enormemente la percepción auditiva de la IA, lo que dio lugar a aplicaciones generalizadas de IA en asistentes virtuales, herramientas de accesibilidad y sistemas de vigilancia.

Una de las principales tecnologías detrás de la percepción auditiva de la IA es el reconocimiento automático del habla (ASR).

Los sistemas ASR convierten el lenguaje hablado en texto, lo que permite a los asistentes de voz, como Siri, Alexa y Google Assistant, comprender y responder a los comandos del usuario. Estos sistemas se basan en redes neuronales y vastos conjuntos de datos para mejorar la precisión, incluso en entornos ruidosos o con diferentes acentos.

Más allá del habla, la IA puede analizar otros sonidos, como el diagnóstico de afecciones médicas a través del análisis de sonido respiratorio o la detección de anomalías en el equipamiento de fábrica.

Percepción textual

La percepción textual permite a los agentes procesar, interpretar y generar texto. Los agentes utilizan PLN para extraer significado del texto y facilitar la comunicación en diversas aplicaciones, como chatbots, motores de búsqueda y herramientas de resumen automatizadas. Los avances en los modelos de lenguaje de gran tamaño (LLM) basados en transformadores, como GPT-4, han mejorado la capacidad de la IA para comprender y razonar con el texto.

Uno de los componentes clave de la percepción textual es la comprensión semántica, que permite a la IA ir más allá del reconocimiento de palabras y captar su significado dentro de un contexto específico. Esto es esencial para casos de uso como la traducción automática, el análisis de sentimientos y el análisis de documentos legales o médicos.

Además, el reconocimiento de entidades nombradas (NER) permite a la IA identificar personas, lugares y organizaciones específicas, mejorando su capacidad para extraer insights valiosos de grandes conjuntos de datos, una capacidad valiosa en casos de uso, como marketing y experiencia del cliente.

Percepción del entorno

La percepción ambiental en los agentes de IA es distinta de la percepción auditiva y visual porque implica una comprensión más amplia y multimodal del entorno, integrando datos de varios sensores más allá de la vista y el sonido.

Los avances en visión artificial, fusión de sensores y machine learning han mejorado significativamente la capacidad de la IA para percibir e interactuar con el mundo físico.

A diferencia de la visión o el oído, la percepción ambiental fusiona múltiples entradas sensoriales (visión, sonido, LiDAR, tacto) para crear una comprensión holística de un entorno. Permite a los agentes de IA mapear y navegar por su entorno utilizando física del mundo real, mientras que la percepción visual y auditiva se centra más en el reconocimiento pasivo.

Mientras que la visión y el oído imitan las habilidades de los agentes humanos, la percepción ambiental se extiende más allá de ellos al incorporar radar, sensores de temperatura y detección de presión, lo que permite a la IA percibir cosas que los humanos no pueden.

Percepción predictiva

La percepción predictiva permite a los agentes anticipar acontecimientos futuros basar en datos observados. A diferencia de la percepción tradicional, que se centra en interpretar el entorno presente, la percepción predictiva permite a la IA pronosticar cambios, inferir intenciones y ajustar proactivamente el comportamiento.

Las capacidades predictivas en IA a menudo caen más bajo el análisis, el forecasting o la inferencia que la percepción en el sentido tradicional. Sin embargo, la percepción predictiva puede considerarse útilmente una categoría distinta donde la IA no solo siente el entorno sino que también anticipa cómo cambiará, integrando la percepción con el razonamiento prospectivo.

En el núcleo de la percepción predictiva se encuentran los modelos de machine learning (ML), aprendizaje profundo, modelado probabilístico y aprendizaje por refuerzo. Los sistemas de IA analizan datos históricos y en tiempo real para reconocer patrones y hacer predicciones.

Si bien el análisis predictivos se basa en datos históricos y modelos estadísticos, la percepción predictiva implica detección en tiempo real combinada con forecasting, lo que la hace más dinámica y receptiva al entorno inmediato. Si bien es un concepto híbrido, la percepción predictiva cierra la brecha entre la detección y la previsión, lo que permite a los agentes de IA no solo comprender el presente, sino también prepararse para el futuro en tiempo real.

Agentes de IA

Cinco tipos de agentes de IA: funciones autónomas y aplicaciones reales

Descubra cómo la IA orientada a objetivos y basada en utilidades se adapta a los flujos de trabajo y entornos complejos.

Cómo funciona la percepción del agente

Los agentes de IA trabajan en un ecosistema de otras herramientas, aplicaciones y marcos de infraestructura. Se conectan a través de interfaces de programación de aplicaciones (API), que les permiten integrarse con bases de conocimiento y sistemas externos. En escenarios como el desarrollo de software, los agentes de IA ayudan a optimizar el código, mejorar la latencia y automatizar tareas específicas.

En la IA generativa (IA gen), estos agentes pueden crear resultados como texto, imágenes o música basados en la entrada que perciben, utilizando modelos de aprendizaje profundo entrenados en grandes cantidades de datos.

Sin embargo, antes de que esto suceda, los agentes deben percibir. Aunque los procesos difieren según el diseño y el tipo de agente, estos son los pasos básicos utilizados en la percepción de agente:

1. Recopilación de información sensorial

Los agentes de IA recopilan datos sin procesar de diversas fuentes, como cámaras (para visión), micrófonos (para sonido), LiDAR y radar (para concientización) y sensores de presión o temperatura (para detección ambiental). Esta información sensorial forma la base de la percepción.

2. Procesamiento de datos y extracción de características

Cuando se recopilan, los datos se someten a un preprocesamiento para eliminar el ruido y resaltar características importantes. Por ejemplo, en la visión artificial, las redes neuronales convolucionales (CNN) analizan imágenes para detectar objetos, rostros o movimientos. En el reconocimiento de voz, los modelos de aprendizaje profundo transforman las ondas de audio en texto.

3. Reconocimiento e interpretación de patrones

Mediante algoritmos de machine learning, la IA detecta patrones, relaciones y señales contextuales. Los modelos de NLP, como los transformadores, ayudan a la IA a comprender y generar el lenguaje humano, mientras que el aprendizaje por refuerzo permite a los robots percibir y adaptarse a su entorno de forma dinámica.

4. Toma de decisiones y respuesta

La percepción lleva a la acción. Los agentes de IA utilizan modelos de inferencia para decidir cómo reaccionar en función de los datos percibidos. Un automóvil autónomo, por ejemplo, identifica a los peatones y las señales de tráfico, y luego realiza ajustes de conducción en tiempo real.

Cómo perciben los distintos tipos de agentes

La forma en que los agentes funcionan y perciben puede variar mucho según el tipo de agente, su propósito y las tecnologías que emplea, desde simples agentes reflejos que reaccionan a estímulos inmediatos hasta agentes de aprendizaje complejos que adaptan y mejoran su percepción con el tiempo.

Agentes reflejos simples

Los agentes reflejos reactivos perciben el entorno mediante sensores y responden directamente, a menudo con actuadores, según reglas predefinidas, sin recordar eventos pasados. Su percepción suele limitar a las entradas sensoriales actuales.

Agentes reflejos basados en modelos

Los agentes reflejos equipados con modelos mejoran a los agentes reflejos simples al mantener un modelo interno del mundo. Perciben el entorno a través de sensores, pero también utilizan estados internos para rastrear los cambios del mundo a lo largo del tiempo.

Agentes basados en objetivos

Los agentes orientados a objetivos perciben el entorno de una manera que les permite perseguir objetivos específicos. Utilizan sensores para recopilar información y evaluar cómo los estados actuales se alinean con sus objetivos.

Agentes basados en utilidades

Los agentes basados en la utilidad no solo persiguen objetivos, sino que también evalúan diferentes acciones posibles basar en una función de utilidad, que mide lo bien que cada acción consigue sus objetivos. Estos agentes emplean la percepción para evaluar el entorno y, a continuación, eligen las acciones que maximizan su satisfacción o rendimiento general.

Agentes de aprendizaje

Los agentes de aprendizaje perciben el entorno y toman decisiones basadas tanto en las entradas de los sensores como en las experiencias pasadas. Tienen un componente, como un algoritmo de aprendizaje, que les permite mejorar su rendimiento con el tiempo aprendiendo de sus interacciones. Estos agentes adaptan sus procesos de percepción y toma de decisiones en función de la retroalimentación.

Sistemas multiagente

Los sistemas multiagente (MAS) abordan la percepción al permitir que múltiples agentes autónomos compartan información, colaboren e interpreten colectivamente su entorno.

En lugar de basar en las entradas sensoriales de un único agente, los sistemas multiagente emplean un enfoque distribuido, a veces jerárquico, de la percepción, en el que cada agente puede percibir distintos aspectos del entorno y aportar fragmentos de información a una comprensión compartida.

Esta percepción colectiva mejora la capacidad general del sistema para manejar entornos complejos y dinámicos.

Además, las técnicas de fusión de sensores se emplean comúnmente en sistemas multiagente para combinar datos sensoriales de varios agentes y crear una percepción más precisa y holística del entorno.

Este enfoque también puede incluir técnicas como el razonamiento distribuido, en el que los agentes comparten sus observaciones, actualizan sus modelos internos basar en datos compartidos y colaboran para tomar decisiones colectivas, como en las misiones de búsqueda y rescate o los sistemas de vigilancia distribuida.

Las arquitecturas multiagente también emplean el aprendizaje colaborativo. A medida que los agentes interactúan e intercambian información a lo largo del tiempo, pueden aprender de las experiencias de los demás, mejorando la percepción colectiva y la toma de decisiones del sistema. Esta percepción distribuida permite que MAS sea más adaptable, escalable y capaz de resolver problemas complejos con una mínima intervención humana.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione poderosos asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agentes de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que pueda confiar.

    Explorar las soluciones de agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

    Explorar los servicios de inteligencia artificial
    Dé el siguiente paso

    Ya sea que elija personalizar aplicaciones y habilidades predefinidas o crear y desplegar servicios agénticos personalizados utilizando un estudio de IA, la plataforma IBM watsonx responde a sus necesidades.

    Explore watsonx Orchestrate Explore watsonx.ai