O que é a percepção de um agente de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

O que é a percepção de um agente de IA?

A percepção do agente de IA refere-se à capacidade de um agente de inteligência artificial (IA) de reunir, interpretar e processar dados de seu ambiente para tomar decisões informadas. Isso envolve o uso de sensores, entradas de dados ou fontes externas para entender o estado atual do sistema em que opera.

O processo de percepção permite que um agente impulsionado por IA reaja a mudanças do mundo real, se adapte a ambientes dinâmicos e execute tarefas complexas de forma eficaz.

Primeiro, os agentes percebem seu ambiente e, em seguida, processam os dados coletados para adotar uma ação. Um agente de IA sem percepção seria um sistema baseado em regras ou um programa orientado pela lógica que opera puramente com entradas predefinidas e estados internos, em vez de interagir dinamicamente com o ambiente.

Em outras palavras, ele não seria realmente um agente. A percepção é um componente fundamental do que torna os agentes de IA realmente inteligentes e úteis em aplicações do mundo real.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Tipos de percepção de agentes de IA

Dependendo de seu propósito e dos sensores disponíveis, os sistemas de IA podem perceber o mundo por meio da visão, do som, de texto, de fatores ambientais e da análise preditiva.

Esses diferentes tipos de percepção permitem que agentes de IA interajam com o mundo ao seu redor, otimizando fluxos de trabalho, aprimorando a automação e muito mais.

Percepção visual

A percepção visual permite que agentes interpretem e respondam ao mundo por meio de imagens, vídeos e outros dados visuais. Essa capacidade imita a visão humana, permitindo que a IA reconheça objetos e entenda ambientes.

Os avanços em computer vision e deep learning aprimoraram a percepção visual da IA, levando a avanços em vários campos, como veículos autônomos, saúde e robótica.

À medida que os modelos de IA se tornam mais sofisticados, os agentes de IA exibirão cada vez mais uma compreensão visual semelhante à humana, possibilitando que operem de maneira autônoma e segura em cenários reais complexos.

Percepção auditiva

A percepção auditiva permite que os agentes processem e entendam o som. Essa capacidade permite que a IA interprete a fala, reconheça ruídos ambientais e interaja com os usuários por meio de comunicação baseada em voz.

Avanços em processamento de linguagem natural (PLN) e deep learning aprimoraram enormemente a percepção auditiva da IA, levando a amplas aplicações em assistentes virtuais, ferramentas de acessibilidade e sistemas de vigilância.

Uma das principais tecnologias por trás da percepção auditiva da IA é o reconhecimento automático de fala (ASR). Os sistemas de ASR convertem a linguagem falada em texto, permitindo que assistentes de voz como Siri, Alexa e Google Assistant entendam e respondam aos comandos do usuário.

Esses sistemas dependem de redes neurais e de vastos conjuntos de dados para melhorar a precisão, mesmo em ambientes ruidosos ou com diferentes sotaques.

Além da fala, a IA pode analisar outros sons, como diagnosticar condições médicas por meio da análise de sons respiratórios ou detectar anomalias em equipamentos de fábricas.

Percepção textual

A percepção textual permite que os agentes processem, interpretem e gerem texto. Os agentes usam NLP para extrair o significado do texto e facilitar a comunicação em várias aplicações, como chatbots, mecanismos de pesquisa e ferramentas automatizadas de sumarização. Avanços em grandes modelos de linguagem (LLMs) baseados em transformadores, como o GPT-4, melhoraram a capacidade da IA de entender e raciocinar com texto.

Um dos principais componentes da percepção textual é a compreensão semântica, que permite à IA ir além de reconhecer palavras e compreender seu significado dentro de um contexto específico. Isso é essencial para casos de uso como tradução automática, análise de sentimento e análise de documentos jurídicos ou médicos.

Além disso, o named entity recognition (NER) permite que a IA identifique pessoas, lugares e organizações específicos, aprimorando sua capacidade de extrair insights valiosos de grandes conjuntos de dados, uma capacidade útil em casos de uso como marketing e experiência do cliente.

Percepção ambiental

A percepção ambiental em agentes de IA é distinta da percepção auditiva e visual porque envolve uma compreensão multimodal mais ampla do ambiente, integrando dados de vários sensores além da visão e do som.

Os avanços na computer vision, na fusão de sensores e no aprendizado de máquina melhoraram significativamente a capacidade da IA de perceber e interagir com o mundo físico.

Ao contrário da visão ou da audição isoladas, a percepção ambiental combina várias entradas sensoriais (visão, som, LiDAR, toque) para criar uma compreensão abrangente do ambiente. Ela permite que os agentes de IA mapeiem e naveguem pelo ambiente ao seu redor utilizando a física do mundo real, enquanto a percepção visual e sonora se concentra mais no reconhecimento passivo.

Enquanto visão e audição imitam as habilidades dos agentes humanos, a percepção ambiental vai além deles, incorporando radar, sensores de temperatura e detecção de pressão, permitindo que a IA perceba coisas que os humanos não conseguem.

Percepção preditiva

A percepção preditiva permite que agentes prevejam eventos futuros com base em dados observados. Diferentemente da percepção tradicional, que se concentra na interpretação do ambiente presente, a percepção preditiva permite que a IA preveja mudanças, infira intenções e ajuste proativamente seu comportamento.

Os recursos preditivos em IA muitas vezes se enquadram mais em análise, previsão ou inferência do que percepção no sentido tradicional. No entanto, a percepção preditiva pode ser considerada de forma útil como uma categoria distinta em que a IA não só detecta o ambiente, mas também prevê como ele mudará, integrando a percepção a raciocínio prospectivo.

No núcleo da percepção preditiva estão modelos de aprendizado de máquina (ML), deep learning, modelagem probabilística e aprendizado por reforço. Os sistemas de IA analisam dados históricos e em tempo real para reconhecer padrões e fazer previsões.

Enquanto a análise preditiva de dados depende de dados históricos e modelos estatísticos, a percepção preditiva envolve detecção em tempo real combinada com previsão, tornando-a mais dinâmica e responsiva ao ambiente imediato. Embora seja um conceito híbrido, a percepção preditiva preenche a lacuna entre a detecção e a previsão, permitindo que os agentes de IA não apenas entendam o presente, mas se preparem para o futuro em tempo real.

Agentes de IA

Cinco tipos de agentes de IA: funções autônomas e aplicações no mundo real

Saiba como a IA orientada por objetivos e baseada em utilidade se adapta a fluxos de trabalho e ambientes complexos.

Como funciona a percepção de agentes

Os agentes de IA trabalham em um ecossistema de outras ferramentas, aplicativos e frameworks. Eles se conectam por meio de interfaces de programação de aplicativos (APIs), que permitem a integração com bases e sistemas de conhecimento externos. Em situações como desenvolvimento de software, os agentes de IA ajudam a otimizar o código, melhorar a latência e automatizar tarefas específicas.

Na IA generativa (IA gen), esses agentes podem criar saídas como texto, imagens ou música com base nas entradas que percebem, utilizando modelos de deep learning treinados em vastos volumes de dados.

No entanto, antes que tudo isso possa acontecer, os agentes devem perceber. Embora os processos sejam diferentes dependendo do design e do tipo de agente, aqui estão as etapas básicas usadas na percepção agêntica:

1. Coleta de entradas sensoriais

Agentes de IA coletam dados brutos de várias fontes, como câmeras (para visão), microfones (para som), LiDAR e radar (para consciência espacial) e sensores de pressão ou temperatura (para percepção ambiental). Essas informações sensoriais formam a base para a percepção.

2. Processamento de dados e extração de funcionalidades

Quando coletados, os dados passam por pré-processamento para remover ruídos e destacar funcionalidades importantes. Por exemplo, na computer vision, as redes neurais convolucionais (CNNs) analisam imagens para detectar objetos, rostos ou movimentos. No reconhecimento de fala, modelos de deep learning transformam ondas de áudio em texto.

3. Reconhecimento e interpretação de padrões

Usando algoritmos de aprendizado de máquina, a IA detecta padrões, relações e sinais contextuais. Modelos de NLP, como transformadores, ajudam a IA a entender e gerar linguagem humana, enquanto o aprendizado por reforço permite que os robôs percebam e se adaptem ao ambiente ao seu redor dinamicamente.

4. Tomada de decisão e resposta

A percepção leva à ação. Agentes de IA usam modelos de inferência para decidir como reagir com base nos dados percebidos. Um carro autônomo, por exemplo, identifica pedestres e sinais de trânsito e faz ajustes de direção em tempo real.

Como diferentes tipos de agentes percebem

A maneira como agentes funcionam e percebem pode variar amplamente dependendo do tipo de agente, de seu propósito e das tecnologias que empregam, variando desde agentes de reflexo simples, que reagem a estímulos imediatos, até agentes de aprendizado complexos, que adaptam e aprimoram sua percepção ao longo do tempo.

Agentes de reflexo simples

Agentes de reflexo reativos percebem o ambiente por meio de sensores e respondem diretamente, geralmente com atuadores, com base em regras predefinidas, sem manter memória de eventos passados. Sua percepção é geralmente limitada às entradas sensoriais atuais.

Agentes de reflexo baseados em modelos

Agentes de reflexo equipados com modelos melhoram em relação aos agentes de reflexo simples ao manter um modelo interno do mundo. Eles percebem o ambiente por meio de sensores, mas também utilizam estados internos para rastrear as mudanças no ambiente ao longo do tempo.

Agentes baseados em objetivos

Agentes orientados a objetivos percebem o ambiente de uma maneira que lhes permite perseguir objetivos específicos. Eles usam sensores para coletar informações e avaliam como os estados atuais se alinham com seus objetivos.

Agentes baseados em utilidade

Agentes baseados em utilidade não apenas perseguem objetivos, mas também avaliam diferentes ações possíveis com base em uma função de utilidade, que mede o quanto cada ação atende a seus objetivos. Esses agentes usam a percepção para avaliar o ambiente e, em seguida, escolhem ações que maximizem sua satisfação ou desempenho geral.

Agentes de aprendizado

Agentes de aprendizado percebem o ambiente e tomam decisões baseadas tanto nas entradas sensoriais quanto em experiências passadas. Eles possuem um componente, como um algoritmo de aprendizado, que lhes permite melhorar seu desempenho ao longo do tempo a partir de suas interações. Esses agentes adaptam seus processos de percepção e tomada de decisão com base no feedback recebido.

Sistemas multiagentes

Sistemas multiagente (MAS) abordam a percepção permitindo que múltiplos agentes autônomos compartilhem informações, colaborem e interpretem coletivamente o ambiente.

Em vez de depender das entradas sensoriais de um único agente, sistemas multiagentes usam uma abordagem distribuída, às vezes hierárquica, de percepção, onde cada agente pode perceber diferentes aspectos do ambiente e contribuir com informações para uma compreensão compartilhada.

Essa percepção coletiva melhora a capacidade geral do sistema de lidar com ambientes complexos e dinâmicos.

Além disso, técnicas de fusão de sensores são comumente empregadas em sistemas multiagentes para combinar dados sensoriais de vários agentes e criar uma percepção do ambiente mais precisa e abrangente.

Essa abordagem também pode incluir técnicas como o raciocínio distribuído, onde agentes compartilham suas observações, atualizam seus modelos internos com base nos dados compartilhados e trabalham juntos para tomar decisões coletivas, como em missões de busca e resgate ou em sistemas de monitoramento distribuído.

Arquiteturas multiagentes também utilizam aprendizado colaborativo. À medida que os agentes interagem e trocam informações ao longo do tempo, eles podem aprender com as experiências uns dos outros, melhorando a percepção coletiva e a capacidade de tomada de decisão do sistema. Essa percepção distribuída torna os MAS mais adaptáveis, escaláveis e capazes de resolver problemas complexos com intervenção humana mínima.

Soluções relacionadas
Agentes de IA para empresas

Crie, implemente e gerencie assistentes e agentes de IA potentes que automatizam fluxos de trabalho e processos com a IA generativa.

    Explore o watsonx Orchestrate
    Soluções de agentes de IA da IBM

    Construa o futuro do seu negócio com soluções de IA em que você pode confiar.

    Explore soluções de agentes de IA
    Serviços de IA do IBM® Consulting

    Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

    Explore os serviços de inteligência artificial
    Dê o próximo passo

    Se você optar por personalizar aplicativos e habilidades criados previamente ou criar e implementar serviços agênticos personalizados usando um estúdio de IA, a plataforma IBM watsonx tem aquilo de que você precisa.

    Explore o watsonx Orchestrate Explore o watsonx.ai