O que é aprendizado de agentes de IA?

Autores

Cole Stryker

Staff Editor, AI Models

IBM Think

Como os agentes de IA aprendem e se adaptam ao longo do tempo?

O aprendizado de agentes de IA refere-se ao processo pelo qual um agente de inteligência artificial (IA) melhora seu desempenho ao longo do tempo, interagindo com seu ambiente, processando dados e otimizando sua tomada de decisão. Esse processo de aprendizado permite que agentes autônomos se adaptem, melhorem a eficiência e lidem com tarefas complexas em ambientes dinâmicos. O aprendizado é um componente fundamental de muitos sistemas de IA agêntica.

Nem todos os tipos de agentes de IA podem aprender. Alguns são simples agentes de reflexo, que absorvem dados de forma passiva e, sem recursos de aprendizado, executam ações reativas programadas em resposta.

Há agentes de reflexo baseados em modelos, que podem raciocinar sobre seu ambiente, e agentes proativos baseados em metas, que podem buscar objetivos específicos, mas eles não aprendem. Nem os agentes baseados em utilidade, que usam uma função de utilidade para avaliar e selecionar ações que maximizam o benefício geral, podem.

Um agente de aprendizado melhora seu desempenho ao longo do tempo, adaptando-se a novas experiências e dados. Outros agentes de IA trabalham com regras ou modelos predefinidos, enquanto os agentes de aprendizado atualizam continuamente seu comportamento com base no feedback do ambiente.

Isso permite que eles aprimorem suas habilidades de tomada de decisão e tenham um melhor desempenho em situações dinâmicas e incertas. Os agentes de aprendizado representam todo o potencial das ferramentas de IA para lidar com cargas de trabalho de resolução de problemas multietapas com o mínimo de intervenção humana.

Os agentes de aprendizado normalmente consistem em quatro componentes principais:

  1. Elemento de desempenho: toma decisões informadas com base em uma base de conhecimento.

  2. Elemento de aprendizado: ajusta e aprimora o conhecimento do agente com base em feedback e experiência.

  3. Crítico: avalia as ações do agente e fornece feedback, frequentemente na forma de recompensas ou penalidades.

  4. Gerador de problemas: sugere ações exploratórias para ajudar o agente a descobrir novas estratégias e melhorar seu aprendizado.

As mais recentes notícias de tecnologia, corroboradas por insights de especialistas.

Mantenha-se atualizado sobre as tendências mais importantes e fascinantes do setor em IA, automação, dados e muito mais com o boletim informativo da Think. Consulte a declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua inscrição será entregue em inglês. Você pode encontrar um link para cancelar a inscrição em todos os boletins informativos. Você pode gerenciar suas inscrições ou cancelar a inscrição aqui. Consulte nossa declaração de privacidade da IBM para obter mais informações.

Tipos de aprendizado de agentes de IA

O aprendizado de máquina (ML) forma a base dos vários tipos de aprendizado de agentes de IA. Ela permite que os agentes identifiquem padrões, façam previsões e melhorem o desempenho com base nos dados.

As três principais técnicas de aprendizado de máquina usadas em agentes de IA são aprendizado supervisionado, aprendizado não supervisionado e aprendizado por reforço. Mais especificamente, essas são técnicas de deep learning, que usam redes neurais complexas com muitas camadas para processar grandes quantidades de dados e aprender padrões complexos.

Aprendizado supervisionado

O aprendizado supervisionado envolve o treinamento de algoritmos de aprendizado de máquina em conjuntos de dados rotulados, onde cada entrada corresponde a uma saída conhecida. O agente usa essas informações para criar modelos preditivos.

Por exemplo, os chatbots IA podem ser treinados em conversas de atendimento ao cliente e resoluções correspondentes para fornecer respostas previstas. Essa abordagem é amplamente aplicada em reconhecimento de imagens, processamento de speech to text e diagnósticos médicos.

O aprendizado por transferência permite que os agentes de IA usem o conhecimento adquirido em uma tarefa e o apliquem em outra. Por exemplo, um grande modelo de linguagem (LLM) treinado em um conjunto de dados geral pode ser ajustado para um domínio específico, como processamento de textos jurídicos ou médicos.

Aprendizado não supervisionado

Ao contrário, oaprendizado não supervisionado permite que os agentes de IA realizem análise de dados em dados não rotulados para encontrar padrões e estruturas sem supervisão humana.

Esse método é útil em tarefas como agrupar o comportamento dos clientes para melhorar estratégia de marketing, detecção de anomalias em cibersegurança e sistemas de recomendação, como os usados por serviços de streaming.

O aprendizado autossupervisionado usa o aprendizado não supervisionado para tarefas que, convencionalmente, exigem aprendizado supervisionado. Em vez de depender de conjuntos de dados rotulados para sinais de supervisão, os modelos de IA autossupervisionados geram rótulos implícitos a partir de dados não estruturados.

O aprendizado autossupervisionado é útil em campos como visão computacional e processamento de linguagem natural (NLP), que exigem grandes quantidades de dados de treinamento rotulados.

Aprendizado de reforço

O aprendizado por reforço é um processo de aprendizado de máquina que se concentra em fluxos de trabalho de tomada de decisão em agentes autônomos. Ele lida com processos de tomada de decisão sequenciais em ambientes incertos.

Ao contrário do aprendizado supervisionado, o aprendizado por reforço não usa exemplos rotulados de comportamentos corretos ou incorretos. No entanto, o aprendizado por reforço também se diferencia do aprendizado não supervisionado ao aprender por tentativa e erro e por meio de uma função de recompensa, em vez de extrair informações de padrões ocultos.

O aprendizado por reforço também se distingue do aprendizado autossupervisionado porque não produz pseudorrótulos nem mede em relação a uma verdade fundamental; ele não é um método de classificação, mas um aprendiz de ações.

Os agentes de IA que usam o aprendizado por reforço operam por meio de um processo de tentativa e erro, no qual adotam ações dentro de um ambiente, observam os resultados e ajustam devidamente suas estratégias. O processo de aprendizado envolve a definição de uma política que mapeie os estados para ações, otimizando as recompensas cumulativas de longo prazo em vez de ganhos imediatos.

Com o tempo, o agente refina seus recursos de tomada de decisão por meio de interações repetidas, melhorando gradualmente sua capacidade de executar tarefas complexas de forma eficaz. Essa abordagem é benéfica em ambientes dinâmicos, onde as regras predefinidas podem não ser suficientes para o desempenho ideal.

Veículos autônomos usam aprendizado por reforço para aprender comportamentos de direção ideais. Por meio de tentativa e erro, a IA melhora sua capacidade de navegar pelas estradas, evitar obstáculos e tomar decisões de direção em tempo real. Os chatbots impulsionados por IA melhoram suas habilidades de conversação aprendendo com as interações dos usuários e otimizando as respostas para melhorar o engajamento.

Aprendizado contínuo

O aprendizado contínuo em agentes de IA refere-se à capacidade de um sistema de inteligência artificial de aprender e se adaptar ao longo do tempo, incorporando novos dados e experiências sem esquecer o conhecimento prévio.

Ao contrário do aprendizado de máquina tradicional, que normalmente envolve treinamento em um conjunto de dados fixo, o aprendizado contínuo permite que a IA atualize seus modelos continuamente à medida que encontra novas informações ou mudanças em seu ambiente. Isso permite que o agente melhore seu desempenho em tempo real, adaptando-se a novos padrões, situações em evolução e condições dinâmicas.

O aprendizado contínuo é importante em aplicações do mundo real, onde os dados estão em constante mudança e a IA deve se manter atualizada com novas entradas para permanecer eficaz. Isso ajuda a evitar o "esquecimento catastrófico", quando o modelo esquece conhecimentos antigos ao aprender novas informações, e ajuda a garantir que o sistema possa lidar com um conjunto de tarefas e desafios em constante evolução.

Aprendizado e colaboração multiagentes

Um dos benefícios dos agentes de IA é que eles podem trabalhar juntos. Em arquiteturas multiagentes, os agentes de IA aprendem por meio de colaboração e competição. No aprendizado cooperativo, os agentes compartilham conhecimento para alcançar um objetivo comum, como visto na robótica de enxame.

No entanto, o aprendizado competitivo ocorre quando os agentes refinam suas estratégias competindo em ambientes adversários, como a IA de negociação financeira.

Imagine uma rede de agentes de IA trabalhando para melhorar o atendimento ao paciente, simplificar fluxos de trabalho, promover a adesão a considerações éticas e otimizar a alocação de recursos em uma rede hospitalar.

Nesses frameworks multiagentes, às vezes, um agente de aprendizado mais avançado equipado com IA generativa (IA gen) supervisiona agentes reflexivos ou baseados em objetivos mais simples. Nesse caso de uso, cada agente poderia representar uma função ou tarefa diferente dentro do sistema de saúde, e eles colaborariam e compartilhariam informações para melhorar os resultados dos pacientes e a eficiência operacional.

Agentes de IA

Cinco tipos de agentes de IA: funções autônomas e aplicações no mundo real

Saiba como a IA orientada por objetivos e baseada em utilidade se adapta a fluxos de trabalho e ambientes complexos.

Mecanismos de feedback

Com mecanismos de feedback, um sistema de IA recebe informações sobre os resultados de suas ações ou previsões, permitindo que avalie a precisão ou eficácia de seu comportamento.

Esse feedback, que pode ser positivo (reforçando o comportamento correto) ou negativo (penalizando o comportamento incorreto), é essencial para orientar as decisões do sistema e melhorar seu desempenho. O feedback é um componente crítico que permite o aprendizado em IA, mas não é a totalidade do processo de aprendizado.

O feedback em tempo real é crucial para agentes de IA que operam em ambientes dinâmicos. Sistemas autônomos, como carros autônomos e robotic process automation (RPA), coletam continuamente dados de sensores e ajustam seu comportamento com base em feedback imediato. Isso permite que eles se adaptem às novas condições e melhorem sua tomada de decisão em tempo real.

Feedback de aprendizado não supervisionado

No aprendizado não supervisionado, o feedback não é explicitamente fornecido na forma de dados rotulados ou supervisão direta. Em vez disso, o agente de IA procura padrões, estruturas ou relações dentro dos próprios dados.

Por exemplo, em tarefas de agrupamento ou redução de dimensionalidade, o feedback ocorre implicitamente à medida que o agente ajusta seu modelo para representar melhor a estrutura subjacente dos dados.

O modelo refina sua compreensão dos dados por meio de métricas como minimização de erros, por exemplo, reduzindo o erro de reconstrução em autocodificadores ou otimizando um critério específico, como maximizar a similaridade de dados no agrupamento.

Em um sistema de gerenciamento da cadeia de suprimentos, que precisa prever a demanda de produtos e otimizar os níveis de inventário em vários armazéns e lojas, um agente de IA pode usar técnicas de aprendizado não supervisionado, como agrupamento ou detecção de anomalias, para analisar grandes volumes de dados históricos de vendas, sem a necessidade de rótulos explícitos ou categorias predefinidas.

Feedback de aprendizado supervisionado

No aprendizado supervisionado, o feedback é explícito e vem na forma de dados rotulados. O agente de IA é treinado usando pares de entrada/saída (por exemplo, uma imagem com um rótulo correspondente). Depois que o agente faz previsões, o feedback é fornecido comparando sua saída com o rótulo correto (verdade absoluta).

A diferença entre a saída prevista e a verdadeira (erro) é calculada, muitas vezes usando uma função de perda. Esse feedback é usado para ajustar os parâmetros do modelo, para que o modelo possa melhorar suas previsões ao longo do tempo.

Os agentes de IA podem usar o aprendizado supervisionado para prever em quais produtos ou serviços um cliente provavelmente estará interessado, com base em seu comportamento anterior, histórico de compras ou preferências do usuário.

Por exemplo, uma solução de IA para uma plataforma de comércio eletrônico pode usar dados históricos, como compras anteriores e classificações, como exemplos rotulados para treinar um modelo que prevê os produtos que um cliente pode querer comprar em seguida, melhorando as experiências do clientes.

O aprendizado supervisionado é considerado aprendizado human-in-the-loop (HITL) porque os agentes de IA integram feedback humano para refinar seus modelos, melhorar a tomada de decisão e se adaptar a novas situações.

Esse método combina aprendizado automatizado com experiência humana, permitindo que a IA lide com tarefas complexas de forma mais eficaz, minimizando erros e vieses. O HITL também pode ser integrado como mecanismo de feedback a outros tipos de aprendizado, mas é parte integrante apenas do processo de aprendizado autossupervisionado.

Feedback de aprendizado por reforço

Na aprendizagem por reforço (RL), o feedback é fornecido na forma de recompensas ou penalidades. Um agente de RL interage com um ambiente, realizando ações que levam a diferentes resultados. Após cada ação, o agente recebe feedback na forma de uma recompensa ou penalidade escalar, que indica se o resultado foi bom ou ruim em relação ao objetivo.

O agente usa esse feedback para ajustar sua política ou estratégia de tomada de decisão, visando maximizar as recompensas acumuladas ao longo do tempo. Esse ciclo de feedback permite que o agente aprenda ações ou estratégias ideais por meio de tentativa e erro, refinando seu comportamento à medida que explora o ambiente.

Feedback de aprendizado autossupervisionado

No aprendizado autossupervisionado, o agente gera seus próprios rótulos a partir dos dados, criando uma forma de feedback da estrutura dentro dos próprios dados. O modelo usa partes dos dados para prever outras partes, como prever palavras que faltam em uma frase ou prever quadros futuros em um vídeo.

O feedback vem da comparação das previsões do modelo com os dados reais ausentes ou futuros. O agente aprende minimizando o erro de previsão, refinando suas representações internas com base nesse feedback autogerado.

Soluções relacionadas
Agentes de IA para empresas

Crie, implemente e gerencie assistentes e agentes de IA potentes que automatizam fluxos de trabalho e processos com a IA generativa.

    Explore o watsonx Orchestrate
    Soluções de agentes de IA da IBM

    Construa o futuro do seu negócio com soluções de IA em que você pode confiar.

    Explore soluções de agentes de IA
    Serviços de IA do IBM® Consulting

    Os serviços de IA da IBM Consulting ajudam a reinventar a forma como as empresas trabalham com IA para gerar transformação.

    Explore os serviços de inteligência artificial
    Dê o próximo passo

    Se você optar por personalizar aplicativos e habilidades criados previamente ou criar e implementar serviços agênticos personalizados usando um estúdio de IA, a plataforma IBM watsonx tem aquilo de que você precisa.

    Explore o watsonx Orchestrate Explore o watsonx.ai