什么是 AI 智能体学习？| IBM

作者

Staff Editor, AI Models

IBM Think

随着时间的推移，AI 智能体如何学习和适应？

AI 智能体学习是指一个人工智能 (AI) 智能体通过与其环境进行交互、处理数据和优化决策来随着时间的推移提高其性能的过程。这一学习过程使自主智能体能够在动态环境中适应、提高效率并处理复杂任务。学习是许多智能体式 AI 系统的基本组成部分。

并非所有 AI 智能体类型都能学习。有些智能体是简单的反射型智能体，它们被动接收数据且缺乏学习能力，会执行反应性的编程操作作为响应。

有基于模型的反射型智能体可以推理他们的环境，也有主动的基于目标的智能体，可以追求特定目标，但它们不会学习。基于效用的智能体同样也不行，它们使用效用函数来评估并选择能使整体收益最大化的动作。

学习型智能体通过适应新的体验和数据来不断提高其性能。其他 AI 智能体使用预定义的规则或模型，而学习型智能体则根据环境的反馈不断更新其行为。

这使他们能够增强决策能力，并在动态和不确定的情况下表现更好。学习型智能体体现了 AI 工具的全部潜力，能够以最少的人工干预处理多步骤解决问题的工作量。

学习智能体通常由 4 个主要组件组成：

性能元素：根据知识库作出明智决策。
学习元素：根据反馈和经验调整和完善智能体的知识。
批评机制：评估智能体的行动并提供反馈，通常以奖励或惩罚的形式。
问题生成器：建议探索性行动，以帮助智能体发现新策略并改进学习。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

AI 智能体学习的类型

机器学习 (ML) 构成了各种类型 AI 智能体学习的支柱。它使智能体能够识别模式、进行预测并基于数据提升性能。

AI 智能体使用的三种主要机器学习技术是监督学习、无监督学习和强化学习。更具体地说，这些属于深度学习技术，它们利用多层复杂的神经网络来处理海量数据并学习复杂模式。

监督学习

监督学习涉及在标注的数据集上训练机器学习，其中每个输入对应一个已知的输出。智能体使用这些信息来构建预测模型。

例如，可以对人工智能聊天机器人进行客户服务对话和相应解决方案的训练，以提供预测响应。这种方法广泛应用于图像识别、语音转文本处理和医疗诊断。

迁移学习允许 AI 智能体使用从一项任务中获得的知识并将其应用到另一项任务中。例如，在通用数据集上训练的大型语言模型 (LLM) 可以针对法律或医学文本处理等特定领域进行微调。

无监督学习

相比之下，无监督学习允许人工智能智能体对未标记的数据进行数据分析，从而在没有人为监督的情况下找到模式和结构。

这种方法在以下任务中非常有用：聚类客户行为以改进营销策略、网络安全中的异常检测，以及流媒体服务所使用的推荐系统。

自监督学习使用无监督学习来完成传统上需要监督学习的任务。自监督 AI 模型不依赖于监督信号的标记数据集，而是从非结构化数据生成隐式标签。

自监督学习在计算机视觉和自然语言处理 (NLP) 等领域很有用，这些领域需要大量的带标签的训练数据。

强化学习

强化学习是一种机器学习过程，专注于自主智能体中的决策工作流。它解决不确定环境中的决策过程。

与监督学习不同，强化学习不使用正确或错误行为的标记示例。然而，强化学习也不同于无监督学习，因为强化学习是通过反复试验和奖励函数来学习，而不是通过提取隐藏模式的信息来学习。

强化学习也不同于自监督学习，因为它不会生成伪标签，也不会以“真实标签”为基准进行度量，它不是一种分类方法，而是一种动作学习方法。

使用强化学习的 AI 智能体通过反复试验的过程进行操作，它们在环境中采取行动，观察结果并相应地调整战略。学习过程包括定义一个将状态映射到动作的策略，并优化长期的累积回报，而不是追求即时的收益。

随着时间的推移，智能体通过重复的交互完善其决策能力，逐渐提高其有效执行复杂任务的能力。这种方法在动态环境中很有用，在这种环境中，预定义规则可能不足以获得最佳性能。

自动驾驶汽车使用强化学习来学习最佳驾驶行为。通过反复试验，AI 提高了其导航、避开障碍物和做出实时驾驶决策的能力。人工智能驱动聊天机器人通过学习用户交互并优化响应来提高其对话能力，从而增强参与度。

持续学习

AI 智能体的持续学习是指人工智能系统随着时间的推移不断学习和适应，结合新的数据和体验，而不会忘记以前的知识的能力。

与传统机器学习不同，后者通常需要在固定数据集上进行训练，持续学习使 AI 能够在遇到新信息或环境变化时不断更新其模型。这使得智能体能够实时提高其性能，适应新的模式、不断变化的情况和动态条件。

持续学习在现实应用中非常重要，因为数据不断变化，AI 必须及时更新新的输入才能保持有效性。它有助于防止“灾难性遗忘”，即模型在学习新信息时忘记旧知识，并有助于确保系统能够处理一系列不断变化的任务和挑战。

多智能体学习与协作

AI 智能体的优点之一是它们可以协同工作。在多智能体架构中，AI 智能体通过协作和竞争进行学习。在合作学习中，智能体分享知识以实现共同目标，就像机器人一样。

然而，当智能体通过在对抗环境中竞争来完善其战略时，就会发生竞争性学习，例如金融交易 AI。

想象一个由 AI 智能体组成的网络，它们协同工作以改善患者护理、简化工作流程、促进对伦理规范的遵循，并优化医院网络中的资源分配。

在这些多智能体框架中，有时配备生成式人工智能（生成式 AI）的更先进的学习型智能体会监督更简单的反射型或基于目标的智能体。在此用例中，每个智能体可代表医疗保健系统中的一个不同角色或一个任务，他们可协作并分享信息以改善患者预后和运营效率。

AI 智能体

5 种类型的 AI 智能体：自主功能与现实世界的应用

了解目标驱动和基于效用的 AI 如何适应工作流和复杂环境。

构建、部署和监控 AI 智能体

反馈机制

通过反馈机制，AI 系统可以获得有关其行动或预测结果的信息，从而能够评估其行为的准确性或有效性。

这种反馈可以是积极的（强化正确的行为），也可以是消极的（惩罚错误的行为），对于指导系统决策和提高系统性能至关重要。反馈是实现 AI 学习的关键组成部分，但它并不是学习过程的全部。

实时反馈对于在动态环境中运行的 AI 智能体至关重要。自主系统（例如自动驾驶汽车和 Robotic Process Automation(RPA)）会持续收集传感器数据并根据反馈调整其行为。这使他们能够适应不断变化的条件并改进实时决策。

无监督学习反馈

在无监督学习中，反馈不以标记数据或直接监督的形式明确提供。相反，AI 智能体在数据本身中寻找模式、结构或关系。

例如，在聚类或降维任务中，当智能体调整其模型以最好地表示数据的底层结构时，反馈就会隐式发生。

该模型通过诸如误差最小化等指标来完善对数据的理解，例如，减少自动编码器中的重建误差或优化特定标准，例如最大化聚类中的数据相似性。

在需要预测产品需求并优化多个仓库和商店库存水平的供应链管理系统中，AI 智能体可以采用无监督学习技术，如聚类或异常检测来分析海量历史销售数据，而无需明确的标签或预定义的类别。

监督学习反馈

在监督学习中，反馈是显式的，并以标记数据的形式出现。使用输入/输出对（例如，具有相应标签的图像）来训练 AI 智能体。智能体模型进行预测后，通过将其输出结果与正确标签（真实值）进行对比，提供反馈。

通常使用损失函数计算预测输出和真实输出（误差）之间的差异。然后，该反馈用于调整模型参数，以便该模型能够随着时间的推移改进其预测。

AI 智能体可以利用监督学习，根据客户的过去行为、购买记录或用户偏好，预测客户可能感兴趣的产品或服务。

例如，电子商务平台的 AI 解决方案可以使用历史数据（例如过去的购买和评级）作为标记示例来培训模型，预测客户接下来可能想要购买的产品，从而改善客户体验。

监督学习被认为是“人在回路”（Human-in-the-Loop，简称 HITL）学习，因为 AI 智能体会融合人类的反馈来优化模型、提升决策能力并适应新的环境。

这种方法将自动学习与人类专业知识相结合，使 AI 能够更有效地处理复杂任务，同时最大限度地减少错误和偏见。HITL 也可以作为反馈机制整合到其他类型的学习中，但它只是自监督学习过程的组成部分。

强化学习反馈

在强化学习（RL）中，反馈以奖励或惩罚的形式提供。RL 智能体与环境交互，执行导致不同结果的操作。每次执行操作后，智能体都会收到以标量奖励或惩罚为形式的反馈，表明操作结果相对于目标的优劣程度。

智能体使用此反馈来调整其政策或决策策略，目的是在一段时间内使累积奖励最大化。通过这种反馈回路，智能体可以在探索环境的过程中，通过不断尝试和出错来学习最佳行动或策略，从而完善行为。

自监督学习反馈

在自监督学习中，智能体从数据中生成自己的标签，从而形成一种来自数据内部结构的反馈机制。该模型使用部分数据来预测其他部分，例如预测句子中缺失的单词或预测视频中的未来帧。

反馈来源于将模型的预测与实际缺失的数据或未来数据进行比较。智能体通过最小化预测误差来学习，并根据这种自我生成的反馈不断优化其内部表示。

2025 年主要战略技术趋势：AI智能体

下载这份 Gartner 研究报告，了解agentic AI 对 IT 领导者的潜在机遇和风险，以及如何为这一新一轮 AI 创新做好准备。

什么是 AI 智能体学习？

作者