它是现代计算机网络的重要组成部分,可支持互联计算资源无缝通信,自动执行日常网络管理任务,并优化 AI 模型训练和推理。AI 驱动的战略可以帮助开发团队克服传统网络实践的局限性,这些实践往往难以适应当今 IT 环境的规模、复杂性与精密性。
传统网络依赖手动流程、静态配置和定期维护,这对于设备交互简单的小型网络来说不是问题。但是,现代网络日趋复杂且规模庞大。它们横跨多样化的动态全球环境和混合云基础设施,以及成千上万的互联设备和依赖项。多云环境平均覆盖 12 个不同的服务和平台。
利用 AI 和 ML 工具增强现有网络基础设施,可以帮助企业简化网络管理实践、提高网络智能并扩展自动化能力。AI 网络解决方案具备以下能力:
在某些情况下,AI 驱动的网络甚至可以构建自我修复机制和工作流。
AI 网络对于大规模 AI 模型部署以及构建高度自主、数据驱动的企业网络至关重要。它将范式从静态的人工管理网络,转变为可支撑现代技术(5G、物联网 (IoT)、边缘计算、AI 工作量与云原生服务)巨大需求的动态自驱动式 IT 基础设施,
进而构建更智能、更快速、更具弹性的企业网络,为最终用户提供无缝体验。
AI 网络由遥测收集驱动。网络中的每个网络和计算元素(包括路由器、交换机和应用程序编程接口 (API) 端点)都能将大量实时数据流(性能指标、流量和异常信号)馈送到集中式或分布式数据湖。
云原生 AI 和 ML 模型可持续分析数据、关联事件、学习正常和异常行为的构成要素,并生成数据驱动的洞察分析。它们采用无监督学习(用于异常检测)、监督学习 (用于预测性分析)和强化学习来动态优化网络流程和交互。然后,来自 AI 工具的洞察分析会转化为自动响应。
当 AI 驱动的网络监控工具检测到拥塞或故障时,它们会触发修复工作流,以重新路由流量、平衡工作量、更新网络策略或隔离安全威胁,从而减少 IT 人员手动干预的需求。
AI 网络旨在实现横向扩展。随着网络需求和设备生态系统的增长,网络中的 AI 系统会自动添加更多计算节点、交换机和链路。AI 网络还使用多路径连接和快速故障转移机制来创建冗余,以确保网络的高可用性。
AI 网络依赖一组关键组件来运行。其中包括:
AI 网络借助高级硬件(例如 800G 和 400G 以太网或 InfiniBand)和经过优化的控制器,在计算节点、数据存储和协调器平台之间进行超快速、低延迟的数据交换。交换机通常配置专用数据包处理器和深度数据包缓冲区,以适应 AI 流量高峰并预防数据包丢失。
路由器和交换机还可以与软件定义网络 (SDN) 和 网络功能虚拟化 (NFV) 工具集成,以提高网络灵活性和可扩展性。
AI 网络利用经过优化的铜缆或光纤链路、布线和收发器来连接数千个计算加速器,包括图形处理单元 (GPU) 和数据处理单元 (DPU),以实现高速、无损的大规模数据迁移。Interconnect 构成了数字通信的支柱,从而连接不同系统、数据中心、云和组织边界中的数据与服务。
AI 网络依赖强大的处理器(DPU、GPU 和其他 AI 专用处理器),这些处理器组成大型互联簇,以实现并行处理并加速 AI 模型训练和推理。
网络结构通常设计为非阻塞拓扑(可实现大量服务器和交换机之间的多路径通信)或分布式模块化架构(将网络划分为独立的小型互联模块以形成统一系统)。
AI 网络通常采用多层级战略。例如,该网络采用数据湖和仓库进行长期存档,使用对象存储处理非结构化数据,并借助矢量数据库实现对 AI 工作量的快速相似性搜索。
自动化和 AIOps 软件可帮助 AI 网络自动执行资源部署、扩展、持续监控和 CI/CD 管道。这些工具通常利用机器学习算法来运行预测性分析,并实施闭环网络管理(一种自我纠正方法,其中网络系统借助实时动态反馈循环来自动执行纠正措施)。
AI 网络标志着 AI 辅助自动化和智能响应式基础设施的融合。它可以帮助企业构建动态、安全、高度可扩展的网络环境。AI 网络具备以下功能:
ML 系统会构建“正常”网络行为的长期动态模型,同时考量日、周及季节性波动模式。这种方法可以避免良性波动触发警报,并允许系统专注于与网络基线存在显著偏差的实际异常。
AI 系统集成多个数据源,并利用复杂的算法(包括无监督学习)来关联基于规则系统可能忽略的网络性能细微指标。例如,AI 工具可以检测协调型多向量攻击和渐进式低速恶意流量。
AI 网络使用 ML 模型持续监控网络流量、设备日志和数据模式,并实时分析大量数据。这些功能可帮助 AI 工具检测安全漏洞、异常行为(例如流量激增)、未经授权的访问尝试和网络攻击的早期迹象。
与基于阈值的传统静态异常检测方法不同,AI 模型借助情境化数据和历史数据来实施自适应基线,以提高检测的准确性,并减少可能分散 IT 团队注意力的误报。
AI 工具可提供高级分析、自然语言查询和数据可视化等功能,以帮助网络运营商更快速、更有效地调查事件。这些功能可实现对复杂网络数据的民主化访问,将更多资源集中于数据处理与分析环节。它们还能帮助 AI 网络支持协作式问题解决并加速根本原因分析。
当 AI 网络检测到异常时,它就会触发自动化工作流来立即修复问题。例如,它们可以重新路由拥塞区域周围的流量,拦截可疑的 IP 地址并配置额外的网络容量。
AI 工具不仅可以检测当前异常情况,还可以通过分析遥测数据中的趋势和信号来预测未来故障或拥塞点。预测功能支持网络工程师和管理员采取主动措施实施网络管理,从而有效预防停机和中断。
AI 网络与传统网络架构存在本质区别。它利用实时数据、ML 和自动化来动态优化和保护计算网络。
传统网络通常依赖手动配置的静态规则、预设阈值和被动式管理实践。传统网络还采用分层架构来创建多层网络设备,以实现高效数据转发。分布式控制可以创建可预测、稳定的网络环境,但它也会限制可扩展性(增加容量通常需要投资新的硬件)。
在传统模式下,各个网络设备都能独立执行其控制和数据平面功能。网络运营商通过逐台设备手动配置路由表、交换规则和安全策略来管理数据流量。监控仅限于基本指标,警报通常由固定条件触发(在网络问题出现后 ),故障排除往往针对单个设备展开,所有这些操作都会拖慢事件响应适应网络的速度。
相比之下,AI 网络横跨混合云和多云环境,需要频繁整合本地数据中心、多个云环境和边缘服务器。它们从整个网络持续收集遥测数据,并借助 AI 算法分析实时数据集,以理解复杂的流量并解读用户行为。
AI 网络还能支持更强大的优化工具,并提高网络可扩展性。人工智能驱动的网络不依赖静态配置,而是根据实时使用模式动态调整带宽分配和路由,自动扩展资源以应对需求高峰。
此外,AI 驱动的网络可提供更可靠、更全面的安全防护。传统网络通常使用基于签名的安全模型,通过识别与恶意软件或恶意活动相关的独特模式(或“签名”)来检测和防范已知威胁。AI 网络则利用 AI 威胁检测来增强(或取代)基于签名的安全模型,该检测借助全面的行为分析来识别复杂的攻击,并在网络威胁危及网络安全之前解决。
部分关键趋势正在重塑 AI 网络的构建、管理和防护方式。
以太网作为 AI 工作量的网络架构正日益普及。它能提供多功能、经济高效、低延迟的网络解决方案,其速度已达到 400G 和 800G(1.6T 以太网即将问世)。
基于以太网的 AI 网络拥有海量带宽,可容纳 AI 模型训练、实时推理和大规模 AI 数据处理所需的海量数据吞吐量。以太网的部署流程更为简单,且可促进本地部署和云 AI 资源之间的无损通信,因此成为了连接多样化、分布式 AI 基础设施的理想选择。
随着生成式 AI (gen AI) 的进步,AI 网络运营正朝着更智能和自动化的方向发展。生成式 AI 通过模拟和生成理想的网络拓扑和设备设置,帮助网络工程师完成网络设计。
生成式 AI 工具可以为 AI 网络和容量规划创建预测模型。它们利用大型历史和实时数据集来构建模型,用于预测未来的网络负载。这些模型可支持网络运营商预测即将到来的需求高峰,并主动调整其基础设施,以免出现瓶颈或服务中断。
基于生成式 AI 的网络工具还能跨多种无线电接入技术(例如 Wi-Fi、蓝牙、4G LTE 和 5G)实现负载均衡,并有助于减少密集网络环境中的数据干扰。
agentic AI 正在助力企业构建更加自主、更具适应性的 AI 网络。agentic AI 是“一种可以在有限监督下完成特定目标的 AI 系统”。AI 智能体使用大语言模型 (LLM)、自然语言处理 (NLP) 和 ML 来设计工作流,并代表用户和其他系统执行任务和流程。
与传统的静态系统不同,agentic AI 网络采用分散式架构,其中 AI 智能体可跨系统和端点移动,快速交换数据以支持瞬时决策。智能体可以感知其环境并独立采取行动,以优化网络连接、增强安全协议并改善用户体验。
例如,它们可以根据条件变化动态调整网络参数(如资源分配和数据路由)。如果智能体检测到可疑的网络活动,它就会隔离受影响的设备并实时采取对策以阻止网络攻击。
随着 AI 在网络领域的发展,人们越来越关注构建 AI 就绪型基础设施,包括专为 AI 工作量而优化的交换机、GPU 以及高带宽、低延迟结构。
AI 网络基础设施即服务 (NIaaS) 就是这一技术发展趋势的例证。AI NIaaS 通过按需虚拟化和编排 AI 网络基础设施,简化网络管理并将部署时间从数月缩短至几分钟。它是一种基于云的模型,可支持企业访问全套网络和安全功能(包括虚拟路由器、防火墙、负载均衡器和 AI 管理组件),而无需部署或维护物理硬件。
AI NIaaS 服务提供商可提供类似云的灵活消费模式(如即用即付或基于订阅的定价),根据特定 AI 项目的计算需求配置网络资源。
包含整合 AI 簇的超大规模网络是另一大 AI 网络趋势。AI 簇整合是指将 AI 计算资源整理并整合至多个 AI“孤岛”,以构建精简 data fabric 架构的过程。它将工作量集中于数量更少但功能更强大的簇,以减少网络中闲置服务器和节点的数量。
超大规模环境(为处理超大体量工作量而设计的极大规模计算环境)具备支持企业网络级簇整合所需的容量、冷却与数据存储能力。簇整合和超大规模网络共同简化了 AI 模型的训练和部署,从而构建了更快捷、更高效的 AI 网络。
根据 IBM 商业价值研究院 (IBM IBV) 的数据,“到 2026 年,AI 驱动的工作流(其中许多由 agentic AI 驱动)占比将从 2024 年的 3% 增至 25%”,这表明 AI 部署规模将增长八倍。采用基于 AI 的网络方法可为企业带来诸多好处,包括:
AI 工具可根据条件变化动态调整网络配置并优化流量,从而减少性能瓶颈,同时帮助企业维护高性能、低停机时间的网络。
AI 网络可实现更完善的资源管理,以确保在分布式环境中高效使用带宽。
AI 驱动的自动化工作流可以处理日常任务,确保 IT 人员能够腾出时间来执行更高级别的战略计划。
AI 工具能持续分析网络流量模式,及时识别异常行为和非常规网络操作。
AI 网络工具可以快速处理大量数据,而无需人工干预。随着网络规模扩大和复杂性增加,AI 模型可以轻松实现扩展。
AI 系统可以分析网络流量,实时识别潜在问题和网络威胁,以免其升级为严重事件。它们推动(并且经常触发)即时遏制措施(例如隔离受损设备或拦截可疑活动)和安全升级,从而减少攻击停顿时间并减轻网络攻击可能造成的损害。