Cos'è l'AI networking?

Un uomo che utilizza un laptop e più monitor

Autore

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

Cos'è l'AI networking?

L'AI networking è l'integrazione delle tecnologie di intelligenza artificiale (AI) e machine learning (ML) nei sistemi di rete per migliorare l'intelligenza, le prestazioni e la sicurezza della rete e supportare i workload di AI su larga scala.

Si tratta di un componente importante delle moderne reti informatiche, poiché consente alle risorse di elaborazione interconnesse di comunicare senza interruzioni, automatizzando le attività di gestione di rete di routine e facilitando l'ottimizzazione dell'addestramento dei modelli AI e l'inferenza . Le strategie basate su AI possono aiutare i team di sviluppo a superare i limiti delle pratiche di rete tradizionali, spesso insufficienti per la portata, la complessità e la sofisticazione degli ambienti IT odierni.

Le reti tradizionali si basano su processi manuali, configurazioni statiche e manutenzione programmata, il che non è un problema per le reti di piccole dimensioni che hanno interazioni semplici con i dispositivi. Tuttavia, le reti moderne non sono semplici né piccole. Si estendono su ambienti globali diversi e dinamici e infrastrutture hybrid cloud con migliaia di dispositivi e dipendenze interconnessi. L'ambiente multicloud medio si estende su 12 servizi e piattaforme diversi.

L'ampliamento dell'infrastruttura di rete esistente con strumenti di AI e ML può aiutare le aziende a semplificare le pratiche di gestione della rete, migliorare l'intelligenza della rete ed espandere le capacità di automazione. Le soluzioni di AI networking consentono di ottenere:

In alcuni casi, le reti basate sull'AI possono persino creare meccanismi e workflow autoriparanti.

L'AI networking è parte integrante della distribuzione dei modelli AI su larga scala e della creazione di reti aziendali altamente autonome e basate sui dati. Sposta il paradigma dalle reti statiche gestite dall'uomo a infrastrutture IT dinamiche e autonome in grado di supportare le immense esigenze delle tecnologie moderne (5G, Internet of Things (IoT), edge computing, workload AI e servizi cloud-native).

Ne risultano reti aziendali più intelligenti, più veloci e più resilienti, che contribuiscono a offrire esperienze ottimali agli utenti finali.

Come funziona l'AI networking?

L'AI networking si basa sulla raccolta di dati telemetrici. Ogni elemento di rete e computing (inclusi router, switch ed endpoint dell'application programming interface, o API) della rete alimenta enormi flussi di dati in tempo reale (metriche delle prestazioni, flussi di traffico e segnali di anomalie) in data lake centralizzati o distribuiti.

I modelli AI e ML cloud-native analizzano continuamente i dati, correlano gli eventi, apprendono ciò che costituisce un comportamento normale e anomalo e generano insight basati sui dati. Usano l'apprendimento non supervisionato (per il rilevamento delle anomalie), l'apprendimento supervisionato (per l'analytics predittiva) e l'apprendimento per rinforzo per ottimizzare dinamicamente i processi e le interazioni di rete. Gli insight ricavati dagli strumenti di AI vengono poi tradotte in risposte automatiche.

Quando gli strumenti di monitoraggio della rete basati su AI rilevano congestione o guasti, attivano workflow di correzione per reindirizzare il traffico, bilanciare i workload, aggiornare le policy di rete o isolare le minacce alla sicurezza, riducendo la necessità di un intervento manuale da parte del personale IT.

L'AI networking è progettato per scalare orizzontalmente. Via via che la domanda di rete e gli ecosistemi di dispositivi crescono, i sistemi di AI sulla rete aggiungono automaticamente più nodi di elaborazione, switch e collegamenti. Le reti AI utilizzano anche connessioni multipercorso e meccanismi di failover rapido per creare ridondanza e contribuire a garantire un'elevata disponibilità della rete.

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e altro con la newsletter Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Componenti principali delle reti AI

Le reti AI si basano su una serie di componenti chiave per funzionare. Eccone alcune:

Switch e router ad alte prestazioni

Le reti AI utilizzano hardware avanzato (come Ethernet 800G e 400G o InfiniBand) e controller ottimizzati per uno scambio di dati ultraveloce e a bassalatenza tra nodi di elaborazione, data storage e piattaforme di orchestrazione. Gli switch spesso sono. dotati di processori di pacchetti specializzati e buffer di pacchetti profondi per gestire i picchi del traffico AI e prevenire la perdita dei pacchetti.

I router e gli switch possono anche integrarsi con strumenti di software-defined networking (SDN) e network functions virtualization (NFV) per aumentare la flessibilità e la scalabilità della rete.

Interconnect

Le reti AI collegano migliaia di acceleratori di elaborazione, tra cui unità di elaborazione grafica (GPU) e unità di elaborazione dei dati (DPU), utilizzando collegamenti in rame o ottici, cavi e ricetrasmettitori ottimizzati per lo spostamento di dati ad alta velocità e senza perdite su larga scala. Gli interconnect costituiscono la spina dorsale della comunicazione digitale, poiché collegano dati e servizi attraverso sistemi eterogenei, data center, cloud e limiti organizzativi.

Acceleratori di elaborazione

Le reti AI si basano su potenti processori (DPU, GPU e altri processori specifici per l'AI), organizzati in grandi cluster interconnessi, per implementare l'elaborazione parallela e accelerare l'addestramento e l'inferenza dei modelli AI.

Network fabric

Le strutture di rete sono spesso progettate come topologie non bloccanti, che consentono la comunicazione multipercorso tra un grande numero di server e switch, oppure come architetture distribuite e modulari, che dividono la rete in moduli più piccoli, indipendenti (ma interconnessi) che formano un sistema coeso.

Sistemi di storage

Le reti AI utilizzano generalmente una strategia a più livelli. Ad esempio, la rete utilizzerà data lake e warehouse per l'archiviazione a lungo termine, l'object storage per i dati non strutturati e i database vettoriali per i workload AI, poiché consentono di eseguire ricerche rapide delle similarità.

Software di orchestrazione e gestione della rete

Il software di automazione e AIOps aiuta le reti AI ad automatizzare l'implementazione delle risorse, la scalabilità, il monitoraggio continuo e le pipeline CI/CD. Questi strumenti utilizzano spesso algoritmi di machine learning per eseguire l'analytics predittiva e facilitare la gestione della rete a loop chiuso (un approccio autocorrettivo in cui i sistemi di rete utilizzano feedback in tempo reale per automatizzare le azioni correttive).

Forniscono inoltre sistemi operativi e ambienti virtuali predisposti per l'AI per contribuire a semplificare i processi di sviluppo software, containerizzazione e controllo delle versioni.

Protocolli di sicurezza e conformità della rete

Le reti AI applicano configurazioni di sicurezza zero-trust, controlli degli accessi basati sui ruoli (RBAC), protocolli di crittografia, framework di conformità e regole di gestione dei dati per proteggere i dati della rete e delle applicazioni AI da violazioni e attacchi informatici.

Caratteristiche delle reti AI

L'AI networking rappresenta la convergenza tra l'automazione assistita dall'IA e un'infrastruttura intelligente e reattiva. Aiuta le aziende a creare ambienti di rete dinamici, sicuri e scalabili. Le reti AI offrono:

Baseline adattive

I sistemi di machine learning (ML) creano modelli dinamici del comportamento "normale" della rete nel tempo, tenendo conto dei pattern giornalieri, settimanali e stagionali. Questo approccio impedisce alle fluttuazioni benigne di attivare avvisi e consente al sistema di concentrarsi su anomalie reali che si discostano in modo significativo dalle baseline della rete.

Riconoscimento avanzato dei pattern

I sistemi AI integrano più fonti di dati e utilizzano algoritmi sofisticati (incluso l'apprendimento non supervisionato) per correlare sottili indicatori di problemi di prestazioni della rete che i sistemi basati su regole potrebbero trascurare. Gli strumenti AI possono, ad esempio, rilevare attacchi multivettoriali coordinati e traffico dannoso lento e basso che progredisce gradualmente.

Analisi del traffico e rilevamento delle anomalie in tempo reale

Le reti AI utilizzano modelli ML per monitorare continuamente il traffico di rete, i log dei dispositivi e i modelli di dati e analizzare grandi volumi di dati in tempo reale. Queste funzionalità aiutano gli strumenti AI a rilevare vulnerabilità di sicurezza, comportamenti insoliti (flusso di traffico intenso, ad esempio), tentativi di accesso non autorizzati e primi segnali di attacchi informatici.

A differenza dei tradizionali metodi di rilevamento delle anomalie statici basati su soglie di riferimento, i modelli AI utilizzano dati contestuali e storici per implementare baseline adattive, rendendo il rilevamento più accurato e riducendo i falsi allarmi che possono distrarre i team IT.

Analisi e risoluzione dei problemi dei dati basate su ML

Gli strumenti AI offrono funzionalità come analytics, query in linguaggio naturale e visualizzazione dei dati per aiutare gli addetti alla rete a indagare sugli incidenti in modo più rapido ed efficace. Queste caratteristiche democratizzano l'accesso a dati di rete complessi, destinando più risorse all'elaborazione dei dati e all'analisi. Inoltre, aiutano le reti AI a supportare la risoluzione collaborativa dei problemi e ad accelerare l'analisi della causa principale.

Automazione e correzione basate su AI

Quando rilevano un'anomalia, le reti AI attivano workflow automatizzati per risolvere immediatamente il problema. Possono, ad esempio, reindirizzare il traffico intorno alle aree congestionate, bloccare gli indirizzi IP sospetti e fornire capacità di rete aggiuntiva.

Manutenzione predittiva

Gli strumenti di AI non solo rilevano le anomalie attuali, ma possono aiutare a prevedere guasti o punti di congestione futuri analizzando le tendenze e i segnali nei dati di telemetria. Le funzionalità di forecasting consentono agli ingegneri e agli amministratori di rete di adottare un approccio proattivo alla gestione della rete, prevenendo i tempi di inattività e le interruzioni prima che si verifichino.

Networking tradizionale e AI networking a confronto

L'AI networking differisce fondamentalmente dalle architetture di rete tradizionali. Utilizza dati in tempo reale, ML e automazione per migliorare e proteggere dinamicamente le reti informatiche.

Le reti tradizionali si basano in genere su regole statiche configurate manualmente, soglie preimpostate e pratiche di gestione reattiva. Le reti tradizionali utilizzano anche un'architettura gerarchica, che crea livelli di dispositivi di rete per un inoltro efficiente dei dati. Il controllo distribuito crea un ambiente di rete prevedibile e stabile, tuttavia limita la scalabilità (l'aggiunta di capacità spesso richiede nuovi investimenti hardware).

Con il modello convenzionale, ogni dispositivo di rete svolge le proprie funzioni di piano di controllo e piano dati in modo indipendente. Gli operatori addetti alla rete gestiscono il traffico dati configurando manualmente le tabelle di routing, le regole di commutazione e le policy di sicurezza, dispositivo per dispositivo. Il monitoraggio è limitato alle metriche di base, gli avvisi vengono spesso attivati da condizioni fisse (dopo che si è verificato un problema di rete) e la risoluzione dei problemi tende a essere isolata dai singoli dispositivi, il che rallenta l'adattamento della rete in risposta agli incidenti.

Al contrario, le reti AI si estendono su ambienti multicloud e hybrid cloud, spesso incorporando data center on-premise, più ambienti cloud e server edge. Raccolgono continuamente dati di telemetria da tutta la rete e utilizzano algoritmi AI per analizzare set di dati in tempo reale, dare un senso a flussi di traffico complessi e interpretare il comportamento degli utenti.

Le reti AI possono anche supportare strumenti di ottimizzazione migliori e aumentare la scalabilità della rete. Invece di affidarsi a configurazioni statiche, le reti basate su AI regolano dinamicamente l'allocazione della larghezza di banda e il routing in base ai pattern di utilizzo in tempo reale, scalando automaticamente le risorse per soddisfare i picchi di domanda.

Inoltre, le reti basate su AI offrono una sicurezza più affidabile e completa. Le reti tradizionali utilizzano generalmente modelli di sicurezza basati sulle firme, che rilevano e prevengono le minacce note identificando modelli univoci, o "firme", associati a malware o attività dannose. La rete AI aumenta (o sostituisce) i modelli di sicurezza basati sulle firme con un rilevamento delle minacce basato sull'AI che utilizza un'analisi completa del comportamento per identificare attacchi sofisticati e affrontare le minacce informatiche prima che compromettano la sicurezza della rete.

AI per il networking

Agentic AI alla base dell'automazione intelligente

Scopri come l'AI per il networking riduce i falsi positivi, risolve problemi complessi e crea sistemi di ingegneria della piattaforma più intelligenti.

Tendenze emergenti nell'AI networking

Diverse tendenze chiave stanno plasmando il modo in cui le reti AI vengono costruite, gestite e protette.

Fabric Ethernet

Ethernet sta diventando sempre più diffusa quale struttura di rete per i workload di AI. Fornisce una soluzione di rete versatile, conveniente e a bassa latenza, con velocità che già raggiungono 400G e 800G (ed Ethernet 1.6T all'orizzonte).

Le reti AI basate su Ethernet hanno un'enorme larghezza di banda, in grado di gestire l'immenso throughput di dati necessario per l'addestramento dei modelli AI, l'inferenza in tempo reale e l'elaborazione dei dati su larga scala. Inoltre, i processi di distribuzione più semplici di Ethernet e la capacità di facilitare la comunicazione senza perdite tra risorse AI on-premise e cloud ne fanno un'ottima opzione per connettere diverse infrastrutture AI distribuite.

AI generativa

Con i progressi nell'AI generativa (gen AI), le operazioni di rete AI stanno diventando più intelligenti e automatizzate. La gen AI aiuta gli ingegneri di rete a progettare reti simulando e generando topologie di rete e impostazioni dei dispositivi ideali.

Gli strumenti di gen AI possono creare modelli predittivi per la pianificazione delle capacità e delle reti AI. Utilizzano grandi set di dati storici e in tempo reale per costruire modelli che anticipano i carichi futuri della rete. Questi modelli consentono agli operatori di rete di prevedere i picchi imminenti della domanda e di adeguare in modo proattivo l'infrastruttura per prevenire rallentamenti o interruzioni del servizio.

Gli strumenti di rete basati su gen AI supportano anche il bilanciamento del carico tra più tecnologie di accesso radio (come Wi-Fi, Bluetooth, 4G LTE e 5G) e aiutano a ridurre le interferenze dei dati in ambienti di rete densi.

Agentic AI

L'agentic AI consente alle aziende di creare reti AI più autonome e adattive. L'agentic AI è "un sistema di AI in grado di raggiungere un obiettivo specifico con una supervisione limitata". Gli agenti AI utilizzano modelli linguistici di grandi dimensioni (LLM), elaborazione del linguaggio naturale e machine learning (ML) per progettare i propri workflow ed eseguire attività e processi per conto degli utenti e di altri sistemi.

A differenza dei tradizionali sistemi statici, le reti di agentic AI utilizzano architetture decentralizzate in cui gli agenti AI si spostano tra sistemi ed endpoint, scambiando dati rapidamente per supportare un processo decisionale velocissimo. Gli agenti possono percepire il proprio ambiente e intraprendere autonomamente azioni per ottimizzare la connettività di rete, potenziare i protocolli di sicurezza e migliorare l'esperienza dell'utente.

Ad esempio, possono regolare dinamicamente i parametri di rete (come l'allocazione delle risorse e il routing dei dati) al variare delle condizioni. Inoltre, se un agente rileva attività di rete sospette, può isolare i dispositivi compromessi e implementare contromisure in tempo reale per sventare un attacco informatico.

AI network infrastructure as a service (AI NIaaS)

Con l'avanzare dell'AI nel networking, si presta molta attenzione alla creazione di infrastrutture AI-ready: switch, GPU e fabric ad elevata larghezza di banda e bassa latenza, appositamente ottimizzati per i workload di AI.

L'AI network infrastructure as a service (NIaaS) è uno di questi sviluppi. L'AI NIaaS semplifica la gestione della rete e riduce i tempi di implementazione da mesi a minuti virtualizzando e orchestrando l'infrastruttura di rete AI su richiesta. È un modello basato su cloud che offre alle aziende l'accesso a una suite completa di funzioni di rete e sicurezza, tra cui router virtuali, firewall, bilanciatori del carico e componenti di gestione dell'AI, senza richiedere loro di implementare hardware fisico.

I provider di servizi AI NIaaS offrono modelli di consumo flessibili e simili al cloud (come prezzi con pagamento in base al consumo o in abbonamento), in cui le risorse di rete vengono fornite in base alle esigenze informatiche di specifici progetti di AI.

Reti iperscalabili

Un'altra tendenza nel campo delle reti AI è il networking iperscalabile con cluster AI consolidati. Il consolidamento dei cluster di AI è il processo di organizzazione e consolidamento delle risorse di elaborazione dell'AI in più "isole" di AI, per creare data fabric semplificati. Riduce il numero di server e nodi sottoutilizzati in una rete concentrando i workload in meno cluster più potenti.

Inoltre gli ambienti iperscalabili (ambienti informatici su larga scala progettati per gestire workload fuori misura) forniscono la capacità, il raffreddamento e il data storage necessari per supportare il consolidamento dei cluster su scala di rete aziendale. Insieme, il consolidamento dei cluster e la rete iperscalabile semplificano l'addestramento e la distribuzione dei modelli AI per reti AI più rapide ed efficienti.

Benefici dell'AI networking

Secondo l'IBM Institute for Business Value (IBM IBV), "i workflow basati su AI, molti dei quali supportati dall'agentic AI, sono destinati a passare dal 3% del 2024 al 25% entro il 2026", il che rappresenta un aumento di otto volte delle implementazioni di AI. L'adozione di un approccio di rete basato sull'AI offre alle aziende numerosi benefici, tra cui:

Miglioramento dello stato di salute e delle prestazioni della rete

Gli strumenti di AI adattano dinamicamente le configurazioni di rete e ottimizzano il flusso di traffico in base al variare delle condizioni, riducendo i rallentamenti delle prestazioni e aiutando le aziende a mantenere reti ad alte prestazioni e con tempi di inattività ridotti.

Migliore gestione delle risorse

Le reti AI consentono una migliore gestione delle risorse e aiutano a garantire un utilizzo efficiente della larghezza di banda negli ambienti distribuiti.

Automazione delle attività

I workflow di automazione basati su AI possono gestire attività di routine, consentendo al personale IT di dedicarsi a iniziative strategiche di livello superiore.

Rilevazione delle minacce in tempo reale

Gli strumenti AI analizzano continuamente i modelli di traffico di rete, identificando comportamenti anomali e operazioni irregolari non appena si verificano.

Scalabilità ed efficienza

Gli strumenti di rete AI possono elaborare grandi quantità di dati in modo rapido e senza l'intervento umano. Inoltre, i modelli AI possono facilmente scalare via via che le reti crescono in dimensioni e complessità.

Rafforzamento del livello di cybersecurity

I sistemi AI analizzano il traffico di rete per identificare potenziali problemi e minacce informatiche in tempo reale e prima che possano degenerare in incidenti gravi. Incoraggiano, e spesso avviano, azioni di contenimento immediate (come isolare i dispositivi compromessi o bloccare attività sospette) e aggiornamenti di sicurezza che aiutano a ridurre il tempo di permanenza degli attacchi e a mitigare i danni che gli attacchi informatici possono causare.