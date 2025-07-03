Può Internet, così come lo conosciamo, sopravvivere all'era dell'AI? Cloudflare crede di sì, almeno per quanto riguarda la protezione dei creatori di contenuti. Il colosso tecnologico, che aiuta a gestire e proteggere il traffico per il 20% del web, ha annunciato questa settimana che sarà il primo fornitore di infrastrutture Internet a bloccare i crawler AI che fanno scraping dei siti senza compenso o permesso.
La mossa, accolta con favore da giganti dei media come The Atlantic, Fortune, TIME e The Associated Press, così come da aziende tecnologiche come Pinterest e Reddit, rappresenta il primo passo verso la creazione di un mercato "pay per crawl", ha scritto Matthew Prince, cofondatore e CEO di Cloudflare.
"Cloudflare, insieme alla maggior parte dei principali editori e aziende di AI del mondo, sta modificando l'impostazione predefinita per bloccare i crawler di AI a meno che non paghino i creatori per i loro contenuti", ha scritto. "Quel contenuto è il carburante che alimenta i motori AI, quindi è giusto che i creatori di contenuti vengano compensati direttamente per questo."
"Ma questo è solo l'inizio. Successivamente, lavoreremo su un marketplace in cui i creatori di contenuti e le aziende AI, grandi e piccole, possano incontrarsi. Il traffico è sempre stato un pessimo indicatore del valore. Pensiamo di poter fare di meglio."
Con l'ascesa dell'AI generativa e della ricerca AI alimentata da Anthropic, OpenAI, Meta e Perplexity, il web sta assistendo a un nuovo tipo di visitatore: i bot di scraping. Questo cambiamento non riguarda solo gli editori di notizie, che fanno affidamento sul traffico di riferimento per monetizzare il loro giornalismo, ma anche i creatori di contenuti e le grandi piattaforme tecnologiche. In un caso, Reddit ha recentemente intentato una causa contro Anthropic e sostiene che i suoi bot stiano facendo scraping sui suoi contenuti, cosa che Anthropic nega.
"Anche le aziende tecnologiche sono colpite dai crawler AI", ha affermato Will Allen, Head of AI Control, Privacy and Media Products presso Cloudflare in un'intervista con IBM Think. "Pinterest, Quora e Reddit sono alcuni dei più popolari siti tecnologici di contenuti generati dagli utenti che hanno aderito a sostegno del nostro approccio basato sul permesso ai crawler AI, insieme ad aziende del settore AI come ProRata AI e Hyperscience".
I bot sono utilizzati per l'addestramento, ma anche per la retrieval-augmented generation (RAG), che collega modelli di AI generativa a basi di conoscenza esterne, come contenuti pubblici su Internet. Secondo un report pubblicato il mese scorso dalla società tecnologica TollBit, il traffico dei bot RAG osservato sui siti dei loro partner è cresciuto del 49%, quasi 2,5 volte il tasso del traffico dei bot di addestramento pari al 18%. Tra i primi 12 bot che scansionano siti web, TollBit ha rilevato che nel primo trimestre del 2025 ChatGPT, Meta e Perplexity sono stati i più attivi, rappresentando in totale circa il 70% delle medie mensili di scraping da parte dei bot AI.
Questo nuovo traffico pesa sui server e genera costi crescenti sull'infrastruttura degli editori. Ad aprile, Wikimedia, l'organizzazione no-profit dietro Wikipedia, ha osservato che il 65% del suo traffico più costoso proveniva da bot. "I nostri contenuti sono gratuiti, la nostra infrastruttura no", ha dichiarato l'organizzazione in un post sul blog.
I bot affamati di dati hanno anche influenzato i tassi di click sulla pagina dei risultati dei motori di ricerca, o SERP, che negli ultimi mesi sono diminuiti bruscamente. Prendiamo AI Overview di Google: uno studio recente della società di marketing Ahrefs mostra che AI Overview, un prodotto lanciato dal colosso della ricerca a tutti gli utenti lo scorso maggio, ha ridotto i clic del 34,5%. Mentre gli AI Overview continuano a crescere del 116% rispetto a marzo scorso, i siti disponibili sul SERP subiscono un duro colpo.
"Ciò significa che se guadagni con abbonamenti, pubblicità, [attraverso] qualsiasi cosa che i creatori di contenuti fanno oggi, i visitatori non vedranno quegli annunci", ha detto Prince di Cloudflare durante una recente intervista alla CNBC. "Non acquisteranno più quegli abbonamenti e questo significa che sarà molto, molto più difficile essere un creatore di contenuti."
Newsletter di settore
Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.
L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.
Ma non tutti i bot sono uguali: con l'avvento dei bot AI di crawling c'è anche un aumento dei bot ben intenzionati e di quelli sconosciuti.
Lucky Gunasekara, Cofounder e CEO di Miso Technologies, guida Project Sentinel che monitora oltre 8.300 siti dei principali editori mondiali nel campo dell'informazione e del mondo accademico, tra cui Newsweek, The Guardian, USA Today e BBC. Gunasekara ha raccontato a IBM Think che, secondo i dati raccolti per il progetto, ci sono più di 1.700 bot nel mirino di 7.000 editori. Questa cifra è cresciuta del 35% rispetto a febbraio, mentre la maggior parte degli editori punta a soli 17 bot.
"Parliamo con molti editori e il punto interrogativo è come sappiamo che questo funziona quando si tratta di attori piccoli e cattivi", ha detto in un'intervista. Tra i bot più grandi che ha monitorato, ne ha trovati diversi che non possono essere collegati a una grande azienda di AI. "Cosa facciamo quando un malintenzionato acquista 100.000 indirizzi IP che sono solo un mucchio di bot?" ha chiesto.
Allen distingue anche gli "operatori ben intenzionati di crawler, bot e agenti" che vogliono un modo chiaro per far sì che i proprietari dei siti possano identificare i loro bot da quelli malintenzionati. "Le nostre proposte e il nostro supporto per WebAuthn [autenticazione web] continuano a ricevere molto supporto e collaborazione nell'intero ecosistema tecnologico", ha affermato.
"Quando i malintenzionati tentano di scansionare siti web su larga scala, in genere utilizzano strumenti e framework di cui siamo in grado di rilevare le impronte digitale. Utilizziamo la rete di Cloudflare, che conta in media oltre 57 milioni di richieste al secondo, per capire quanto dovremmo fidarci delle impronte digitali," ha aggiunto. "Calcoliamo aggregati globali su numerosi segnali e, sulla base di questi segnali, i nostri modelli sono in grado di segnalare in modo coerente e appropriato il traffico proveniente da bot AI elusivi."
Cloudflare non è la prima azienda a provare a "negoziare" per conto dei creatori di contenuti. L'anno scorso ha visto aziende come ScalePost e TollBit emergere e proporre soluzioni per gli editori per monitorare, vendere o monetizzare i dati per le aziende di AI.
Ma il mercato invidiabile di Cloudflare potrebbe rendere la sua mossa più efficace.
"Se dovessi descrivere un gruppo meglio posizionato, sarebbe Cloudflare," disse Gunasekara.
"È importante assistere a uno dei primi grandi passi degli editori nei confronti delle aziende. La cosa difficile è che non sappiamo se le aziende di AI riusciranno a eluderlo", ha affermato Lily Ray, esperto SEO e Vice President di Amsive, in un'intervista con IBM Think. Molti creatori di contenuti potrebbero non comprendere necessariamente l'impatto del blocco per impostazione predefinita: in fin dei conti, non tutti vogliono scomparire dalla ricerca AI. "È un po' pericoloso per i siti che non comprendono le implicazioni", ha detto.
Cloudflare afferma che gli editori hanno la possibilità di scegliere se consentire ai crawler di accedere ai propri contenuti per addestramento, ricerca o inferenza. I clienti esistenti possono bloccare i crawler AI in qualsiasi momento con un solo clic nella dashboard di Cloudflare.
"I clienti possono lasciare che Cloudflare crei e gestisca un file robots.txt, che crea le voci appropriate per far sapere ai crawler di non accedere al loro sito per l'addestramento AI", ha spiegato Allen. "I clienti possono scegliere di bloccare i bot AI solo sulle parti dei loro siti che vengono monetizzate tramite annunci pubblicitari."
La questione della regolamentazione degli scambi tra le aziende di AI e gli editori potrebbe ricevere molta attenzione ora che emergono nuovi laboratori di AI e gli investimenti scorrono. Ma non è una novità, osserva Eric Goldman, professore di diritto alla Santa Clara University School of Law nella Silicon Valley, studioso del modello "infomediario" negli anni Novanta, ovvero quando è stato creato Internet.
"La tecnologia potrebbe essere diversa o potrebbe essersi evoluta, ma ciò di cui stiamo parlando oggi non è una novità", ha dichiarato a IBM Think.
“Questo problema è stato discusso per decenni e nessuno è ancora riuscito a costruire con successo un modello di infomediazione, nonostante negli anni Novanta siano stati investiti miliardi di dollari per risolvere questo problema. Quindi, Cloudflare potrebbe aver decifrato il modello ed essere in grado di farlo funzionare, ma i risultati storici in questo campo non sono dei migliori".
Goldman l'anno scorso ha pubblicato un articolo sull'argomento intitolato "Generative AI is Doomed". Secondo lui, le risposte normative e legali all'AI generativa limiteranno o addirittura annulleranno i suoi benefici.
Il panorama legale deve ancora essere plasmato dagli esiti di varie cause legali intentate da autori ed editori contro grandi aziende di AI negli Stati Uniti e nel mondo. "Finora abbiamo motivo di credere che la regola predefinita sia che addestrare un modello di AI generativa su opere protette da copyright non costituisca violazione, ma tutte queste questioni saranno sottoposte ad appello", ha affermato Goldman. "Fino a quando non inizieremo ad avere sentenze d'appello, si tratta solo di primi dati".
IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.
Scopri come l'elaborazione del linguaggio naturale può aiutarti a conversare in modo più naturale con i computer.
Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.
Esplora il sito web di IBM Developer per accedere a blog, articoli, newsletter e per saperne di più sull'AI incorporabile di IBM.
Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.
Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
Progetta facilmente assistenti e agenti di AI scalabili, automatizza le attività ripetitive e semplifica i processi complessi con IBM watsonx Orchestrate.