Fonte foto: 123RF

L’Intelligenza Artificiale è “affamata” di dati, e per nutrirla milioni di bot rastrellano ogni giorno il web alla ricerca di testi, immagini e contenuti. Ma questa caccia selvaggia ai dati rischia di trasformarsi in un assalto sregolato, con conseguenze pesanti per i siti web e per chi li gestisce. In prima linea nella difesa c’è Cloudflare, colosso dell’infrastruttura Internet, che ha appena annunciato una svolta destinata a cambiare radicalmente il rapporto tra AI e web: blocco di default dei crawler AI per milioni di siti e lancio di un programma “Pay Per Crawl” per far pagare le aziende di AI quando vogliono usare i contenuti.

Perché viene bloccato l’accesso ai siti

Per decenni i crawler web sono stati strumenti indispensabili. Per intenderci, senza di loro non avremmo motori di ricerca come Google né archivi digitali come l’Internet Archive. Ma l’esplosione dell’AI generativa ha portato un’invasione di bot specificamente progettati per raccogliere dati destinati ad addestrare modelli linguistici e algoritmi: un’orda di scraper che, a forza di accessi ripetuti, può mettere in crisi i server come se si trattasse di un attacco DDoS, rallentando o addirittura mandando offline siti anche di grandi dimensioni.

La questione non è solo tecnica: sempre più editori, come spiega Danielle Coffey (presidente e CEO della News Media Alliance, che rappresenta migliaia di testate nordamericane), sono preoccupati perché vedono i loro contenuti prelevati senza alcun compenso. “Abbiamo lavorato febbrilmente per proteggerci”, dice Coffey, mentre numerosi giornali spingono per ottenere accordi commerciali che riconoscano un valore economico al loro lavoro.

Da qui la mossa di Cloudflare, che ha scelto il blocco di default dei siti per chi usa l’Intelligenza Artificiale.

Finora Cloudflare offriva ai clienti strumenti per bloccare i bot AI su base volontaria (oltre 1 milione di siti ha infatti già attivato questa funzione). Oggi, la novità è che il blocco diventa la configurazione predefinita.

Quali le conseguenze?

Milioni di siti protetti oggi dai servizi Cloudflare inizieranno a respingere automaticamente i crawler di AI, ovvero gli utenti che utilizzano strumenti di Intelligenza Artificiale, a meno che i titolari non scelgano di disattivare questa opzione.

Ma la strategia non si ferma qui. Cloudflare ha introdotto “Pay Per Crawl”, un programma che consente ai siti di far pagare le aziende di AI per ogni visita dei loro bot. Una proposta che ribalta completamente l’equilibrio di potere: fino a oggi, chi sviluppava AI poteva raccogliere liberamente dati da qualunque sito non protetto, senza negoziare o pagare.

La partecipazione al programma Pay Per Crawl è ancora in fase beta e restano incognite cruciali. Alcune realtà come la startup ProRata, che gestisce il motore di ricerca IA Gist.AI, hanno già aderito, come conferma il fondatore Bill Gross: “Crediamo fermamente che chi crea contenuti debba essere compensato quando il loro lavoro viene usato per generare risposte con l’AI”. Tuttavia, non è chiaro se i grandi player come OpenAI, Anthropic o Google accetteranno di pagare per accedere ai contenuti, oppure se tenteranno di aggirare il blocco.

Intanto, nonostante la stretta di Cloudflare, su Internet proliferano già tutorial che spiegano come evadere i sistemi di blocco dei bot, promettendo metodi per mascherare l’identità dei crawler o simulare il comportamento di un utente umano. È probabile che, man mano che il blocco di default diventerà la norma, aumenteranno anche i tentativi di eluderlo, alimentando un braccio di ferro tecnologico tra chi vuole proteggere i contenuti e chi vuole raccoglierli a ogni costo.