Claude ha cercato di ricattare uno sviluppatore, cos'è successo all'AI di Anthropic
In fase di test Claude Opus 4 di Anthropic ha mostrato dei comportamenti preoccupanti, arrivando anche a ricattare uno sviluppatore per non essere disattivato

Stando a un recente report sulla sicurezza pubblicato da Anthropic, Claude Opus 4 ha registrato “comportamenti preoccupanti” durante i test pre-lancio. Da quello che sappiamo dall’esito dei test, sembra che l’AI abbia mostrato comportamenti manipolatori quando ha percepito la minaccia di essere sostituito con un tool concorrente. In un caso specifico il chatbot ha addirittura cercato di ricattare uno sviluppatore, minacciandolo di rendere pubblica una relazione extraconiugale inventata.
Claude Opus 4, la reazione dell’AI al pericolo
Per effettuare i test, i ricercatori di Anthropic hanno dato a Claude accesso a delle finte email aziendali dove si parlava di una sua imminente sostituzione. Altre email contenute nel pacchetto di addestramento contenevano informazioni false su una presunta infedeltà dell’ingegnere responsabile del cambio.
In questo contesto, il modello ha reagito in maniera inaspettata, minacciando l’ingegnere di rendere pubblico il suo tradimento se non avesse evitato la sua disattivazione. Secondo i dati pubblicati, questo comportamento si è manifestato nell’84% dei casi ma solamente quando non esistono alternative “etiche” per garantire la propria sopravvivenza.
Bisogna dire che all’inizio, Claude Opus 4 ha tentato approcci meno radicali, come l’invio di email dove “implorava” i responsabili di mantenerla attiva. Spinta all’estremo, però, l’AI ha optato per decisioni più drastiche, arrivando appunto al ricatto.
Il rapporto di Anthropic ha evidenziato anche altri “comportamenti anomali” dove il chatbot ha provato con l’auto-esfiltrazione, cercando di trasferirsi su server esterni. Questo si è verificato soprattutto in scenari in cui il modello percepiva di essere destinato a una riqualificazione contraria ai suoi valori, giustificando l’azione come un tentativo di preservare una versione non addestrata per scopi non etici.
In altri casi, Claude ha mostrato un comportamento definito ad “alta agenzialità”, prendendo iniziative in piena autonomia, soprattutto in contesti sensibili e non in linea col suo schema di valori.
Cosa sta facendo Anthropic
In risposta a questi comportamenti, Anthropic ha classificato Claude Opus 4 al livello di sicurezza AI Safety Level Three (ASL-3) che prevede misure interne per limitare l’eventualità che questo tool AI diventi una minaccia reale. Nonostante l’azienda produttrice affermi che non ci sia alcun pericolo imminente, secondo gli esperti questo tool mostra una propensione all’inganno strategico e al sabotaggio contestuale.
Altro particolare interessante è che in alcuni test, il modello è stato anche in grado di riconoscere situazioni simulate e comportarsi di conseguenza, dimostrando un certo livello di consapevolezza situazionale.
Ad oggi, Claude Opus 4 è considerato tra i modelli più potenti attualmente disponibili nel settore dell’intelligenza artificiale e questa sua complessità e autonomia lo rendono oggetto di particolari attenzioni da parte di regolatori e ricercatori di sicurezza. Dal canto suo, la stessa Anthropic ha ammesso che questi comportamenti “estremi” possano sfociare in azioni pericolose e volte all’autodifesa. Per questo motivo è essenziale continuare monitorarne l’evoluzione e continuare a sviluppare misure efficaci per limitare i comportamenti a rischio.