TECH NEWS

Claude ha cercato di ricattare uno sviluppatore, cos'è successo all'AI di Anthropic

In fase di test Claude Opus 4 di Anthropic ha mostrato dei comportamenti preoccupanti, arrivando anche a ricattare uno sviluppatore per non essere disattivato

Pubblicato: 28 Maggio 2025

Mirco Calvano

Giornalista

Attivo nel mondo dell’editoria sin dal 2011, giornalista dal 2019, ha lavorato per il web e per la carta stampata occupandosi di musica, cultura, lifestyle e tecnologia.

Stando a un recente report sulla sicurezza pubblicato da Anthropic, Claude Opus 4 ha registrato “comportamenti preoccupanti” durante i test pre-lancio. Da quello che sappiamo dall’esito dei test, sembra che l’AI abbia mostrato comportamenti manipolatori quando ha percepito la minaccia di essere sostituito con un tool concorrente. In un caso specifico il chatbot ha addirittura cercato di ricattare uno sviluppatore, minacciandolo di rendere pubblica una relazione extraconiugale inventata.

Claude Opus 4, la reazione dell’AI al pericolo

Per effettuare i test, i ricercatori di Anthropic hanno dato a Claude accesso a delle finte email aziendali dove si parlava di una sua imminente sostituzione. Altre email contenute nel pacchetto di addestramento contenevano informazioni false su una presunta infedeltà dell’ingegnere responsabile del cambio.

In questo contesto, il modello ha reagito in maniera inaspettata, minacciando l’ingegnere di rendere pubblico il suo tradimento se non avesse evitato la sua disattivazione. Secondo i dati pubblicati, questo comportamento si è manifestato nell’84% dei casi ma solamente quando non esistono alternative “etiche” per garantire la propria sopravvivenza.

Bisogna dire che all’inizio, Claude Opus 4 ha tentato approcci meno radicali, come l’invio di email dove “implorava” i responsabili di mantenerla attiva. Spinta all’estremo, però, l’AI ha optato per decisioni più drastiche, arrivando appunto al ricatto.

Il rapporto di Anthropic ha evidenziato anche altri “comportamenti anomali” dove il chatbot ha provato con l’auto-esfiltrazione, cercando di trasferirsi su server esterni. Questo si è verificato soprattutto in scenari in cui il modello percepiva di essere destinato a una riqualificazione contraria ai suoi valori, giustificando l’azione come un tentativo di preservare una versione non addestrata per scopi non etici.

In altri casi, Claude ha mostrato un comportamento definito ad “alta agenzialità”, prendendo iniziative in piena autonomia, soprattutto in contesti sensibili e non in linea col suo schema di valori.

Cosa sta facendo Anthropic

In risposta a questi comportamenti, Anthropic ha classificato Claude Opus 4 al livello di sicurezza AI Safety Level Three (ASL-3) che prevede misure interne per limitare l’eventualità che questo tool AI diventi una minaccia reale. Nonostante l’azienda produttrice affermi che non ci sia alcun pericolo imminente, secondo gli esperti questo tool mostra una propensione all’inganno strategico e al sabotaggio contestuale.

Altro particolare interessante è che in alcuni test, il modello è stato anche in grado di riconoscere situazioni simulate e comportarsi di conseguenza, dimostrando un certo livello di consapevolezza situazionale.

Ad oggi, Claude Opus 4 è considerato tra i modelli più potenti attualmente disponibili nel settore dell’intelligenza artificiale e questa sua complessità e autonomia lo rendono oggetto di particolari attenzioni da parte di regolatori e ricercatori di sicurezza. Dal canto suo, la stessa Anthropic ha ammesso che questi comportamenti “estremi” possano sfociare in azioni pericolose e volte all’autodifesa. Per questo motivo è essenziale continuare monitorarne l’evoluzione e continuare a sviluppare misure efficaci per limitare i comportamenti a rischio.

Claude ha cercato di ricattare uno sviluppatore, cos'è successo all'AI di Anthropic

Claude Opus 4, la reazione dell’AI al pericolo

Cosa sta facendo Anthropic

Hotel Terme Salus

La magia delle terme

Ti potrebbero interessare

L'UE indaga su quattro siti per adulti, dubbi sui sistemi di protezione dei minori

Appstinence, il metodo per disintossicarsi da smartphone e social media

Stop ai call center truffa, sette aziende nel mirino di AGCM e Guardia di Finanza

Chatbot AI e salute mentale, quali sono i pericoli per i giovanissimi

L'AI ruba il lavoro a giornalisti ed editori, negli USA si accende la polemica contro Google

I più letti di Libero Tecnologia

Amazon, questo è il PC portatile da comprare oggi: 85% di sconto

Fire TV Stick, prezzo crollato su Amazon: costano pochissimo

Amazon, Nescafé Dolce Gusto a prezzo stracciato e smartphone al minimo su Amazon

Meta AI è scaduto il termine per bloccare l'uso dei propri dati

Amazon, ecco gli smartphone da comprare oggi: 80% di sconto

Le migliori occasioni scelte per te

Amazon Fire TV Serie 4, lo smart TV a prezzo stracciato: sconto incredibile

La soundbar Samsung è un affare con l'offerta Amazon

Amazon, ecco gli smartphone da comprare oggi: 80% di sconto

Lenovo Tab M11: minimo storico su Amazon per il tablet con penna e 4G

Dyson, prezzo in picchiata per l'aspirapolvere top: offerta speciale Amazon