Le allucinazioni sono un problema per la credibilità dell'intelligenza artificiale
Le allucinazioni possono compromettere l’affidabilità dei modelli AI, le aziende sono al lavoro per cercare di creare un’intelligenza artificiale più affidabile
OpenAI ha pubblicato un report sui suoi modelli di intelligenza artificiale più recenti, in particolare o3 e o4-mini, rivelando un generale aumento nelle allucinazioni. Questo, a onor del vero, è un problema ben noto per tutti gli esperti del settore AI che, al momento, rimane ancora irrisolto. Questi errori, caratterizzati da risposte apparentemente credibili ma del tutto inventate, restano una delle sfide più complesse per gli sviluppatori e, nonostante i progressi tecnologici e una potenza computazionale sempre maggiore, non sembra esserci una soluzione a portata di mano.
ChatGPT e l’aumento delle allucinazioni
Secondo quanto riportato da OpenAI, il modello o3 ha mostrato allucinazioni nel 33% dei casi nel test PersonQA (basato su domande riguardanti figure pubbliche) e nel 51% durante il test SimpleQA (domande fattuali semplici). Ancora più preoccupanti sono i risultati di o4-mini, un modello più piccolo e progettato per essere più veloce, che ha fatto registrare un tasso di errori del 41% in PersonQA e addirittura del 79% in SimpleQA. Le cose migliorano con GPT-4.5, l’aggiornamento principale del noto chatbot, che nel test SimpleQA mostra un tasso di allucinazioni del 37,1%.
Le allucinazioni nascono dal funzionamento stesso dei modelli linguistici. Questi strumenti non ragionano come gli esseri umani, ma calcolano la sequenza di parole più probabile da restituire sulla base dei dati con cui sono stati addestrati. Quando si trovano di fronte a domande per cui non hanno una base solida, in pratica, tirano a indovinare, riportando informazioni false o inattendibili e, spesso, anche grammaticalmente scorrette.
Tra le cause principali di queste allucinazioni ci sono set di dati incompleti o sbilanciati o problemi nei meccanismi di addestramento.
Cosa stanno facendo le aziende?
Secondo gli esperti del settore queste allucinazioni rappresentano un ostacolo all’adozione su larga scala di queste tecnologie, soprattutto in ambiti sensibili come medicina, finanza, giornalismo o diritto.
Si tratta, dunque, di un problema grave, che secondo molti è impossibile da risolvere anche se è comunque possibile applicare delle strategie di contenimento. Tra queste, l’idea di insegnare ai modelli a riconoscere l’incertezza, dando loro la possibilità di dire “non lor so” quando non sono in grado di fornire una risposta attendibile.
Altre ipotesi comprendono la possibilità di consentire al modello AI di attingere a documenti esterni in tempo reale (ad esempio da un database o un motore di ricerca) prima di generare una risposta, oppure raffinare l’addestramento supervisionato, migliorando la qualità e la varietà dei dati d’ingresso.
L’ultima opzione è affidarsi a team di esseri umani per verifiche post-produzione, soprattutto in contesti aziendali o professionali.
In conclusione, le allucinazioni restano uno dei limiti più evidenti e pericolosi dei chatbot AI e, nonostante coi modelli più recenti il fenomeno si sia ridotto rispetto al passato, il problema c’è ancora e potrebbe minare la fiducia degli utenti. Le aziende tecnologiche stanno lavorando per trovare soluzioni efficienti, ma la strada per un’IA realmente affidabile e “consapevole dei propri limiti” è ancora lunga.