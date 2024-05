Fonte foto: SuPatMaN / Shutterstock

OpenAI ha annunciato il debutto di GPT-4o. Si tratta del nuovo modello di intelligenza artificiale realizzato dall’azienda con l’obiettivo di garantire un ulteriore passo in avanti nel programma di crescita continua dei suoi servizi AI. Il modello in questione sarà implementato gradualmente nel corso delle prossime settimane e GPT-40 sarà disponibile per gli utenti in modo gratuito, con un limite di utilizzo 5 volte superiore per gli utenti Plus.

In formato API, inoltre, il nuovo modello avrà una velocità doppia e un costo inferiore del 50% rispetto a GPT-4 Turbo. Il debutto del nuovo modello arriva a breve distanza dal lancio da parte di OpenAI della tecnologia Voice Engine, per la generazione dell’audio, e dello strumento di creazione video Sora che consente di generare contenuti partendo da input testuali.

GPT-4o: come funziona

Il nuovo GPT-4o, secondo OpenAI, rappresenta un ulteriore passo in avanti verso l’obiettivo di rendere più naturale l’interazione tra uomo e computer. Il modello appena svelato (la “o” nel nome sta per “omni“) è in grado di combinare input diversi, riuscendo ad elaborare testo, audio e immagini, in modo da migliorare la comprensione delle informazioni fornite. Allo stesso modo, GPT-4o è in grado di generare output con combinazioni di testo, audio e immagini.

Il funzionamento dell’AI diventa anche più veloce: la risposta agli input audio, sottolinea OpenAI, si riduce fino a 232 millisecondi (con una media di 320 millisecondi). Questi dati sono simili al tempo di risposta umano in una normale conversazione. GPT-4o può garantire un funzionamento più preciso, grazie alla capacità di combinare input differenti, ma anche più rapido, velocizzando le interazioni con l’uomo.

Con GPT-4o, OpenAI ha cambiato approccio nella realizzazione di un modello multi-modale. In precedenza, ad esempio, per utilizzare la modalità vocale di ChatGPT venivano utilizzati tre modelli separati che si occupavano, rispettivamente, della trascrizione dell’audio, della generazione del testo e della riconversione del testo in audio.

Con GPT-4o, invece, viene utilizzato un unico modello end-to-end che, comprendendo vari input, può elaborare output di diverso tipo utilizzando la stessa rete neurale. Si tratta del primo modello di OpenAI in grado di adottare quest’approccio. Secondo l’azienda, i margini di miglioramento sono ancora tutti da esplorare.

Tramite il suo canale YouTube, OpenAI ha rilasciato diversi video dimostrativi che puntano a evidenziare le capacità di GPT-4o, in grado di cogliere le emozioni del suo interlocutore, rispondendo con rapidità e adeguandosi al contesto. Secondo l’azienda, il modello garantisce notevoli miglioramenti nel funzionamento con più di 50 lingue, con passi in avanti significativi anche per la traduzione in tempo reale.

Novità per ChatGPT

Ci sono novità anche per ChatGPT che ora è disponibile anche con un’app desktop per macOS, disponibile per gli utenti ChatGPT Plus. Il chatbot avrà entro la fine dell’anno anche un’app Windows. OpenAI prevede anche una semplificazione dell’interfaccia. Per gli utenti Free, inoltre, saranno gradualmente rilasciate nuove funzioni riservate, in precedenza, ai soli utenti a pagamento e, come detto, sarà possibile usare il modello GTP-4o.