TECH NEWS

Google Gemini può di nuovo creare immagini, ma con un enorme limite

Dopo mesi di assenza, torna in Google Gemini la possibilità di creare immagini con l'AI, ma con forti limitazioni per evitare il ripetersi delle allucinazioni e delle conseguenti polemiche

Pubblicato: 8 Ottobre 2024

Giuseppe Croce

Giornalista

Peppe Croce, giornalista dal 2008, si occupa di device elettronici e nuove tecnologie applicate al mondo automotive. È entrato in Libero Tecnologia nel 2018.

Tra tutte le intelligenze artificiali commerciali oggi disponibili quella di Google è l’unica che non mette a disposizione dell’utente, né nella versione gratuita né in quella a pagamento, la generazione delle immagini. Questa funzione, in realtà, all’inizio c’era ma è stata sospesa da Google a fine febbraio a causa delle feroci polemiche che ha suscitato.

Le immagini generate da Gemini in modo “spontaneo“, cioè senza indicazioni specifiche dell’utente all’interno del prompt, erano infatti pesantemente condizionate dalla cosiddetta ideologia “woke” americana, che fa dell’inclusione di donne e minoranze etniche una delle priorità della società. I risultati erano paradossali: Google Gemini disegnava papi donna apparentemente di etnia nativoamericana, o soldati nazisti di colore con tratti somatici africani.

Come funziona il generatore immagini AI di Gemini

Già alcune settimane fa Google aveva reintrodotto la generazione delle immagini nella versione “business” di Gemini, quella disponibile con gli account Google Workspace. Adesso, invece, la funzione è disponibile per tutti gli utenti.

Il motore grafico AI di Gemini è adesso Imagen 3, sviluppato in casa da Google Deepmind. Secondo le dichiarazioni della stessa Google, si tratta del modello migliore che hanno (tra quelli pronti per l’uso pubblico), e rispetto ai modelli precedenti offre immagini di qualità migliore con più dettagli, una illuminazione superiore e meno artefatti ed errori concettuali (come le famose mani a sei dita).

Per usare Imagen 3 è sufficiente chiedere a Gemini (sia in versione app che in versione Web) di disegnare un soggetto che andremo a descrivere con del testo. Come tutti i modelli di questo tipo, migliore è la descrizione e migliore sarà l’immagine prodotta.

Tutte le immagini prodotte sono in risoluzione 2.048×2.048 pixel, cioè il doppio di quelle generate da ChatGPT, Dall-E e Microsoft Copilot (che usano tutti lo stesso modello grafico AI), ma non c’è modo di convincere Gemini a creare un’immagine che non sia quadrata. Nemmeno specificare il rapporto d’aspetto all’interno del prompt serve a modificare la forma finale del risultato.

La generazione dell’immagini, poi, non è molto veloce, di sicuro è più lenta rispetto a Dall-E di OpenAI o altri modelli concorrenti, ma quantomeno è gratuita e attualmente non c’è un limite massimo di immagini che si possono creare in un giorno o in un mese, neanche se si usa Gemini in versione gratuita.

Le immagini tornano su Gemini, ma…

Adesso Google ha affinato l’algoritmo e ha reintrodotto la possibilità di generare immagini con l’AI senza incappare nei problemi precedenti. O forse no: a dire il vero, infatti, quella che Google avrebbe trovato sembra oggi una soluzione solo a metà.

Gemini, infatti, al momento non permette di generare immagini di persone. Il problema delle allucinazioni ideologiche, quindi, non sembra affatto risolto e Google potrebbe aver reintrodotto la generazione delle immagini solo per non perdere terreno nei confronti della concorrenza.

Ma, non fidandosi ancora del tutto del suo stesso algoritmo, avrebbe preferito castrare la funzione per evitare il ripetersi dei problemi e delle polemiche.

Il problema è che il blocco applicato da Google alla generazione di immagini di persone è messo in atto in maniera quanto meno bizzarra e decisamente troppo aggressiva. Ad esempio, il prompt

disegna una tartaruga amigurumi che cammina nella savana, fotografata da un fotografo professionista, con sfondo sfocato

non genera alcun risultato se non l’avviso che Google Gemini sarà in grado di generare immagini di persone in futuro. Per ottenere la foto del peluche della tartaruga, infatti, dobbiamo togliere dal prompt la parola “fotografo“.

L’intelligenza artificiale di Google, quindi, non è in grado di capire quando l’utente chiede di generare l’immagine di un fotografo e quando chiede di generare un’immagine come un fotografo.

Di sicuro si tratta di un errore calcolato da Google, necessario a impedire che la sua AI venga manipolata per aggirare il blocco nella generazione delle immagini di persone.

TAG: