Libero
SMART EVOLUTION

OpenAI annuncia: bastano 15 secondi per rubarci la voce

Voice Engine è la nuova tecnologia di OpenAI che consente di generare una voce sintetica partendo da un audio di 15 secondi

Pubblicato:

openai voice engine Fonte foto: MMD Creative / Shutterstock

La nuova creazione di OpenAI si chiama Voice Engine e, come suggerisce il nome, è un modello di deep learning che, sfruttando l’intelligenza artificiale, riesce a clonare la voce di una persona. Basta fornire un campione di audio da 15 secondi per consentire a Voice Engine di “fare il suo lavoro” e creare così una voce sintetica molto simile, per non dire identica, a quella originale. Questa nuova tecnologia potrà trovare tanti campi di applicazione. Molti di questi sono, però, potenzialmente pericolosi.

OpenAI svela Voice Engine

Con un post sul blog ufficiale, OpenAI ha annunciato il debutto del nuovo modello Voice Engine, disponibile per il momento come anteprima solo per un numero ristretto di sviluppatori.  Con Voice Engine è possibile creare una voce sintetica partendo da un input di testo e da un singolo campione audio da 15 secondi.

La voce generata ha un parlato naturale molto simile a quello della voce originale utilizzata come campione. Gli esempi pubblicati da OpenAI sono davvero impressionanti. Partendo da un audio di appena 15 secondi, infatti, Voice Engine può creare audio in grado di replicare l’intonazione, il timbro e altre caratteristiche della voce originale.

La presentazione di questa nuova tecnologia è accompagnata da vari esempi di utilizzo delle voci sintetiche, utili per fornire assistenza alla lettura, tradurre contenuti e in molti altri contesti. Da notare che OpenAI ha confermato di aver sviluppo Voice Engine già sul finire del 2022, inizialmente per lo sviluppo dell’API di sintesi vocale e per ChatGPT Voice.

Al momento, non sono chiare le reali capacità di questo modello. OpenAI evidenzia la capacità generativa di Voice Engine considerando un campione audio di 15 secondi. Fornendo al sistema uno o più campioni audio (della stessa voce) di durata più lunga, il modello potrebbe essere in grado di ottenere risultati ancora più vicini all’originale, tanto da risultare indistinguibile.

I rischi di questa tecnologia

Senza troppi giri di parole, un modello di deep learning in grado di generare una voce sintetica identica al campione di partenza si presta facilmente a un utilizzo improprio. La possibilità di clonare la voce di una persona, senza il suo consenso, è una delle conseguenze negative di questa tecnologia, potenzialmente utilizzabile per truffe e raggiri di vario tipo, colpendo sia personaggi pubblici che persone comuni.

OpenAI ha confermato di aver adottato un approccio “cauto in merito al rilascio di una versione completa del suo modello, proprio a causa dei rischi legati all’uso improprio di questa tecnologia. Sul blog si legge: “Speriamo di avviare un dialogo sull’impiego responsabile delle voci sintetiche e su come la società può adattarsi a queste nuove capacità.

Secondo OpenAI è necessario puntare all’eliminazione graduale dei sistemi di autenticazione vocale, come misura di sicurezza adottata per la verifica dell’identità, ed accelerare lo sviluppo e l’adozione di tecniche in grado di tracciare l’origine dei contenuti audiovisivi che, in futuro, dovranno essere facilmente identificabili quando includono elementi generati tramite AI.