HomeNews dal MondoOpenAI e Microsoft implementano Vall-E: il nuovo chatbot vocale che espande la...

OpenAI e Microsoft implementano Vall-E: il nuovo chatbot vocale che espande la potenza dell’intelligenza artificiale

OpenAI e Microsoft continuano la battaglia con Google per l’intelligenza artificiale implementando Vall-E, il nuovo chatbot vocale. Si tratta di un software di sintesi vocale in grado di simulare la voce umana dopo appena tre secondi di ascolto. 

In altre parole, questo è l’ultimo tassello del sistema di intelligenza artificiale generativa sviluppato da Microsoft e da OpenAI, con la quale dal 2019 il colosso Bill Gates è legato da una partnership pluriennale e multimiliardaria.

Vall-E: tutti i dettagli in merito al nuovo chabot di OpenAI e Microsoft 

Valle-E è uno strumento dell’AGI, Artificial General Intelligence, cioè un’intelligenza artificiale “generale” o “forte”, in grado di simulare l’intelligenza umana. In contrapposizione, quindi, a quella che abbiamo conosciuto finora, ovvero l’AI “stretta” o “debole”. 

Quest’ultima è in grado di rispondere con azioni preimpostate a compiti specifici, ma non di reagire a un’azione non programmata. Negli ultimi anni, i chatbot AI non sono stati performanti come i suoi creatori si aspettavano, perché si limitavano a mansioni ridotte e presentavano un alto tasso di errore.

Valle-E è stato sviluppato per essere utilizzato con strumenti di sintesi vocale di alta qualità e per creare audio originali a partire da un campione di esempio. OpenAI definisce Valle-E come un “modello di linguaggio codec naturale”, in quanto il suo funzionamento è basato su una tecnologia chiamata EnCodec. 

La startup, finanziata tra gli altri anche da Elon Musk e Sam Altman, vanta anche la creazione di ChatGPT, un chatbot in grado di sostenere una conversazione interattiva con gli utenti, ricordando e imparando dalle azioni e precedenti. 

Dunque, come ChatGPT è in grado di generare autonomamente codici, anche Valle-E è stato progettato per creare codec audio discreti dall’ascolto di un campione audio.
Comportandosi appunto da umano. 

Insieme ai software GPT-3 per testo e Dall-E/Stable Diffusion per le immagini, il sistema audio Valle-E completa il trittico di ChatGPT e vuole rivoluzionare il campo dell’AI generativa.

Speaker Prompt, Ground Truth, Baseline e Vall-E

La sofisticatezza del nuovo strumento lanciato da OpenAI e Microsoft risiede nella capacità di Valle-E di riconoscere il timbro, l’inflessione e il tono emotivo della persona che sta parlando e di riproporla dopo soli tre secondi di ascolto. 

Le applicazioni nell’editing audio sono molteplici, come lo sono anche le critiche sulla possibilità di manipolazione del software e sull’utilizzo improprio che se ne può fare. Non a caso, infatti, a differenza di quanto successo con ChatGPT, Microsoft non ha fornito il codice di Vall-E affinché altri potessero sperimentarlo.

Sul sito di Valle-E si possono trovare, inoltre, dei campioni di parlato già sintetizzato dal software. In particolare, si possono ascoltare diverse varianti di campionamento tra cui: Speaker Prompt, Ground Truth, Baseline e Vall-E. 

La prima opzione è una clip audio di cui l’intelligenza artificiale deve riprodurre i connotati vocali, nella seconda viene pronunciata una frase di cui l’AI deve proporre un confronto. La terza, invece, è un esempio generato con le tecnologie di sintesi vocale attualmente disponibili. Infine, Vall-E è il parlato originale generato dal software di Microsoft.

Potenzialità e pericoli dell’IA di OpenAI e Microsoft 

I ricercatori di Microsoft e di OpenAI sembrano consapevoli dei potenziali danni di questa tecnologia. Infatti, hanno comunicato in un documento pubblico quanto segue: 

“Dal momento che Vall-E potrebbe sintetizzare un discorso che mantiene l’identità del parlante, tale tecnologia potrebbe comportare rischi potenziali legati a un uso improprio del modello, come lo spoofing dell’identificazione vocale o il fatto di impersonare qualcuno.” 

Dunque, aggiunge Microsoft, per mitigare tali rischi è possibile costruire un modello di rilevamento per distinguere se una clip audio è stata sintetizzata da Vall-E. A questo proposito, i due colossi metteranno in pratica anche i principi di intelligenza artificiale di Microsoft durante l’ulteriore sviluppo dei modelli. 

Tuttavia, il rischio di emulazione non è l’unico fattore a generare scetticismo e paura. Vall-E è stato addestrato usando la libreria audio LibriLight realizzata da Meta, che contiene 60 mila ore di discorsi in lingua inglese estratti per la maggior parte da audiolibri di pubblico dominio, registrati e letti da volontari. 

In ogni caso, per incrementare la sua capacità di sintesi, Vall-E avrà bisogno di espandere il suo bacino di apprendimento a tutto l’Internet. Questo step successivo è ciò che ha permesso a GPT-3, il predecessore di ChatGPT, di raggiungere un’impressionante capacità di elaborazione, scrittura e assemblaggio di frasi.

Nonostante ciò, il software era anche incline a formulare contenuti violenti, sessisti e razzisti, proprio perché lavorava su esempi presi indistintamente dall’intero web. Questo è ciò che potrebbe accadere anche per il nuovo Vall-E. 

In questo caso, le operazioni di filtraggio richiederebbero l’impiego di numeroso personale umano che, al momento, i grandi colossi digitali non sembrano prevedere vista l’ondata di licenziamenti che sta interessando le big tech.

Google presenta Bard per competere con OpenAI e Microsoft 

Come anticipato, a competere con Microsoft e OpenAI c’è Google, che è pronto a presentare Bard, il chatbot di DeepMind, la società acquistata da Alphabet di Google. Bard si presenta come la copia esatta di ChatGPT, ma senza la falla negli aggiornamenti. 

Sundar Pichai, amministratore delegato di Google, ha presentato il nuovo software come uno strumento che attinge informazioni dal web per fornire risposte fresche e di alta qualità. Intendendo con “fresche” in continuo aggiornamento, cosa che l’AI di Microsoft non riesce ancora a fare.

In poche parole, Bard si pone come obiettivo quello di generare risposte dettagliate a domande semplici. Il suo funzionamento si basa sul LaMDA, il Language Model for Dialogue Applications, che uno degli ingegneri della stessa Google aveva in passato definito come “senziente”.

Inutile negare che l’annuncio del lancio di Bard da parte di Google era atteso dagli appassionati di tecnologia. D’altronde, secondo quanto riportato dal Wall Street Journal, Alphabet, la società madre di Google, nel 2021 ha investito oltre 31 miliardi di dollari nell’intelligenza artificiale, più di qualsiasi altro competitor. 

Dopo il successo di ChatGPT, la società ha quindi deciso di richiamare il meglio: i fondatori Larry Page e Sergey Brin. In ogni caso, non c’è dubbio che i software di intelligenza artificiale sono una risorsa preziosissima nel campo dell’innovazione. 

Infatti, anche Amazon, Meta e Apple non staranno di certo a guardare cosa fanno gli altri senza agire. Tuttavia, se da una parte la competizione è un grande acceleratore in termini di ricerca, dall’altra c’è il rischio che, nella corsa alla migliore intelligenza artificiale, vengano utilizzati sistemi fallati, con errori, limiti e rischi, senza fare troppa attenzione al quadro generale.

Alessia Pannone
Alessia Pannone
Laureata in scienze della comunicazione e attualmente studentessa del corso di laurea magistrale in editoria e scrittura. Scrittrice di articoli in ottica SEO, con cura per l’indicizzazione nei motori di ricerca, in totale o parziale autonomia.
RELATED ARTICLES

MOST POPULARS

GoldBrick