Microsoft ha presentato la sua ultima ricerca sull’intelligenza artificiale per la sintesi vocale utilizzando un modello chiamato Valle Può simulare la voce di qualcuno con solo un campione audio di tre secondi, Ars Tecnica È stato segnalato. Il discorso può corrispondere non solo al timbro, ma anche al tono emotivo di chi parla e persino all’acustica della stanza. Un giorno potrebbe essere utilizzato per applicazioni di sintesi vocale dedicate o di fascia alta, sebbene sia simile Falso profondocomporta il rischio di uso improprio.
VALL-E è ciò che Microsoft chiama un “paradigma del linguaggio di codifica neurale”. È derivato dalla codifica della rete neurale di compressione alimentata dall’intelligenza artificiale di Meta, che genera audio dall’input di testo e brevi campioni dall’oratore target.
in cartai ricercatori descrivono come hanno addestrato VALL-E su 60.000 ore di lingua inglese da più di 7.000 parlanti su Meta. Libre Lite Libreria audio. La voce che stai cercando di imitare deve essere esattamente la stessa voce nei dati di addestramento. In tal caso, utilizza i dati di addestramento per dedurre come suonerebbe l’oratore di destinazione se stesse parlando con l’immissione di testo richiesta.
Il team spiega esattamente come funziona bene sulla pagina Github di VALL-E. Per ogni frase che vogliono che l’IA “parli”, hanno un prompt di tre secondi da parte dell’oratore da imitare, un “fatto di base” dello stesso oratore che dice un’altra frase per il confronto, una tradizionale “linea di base” di testo- sintesi vocale e un campione VALL-E alla fine.
il Risultati confuso, con alcuni suoni simili a macchine e altri sorprendentemente realistici. Il fatto che mantengano il tono pieno di sentimento dei campioni originali è ciò che li vende come quelli che funzionano. Inoltre, si adatta fedelmente all’ambiente acustico, quindi se un oratore registra la propria voce echo-y hall, anche l’uscita VALL-E suona come se provenisse dallo stesso luogo.
Per migliorare il modello, Microsoft prevede di estendere i suoi dati di addestramento per “migliorare le prestazioni del modello attraverso prospettive di somiglianza tra presentazioni, stile di parola e relatori”. Esplora anche i modi per ridurre le parole poco chiare o mancanti.
Microsoft ha scelto di non rendere il codice open source, forse a causa dei rischi insiti nell’intelligenza artificiale che potrebbe mettere le parole in bocca a qualcuno. Ha aggiunto che seguirà i “principi Microsoft dell’intelligenza artificiale” in ogni ulteriore sviluppo. “Poiché VALL-E può sintetizzare il discorso che preserva l’identità di chi parla, può comportare potenziali rischi di abuso del modello, come lo spoofing o la rappresentazione del riconoscimento vocale”, ha scritto la società nella sezione “Implicazioni più ampie” della sua conclusione.
“Pluripremiato specialista televisivo. Appassionato di zombi. Impossibile scrivere con i guantoni da boxe. Pioniere di Bacon.”