Ingegneria | Newsletter | Cerca | tecnologia
9 novembre 2023
La maggior parte delle persone che utilizzano cuffie con cancellazione del rumore sanno che sentire il rumore giusto al momento giusto può essere vitale. Qualcuno potrebbe voler suonare il clacson quando lavora in ambienti chiusi, ma non quando cammina su strade trafficate. Tuttavia, le persone non possono scegliere quali suoni eliminare dalle cuffie.
Ora, un team guidato da ricercatori dell’Università di Washington ha sviluppato algoritmi di deep learning che consentono agli utenti di scegliere quali suoni filtrare attraverso le cuffie in tempo reale. Il team chiama il sistema “udito semantico”. Le cuffie trasmettono l’audio catturato a uno smartphone connesso, eliminando tutti i suoni ambientali. Attraverso i comandi vocali o un’app per smartphone, chi indossa le cuffie può scegliere quali suoni includere tra 20 categorie, come sirene, bambini che piangono, parlato, aspirapolvere e canto degli uccelli. Solo i suoni selezionati verranno riprodotti tramite le cuffie.
La squadra si è presentata Le mie scoperte 1 novembre alle Est ’23 A San Francisco. In futuro, i ricercatori prevedono di rilasciare una versione commerciale del sistema.
“Comprendere la voce di un uccello ed estrarla da tutti gli altri suoni nell’ambiente richiede un’intelligenza in tempo reale che le odierne cuffie con cancellazione del rumore non riescono a ottenere”, ha affermato il ricercatore capo. Shyam Gollakota, professore presso la Paul G. Allen School of Computer Science and Engineering dell’Università del Wisconsin. “La sfida è che i suoni che sentono coloro che indossano le cuffie devono essere sincronizzati con i loro sensi visivi. Non puoi sentire la voce di qualcuno due secondi dopo che ti ha parlato. Ciò significa che gli algoritmi neurali devono elaborare i suoni in meno di un centesimo di un secondo.
A causa di questa stretta di tempo, il sistema uditivo semantico deve elaborare i suoni su un dispositivo come uno smartphone connesso, piuttosto che su server cloud più potenti. Inoltre, poiché i suoni provenienti da direzioni diverse raggiungono le orecchie delle persone in momenti diversi, il sistema deve preservare questi ritardi e altri segnali spaziali in modo che le persone possano percepire in modo significativo i suoni nel loro ambiente.
Testato in ambienti come uffici, strade e parchi pubblici, il sistema è stato in grado di estrarre sirene, cinguettii di uccelli, allarmi e altri suoni target, rimuovendo al contempo tutti gli altri rumori del mondo reale. Quando 22 partecipanti hanno valutato l’output audio del sistema dell’audio di destinazione, hanno affermato che la qualità è migliorata in media rispetto alla registrazione originale.
In alcuni casi, il sistema aveva difficoltà a distinguere tra suoni che condividevano molte caratteristiche, come la musica vocale e il linguaggio umano. I ricercatori notano che i modelli di addestramento su più dati del mondo reale potrebbero migliorare questi risultati.
Altri coautori erano presenti nell’articolo Bandhav Vellore E Malik ItaniEntrambi studenti di dottorato presso la Allen School dell’Università del Wisconsin; Justin Chanche ha completato questa ricerca come studente di dottorato presso la Allen School e ora si trova alla Carnegie Mellon University; E Takuya YoshiokaDirettore della ricerca presso AssemblyAI.
Per ulteriori informazioni contattare semanticearing@cs.washington.edu.
Tag: Scuola di Informatica e Ingegneria Paul G. Allen • Shyam Gollakota
“Pluripremiato specialista televisivo. Appassionato di zombi. Impossibile scrivere con i guantoni da boxe. Pioniere di Bacon.”