BUFFALO, N.Y. – L’immagine parlava da sola.
L’informatico ed esperto di deepfake Siwei Liu dell’Università di Buffalo ha creato un collage di centinaia di volti che i suoi algoritmi di rilevamento avevano erroneamente classificato come falsi – e la nuova combinazione era chiaramente composta principalmente da tonalità della pelle scure.
“L’accuratezza di un algoritmo di rilevamento dovrebbe essere statisticamente indipendente da fattori come la razza, ma è chiaro che molti algoritmi esistenti, compreso il nostro, ereditano pregiudizi”, afferma Liu.
Liu, Ph.D., co-direttore dell'UB Center for Information Integrity, e il suo team hanno sviluppato quelli che ritengono siano i primi algoritmi di rilevamento dei deepfake di sempre, progettati specificamente per essere meno distorti.
I due approcci di apprendimento automatico, uno che rende gli algoritmi consapevoli dei dati demografici e l’altro che li lascia ciechi rispetto ad essi, hanno ridotto le disparità di precisione tra razze e generi, migliorando comunque, in alcuni casi, la precisione complessiva.
IL ricerca È stato presentato alla Conferenza invernale sulle applicazioni della visione artificiale (WACV), tenutasi dal 4 all'8 gennaio, ed è stato in parte sostenuto dalla Darpa (Agenzia per i progetti di ricerca avanzata del Dipartimento della difesa degli Stati Uniti).
Liu, l'autore principale dello studio, ha collaborato con il suo ex studente Xu Hu, Ph.D., che ora è assistente professore di informatica e tecnologia dell'informazione presso l'Università dell'Indiana-Purdue University di Indianapolis, nonché con George Chen, Ph.D., un assistente professore di sistemi informativi alla Carnegie University. Mellon University. Altri contributori includono Yan Guo, uno studente di dottorato presso il Laboratorio di Media Forensics presso l'Università di Liu, e il ricercatore post-dottorato Shan Jia.
Gli strumenti di rilevamento sono spesso meno esaminati rispetto agli strumenti di intelligenza artificiale che stanno esaminando, ma ciò non significa che non debbano essere ritenuti responsabili, afferma Gu, il primo autore dello studio.
“I deepfake sono stati così dirompenti per la società che la comunità di ricerca ha avuto fretta di trovare una soluzione, ma anche se questi algoritmi sono stati creati per una buona ragione, dobbiamo comunque essere consapevoli delle loro conseguenze collaterali”, afferma.
Consapevolezza demografica contro agnosticismo demografico
Studi recenti hanno rilevato disparità significative nei tassi di errore negli algoritmi di rilevamento dei deepfake – una differenza fino al 10,7% in uno studio – tra razze diverse. In particolare, alcuni hanno dimostrato di essere più bravi a indovinare la salute delle persone dalla pelle chiara rispetto a quelle dalla pelle scura.
Ciò può mettere alcuni gruppi a rischio di associare la loro immagine reale come falsa o, cosa forse più dannosa, di associare la loro immagine modificata come reale.
Il problema non sono necessariamente gli algoritmi stessi, ma i dati su cui vengono addestrati. Gli uomini bianchi di mezza età sono spesso sovrarappresentati in questi set di dati di immagini e video, quindi gli algoritmi sono più bravi ad analizzarli da gruppi sottorappresentati, dice Liu, professore della SUNY presso il Dipartimento di Informatica e Ingegneria della SUNY, all'interno del College of Engineering. Ingegneria e scienze applicate.
“Supponiamo che una popolazione abbia 10.000 campioni nel set di dati, mentre l'altra ne abbia solo 100”, aggiunge. “L'algoritmo sacrificherà la precisione nella popolazione più piccola per ridurre gli errori nella popolazione più grande.” “Si riducono quindi gli errori complessivi, ma a scapito di un gruppo più piccolo”.
Mentre altri studi hanno cercato di rendere i database più equilibrati dal punto di vista demografico – un processo che richiede molto tempo – Liu afferma che lo studio del suo team è il primo tentativo di migliorare l’equità degli algoritmi stessi.
Per spiegare il loro metodo, Liu usa l'analogia di un insegnante valutato in base ai punteggi dei test degli studenti.
“Se un insegnante ha 80 studenti che ottengono buoni risultati e 20 studenti che ottengono risultati scarsi, si ritroverà con una media molto buona”, afferma. “Quindi, invece, vogliamo dare una media ponderata agli studenti della regione centrale, costringendoli a concentrarsi maggiormente su tutti piuttosto che sul gruppo dominante”.
In primo luogo, il loro metodo demografico ha alimentato gli algoritmi con set di dati che classificavano il genere delle persone – maschio o femmina – e la loro razza – bianca, nera, asiatica o altra – e li istruivano a ridurre gli errori nei gruppi sottorappresentati.
“Fondamentalmente stiamo dicendo agli algoritmi che ci preoccupiamo della prestazione complessiva, ma vogliamo anche garantire che la prestazione di ciascun gruppo soddisfi determinate soglie, o almeno sia ben al di sotto della prestazione complessiva”, afferma Liu.
Tuttavia, i set di dati non sono generalmente disaggregati per razza e genere. Pertanto, il metodo demografico-agnostico del team classifica i video deepfake non in base ai dati demografici delle persone, ma in base alle caratteristiche del video che non sono immediatamente visibili all'occhio umano.
“Forse un gruppo di video nel set di dati potrebbe corrispondere a un determinato gruppo demografico o magari corrispondere a qualche altra caratteristica del video, ma non abbiamo bisogno di informazioni demografiche per identificarli”, afferma Liu. “In questo modo, non dobbiamo scegliere su quali gruppi concentrarci. È tutto automatizzato in base ai gruppi che compongono la fetta centrale dei dati.”
Migliorare l’equità e l’accuratezza
Il team ha testato i propri metodi utilizzando il popolare set di dati FaceForensic++ e gli algoritmi di rilevamento Xception all'avanguardia. Ciò ha migliorato tutti i parametri di correttezza dell’algoritmo, come il tasso uguale di falsi positivi tra le razze, con il metodo basato sui dati demografici che ha ottenuto le migliori prestazioni di tutti.
Ancora più importante, afferma Liu, i loro metodi hanno effettivamente aumentato la precisione di rilevamento complessiva dell’algoritmo, dal 91,49% al 94,17%.
Tuttavia, quando si utilizza l’algoritmo Xception con set di dati diversi e il set di dati FF+ con algoritmi diversi, i metodi, pur migliorando la maggior parte delle metriche di equità, riducono leggermente la precisione di rilevamento complessiva.
“Può esserci un piccolo compromesso tra prestazioni ed equità, ma possiamo garantire che il degrado delle prestazioni sia limitato”, afferma Liu. “Naturalmente, la soluzione principale al problema dei bias è migliorare la qualità dei set di dati, ma per ora dobbiamo integrare l’equità negli algoritmi stessi”.
/Liberazione generale. Questo materiale dell'organizzazione/degli autori originali può essere di natura cronologica ed è modificato per motivi di chiarezza, stile e lunghezza. Mirage.News non assume posizioni aziendali o partiti e tutte le opinioni, posizioni e conclusioni qui espresse sono esclusivamente quelle degli autori. Visualizzale integralmente qui.
“Pluripremiato specialista televisivo. Appassionato di zombi. Impossibile scrivere con i guantoni da boxe. Pioniere di Bacon.”