Febbraio 24, 2025

Conca Ternana Oggi

Ultime notizie e rapporti economici sull'Italia.

Il metodo basato sull’intelligenza artificiale identifica azioni specifiche nei video

Il metodo basato sull’intelligenza artificiale identifica azioni specifiche nei video

Internet è pieno di video educativi che possono insegnare agli spettatori curiosi tutto, dalla preparazione del pancake perfetto all’esecuzione della manovra salvavita di Heimlich.

Ma determinare quando e dove si verifica un’azione specifica in un video lungo può essere scoraggiante. Per semplificare il processo, gli scienziati stanno cercando di insegnare ai computer a svolgere questo compito. Idealmente, l’utente può semplicemente descrivere l’azione che sta cercando e il modello AI si dirigerà verso la sua posizione nel video.

Tuttavia, insegnare ai modelli di machine learning a fare ciò richiede in genere una grande quantità di dati video costosi che sono stati etichettati manualmente con molta attenzione.

Un approccio nuovo e più efficiente da parte dei ricercatori del MIT, del Watson Artificial Intelligence Laboratory del MIT e dell’IBM è quello di addestrare un modello per eseguire questo compito, noto come grounding spazio-temporale, utilizzando solo video e testo generati automaticamente.

I ricercatori insegnano a un modello a comprendere un video senza etichetta in due modi distinti: guardando i piccoli dettagli per capire dove si trovano le cose (informazioni spaziali) e guardando il quadro più ampio per capire quando si è verificata l’azione (informazioni temporali).

Rispetto ad altri metodi di intelligenza artificiale, il loro metodo identifica in modo più accurato le azioni nei video lunghi con più attività. È interessante notare che hanno scoperto che l’addestramento simultaneo sulle informazioni spaziali e temporali rende il modello più efficace nell’identificarle entrambe separatamente.

Oltre a semplificare i processi di apprendimento online e di formazione virtuale, questa tecnologia può essere utile anche in ambito sanitario, individuando rapidamente i momenti chiave nei video delle procedure diagnostiche, ad esempio.

“Abbiamo smantellato la sfida di provare a codificare le informazioni spaziali e temporali simultaneamente, e invece abbiamo pensato a due esperti che lavoravano da soli, il che si è rivelato un modo molto più semplice per codificare le informazioni. Il nostro modello, che combina questi due”, afferma Brian Chen, autore principale. Per il libro “Separate Branches Lead to Better Performance”. Articolo su questa tecnica.

READ  La figlia di Roxy Jacinco, Pixie, 11 anni, sta per andare in pensione mentre chiude un'altra attività

Chen, un laureato della Columbia del 2023 che ha condotto questa ricerca mentre era studente in visita presso il MIT-IBM Watson AI Lab, è affiancato nell’articolo da James Glass, ricercatore senior e membro del MIT-IBM Watson AI Lab, e capo del gruppo Spoken Language Systems presso il Watson AI Lab del MIT-IBM Computer Science and Artificial Intelligence (CSAIL); Hilde Kuehne, membro del Watson Artificial Intelligence Laboratory del MIT e dell’IBM, affiliata anche all’Università Goethe di Francoforte; e altri al MIT, alla Goethe University, al MIT-IBM Watson AI Lab e alla Quality Match GmbH. La ricerca sarà presentata alla conferenza Computer Vision and Pattern Recognition.

Apprendimento globale e locale

I ricercatori in genere insegnano ai modelli come eseguire il radicamento spazio-temporale utilizzando video in cui gli esseri umani hanno dimostrato i tempi di inizio e fine di determinati compiti.

Non solo generare questi dati è costoso, ma può essere difficile per gli esseri umani sapere esattamente cosa classificare. Se l’azione è “cucinare una frittella”, l’azione inizia quando il cuoco inizia a mescolare la pastella o quando la versa nella padella?

“Questa volta il compito potrebbe riguardare la cucina, ma la prossima volta potrebbe riguardare la riparazione di un’auto. Ci sono molte aree diverse su cui le persone possono commentare. Ma se possiamo imparare tutto senza etichette, è una soluzione più generale.” dice Chen.

Nel loro approccio, i ricercatori utilizzano video didattici senza titolo e trascrizioni di testo di accompagnamento da un sito Web come YouTube come dati di formazione. Questi non necessitano di alcuna preparazione speciale.

Hanno diviso il processo di formazione in due parti. Innanzitutto, insegnano a un modello di apprendimento automatico a guardare l’intero video per capire quali azioni si verificano in determinati momenti. Queste informazioni di alto livello sono chiamate rappresentazione globale.

READ  3 modi per eliminare la confusione digitale e aumentare la fidelizzazione dei clienti

Per quanto riguarda la seconda parte, insegnano al modello come concentrarsi su un’area specifica nelle parti del video in cui si svolge l’azione. In una grande cucina, ad esempio, il modello potrebbe doversi concentrare solo sul cucchiaio di legno che lo chef usa per mescolare l’impasto dei pancake, piuttosto che sull’intera tavola. Questa informazione a grana fine è chiamata rappresentazione locale.

I ricercatori hanno incorporato una componente aggiuntiva nel loro quadro per mitigare i disallineamenti che si verificano tra narrativa e video. Forse lo chef parla prima di cucinare la torta e poi di eseguire la procedura.

Per sviluppare una soluzione più realistica, i ricercatori si sono concentrati su video non tagliati della durata di diversi minuti. Al contrario, la maggior parte delle tecniche di intelligenza artificiale si allenano utilizzando clip di pochi secondi che qualcuno ha tagliato per mostrare una sola azione.

Nuova norma

Ma quando hanno valutato il loro approccio, i ricercatori non sono riusciti a trovare un punto di riferimento efficace per testare il modello su video lunghi e non tagliati, quindi ne hanno creato uno.

Per costruire il loro set di dati di riferimento, i ricercatori hanno creato una nuova tecnica di annotazione che funziona bene per identificare azioni in più fasi. Hanno chiesto agli utenti di contrassegnare l’intersezione degli oggetti, come il punto in cui il bordo di un coltello taglia un pomodoro, invece di disegnare una scatola attorno agli oggetti importanti.

“Questo è definito più chiaramente e accelera il processo di annotazione, riducendo il lavoro umano e i costi”, afferma Chen.

Inoltre, il fatto che più persone annotino lo stesso video può catturare meglio le azioni che si verificano nel tempo, come il flusso del latte che viene versato. Non tutte le annotazioni localizzeranno esattamente lo stesso punto nel flusso del fluido.

READ  Nintendo Switch 2 riporta i primi dettagli trapelati sulla prossima console Nintendo

Quando hanno utilizzato questo criterio per testare il loro approccio, i ricercatori hanno scoperto che era più accurato nell’identificare le azioni rispetto ad altre tecniche di intelligenza artificiale.

Il loro metodo era anche migliore nel concentrarsi sulle interazioni uomo-oggetto. Ad esempio, se l’azione è “servire una torta”, molte altre tecniche potrebbero concentrarsi solo su oggetti chiave, come una pila di torte sul tavolo. Il loro metodo si concentra invece sul momento reale in cui lo chef capovolge il pancake nel piatto.

Successivamente, i ricercatori intendono migliorare il loro approccio in modo che i modelli possano rilevare automaticamente il disallineamento del testo e della narrativa, spostando l’attenzione da un metodo all’altro. Vogliono anche estendere il loro quadro per includere dati audio, poiché di solito ci sono forti correlazioni tra le azioni e i suoni prodotti dagli oggetti.

Questa ricerca è in parte finanziata dal MIT-IBM Watson AI Lab.