venerdì, Novembre 15, 2024

Se i generatori di immagini AI sono così intelligenti, perché trovi difficile digitare e contare?

Strumenti di intelligenza artificiale generativa come Midjourney, Stable Diffusion e DALL-E 2 ci hanno lasciato senza fiato con la loro capacità di produrre immagini straordinarie in tempo reale. in pochi secondi.

Nonostante i loro risultati, tuttavia, rimane una disparità sconcertante tra ciò che i generatori di immagini AI possono produrre e ciò che possiamo. Ad esempio, questi strumenti spesso non forniscono risultati soddisfacenti per attività apparentemente semplici come contare oggetti e produrre testi accurati.

Se l’IA generativa ha raggiunto vette senza precedenti nell’espressione creativa, perché fatica con compiti che anche uno studente delle scuole elementari può completare?

Esplorare le cause sottostanti aiuta a far luce sulla complessa natura numerica dell’IA e sulle sfumature delle sue capacità.

Restrizioni AI sulla digitazione

Gli esseri umani possono riconoscere facilmente i simboli di testo (come lettere, numeri, caratteri) scritti in caratteri diversi e diversi. Possiamo anche produrre testo in contesti diversi e capire come il contesto può cambiare significato.

Gli attuali generatori di immagini AI mancano di questa comprensione intrinseca. Non hanno una reale comprensione di cosa significhino i simboli di testo. Questi generatori sono costruiti su reti neurali artificiali pratica su Enormi quantità di dati immagine, dai quali “imparano” connessioni e fanno previsioni.

I gruppi di forme nelle immagini di addestramento sono associati a entità diverse. Ad esempio, due linee rivolte verso l’interno che si incontrano potrebbero rappresentare la punta di una matita o il tetto di una casa.

Ma quando si tratta di testo e quantità, le correlazioni devono essere incredibilmente accurate, poiché si notano anche piccole imperfezioni. Il nostro cervello può tollerare lievi deviazioni nella punta di una matita o di un cappuccio, ma non tanto quando si tratta di come scriviamo una parola o del numero di dita di una mano.

READ  Il programma esteso di autoriparazione di Apple copre iPhone 14 e i dispositivi MacBook più recenti


Per saperne di più: sia gli umani che l’intelligenza artificiale hanno allucinazioni, ma non allo stesso modo


Per quanto riguarda i modelli di testo in immagine, le icone di testo sono solo combinazioni di linee e forme. Poiché il testo è disponibile in così tanti stili diversi, e poiché lettere e numeri sono usati in arrangiamenti apparentemente infiniti, il modello spesso non impara a riprodurre il testo in modo efficace.

Un’immagine generata dall’intelligenza artificiale prodotta in risposta all’istantaneo “logo KFC”.
Immagina l’intelligenza artificiale

La ragione principale di ciò sono i dati di addestramento insufficienti. I generatori di immagini AI sono esigenti Più dati sull’allenamento Rappresentare accuratamente testo e quantità rispetto ad altre attività.

La tragedia delle mani dell’intelligenza artificiale

I problemi sorgono anche quando si ha a che fare con oggetti più piccoli che richiedono dettagli complessi, come le mani.

Sono state prodotte due immagini generate dall’intelligenza artificiale in risposta al rapido messaggio “Ragazza con dieci dita, realistica”.
AI di Shutterstock

Nelle immagini di allenamento, le mani sono spesso piccole, reggono oggetti o sono parzialmente oscurate da altri oggetti. Diventa difficile per l’IA associare il termine “mano” a una rappresentazione accurata della mano umana con cinque dita.

Così, le mani generate dall’intelligenza artificiale Spesso sembra distortoHai dita extra o meno, o le tue mani sono parzialmente coperte da cose come maniche o borse.

Vediamo un problema simile quando si tratta di quantità. I modelli di intelligenza artificiale mancano di una chiara comprensione delle quantità, come il concetto astratto di “quattro”.

Pertanto, il generatore di immagini potrebbe rispondere all’affermazione “quattro mele” facendo affidamento sull’apprendimento dalla miriade di immagini che includono grandi quantità di mele e restituendo un output con la quantità errata.

In altre parole, l’enorme varietà di associazioni all’interno dei dati di addestramento influisce sull’accuratezza delle quantità nell’output.

Tre immagini generate dall’intelligenza artificiale sono state prodotte in risposta a “5 lattine di soda sul tavolo”.
AI di Shutterstock

L’intelligenza artificiale sarà in grado di scrivere e contare?

È importante ricordare che la conversione del testo in immagine e la conversione del testo in video è un concetto relativamente nuovo nell’IA. Le attuali piattaforme generative sono versioni “a bassa fedeltà” di ciò che possiamo aspettarci in futuro.

Con i progressi compiuti nei processi di formazione e nella tecnologia IA, i futuri generatori di immagini IA saranno probabilmente maggiormente in grado di produrre visualizzazioni accurate.

Va inoltre notato che la maggior parte delle piattaforme di intelligenza artificiale accessibili al pubblico non offre il massimo livello di capacità. La generazione di script e volumi precisi richiede reti ottimizzate e su misura, quindi è probabile che gli abbonamenti a pagamento a piattaforme più avanzate producano risultati migliori.

Ultime notizie
Notizie correlate