Il dominio dei generatori di intelligenza artificiale text-to-image è il nuovo campo di battaglia per le Big del Tech.
Ogni azienda è molto focalizzata sull’Intelligenza Artificiale e tutte mirano a creare un modello generativo in grado di mostrare dettagli straordinari ed evocare immagini affascinanti da prompt di testo relativamente semplici. Dopo DALL-E 2 di OpenAI, Imagen di Google e Make-a-Scene di Meta, anche Nvidia è entrata in gara.
A differenza di altri importanti modelli generativi di text-to-image che eseguono la sintesi delle immagini tramite un processo iterativo di riduzione del rumore, l’eDiff-I di Nvidia utilizza un insieme di denoiser avanzati specializzati nel denoising di diversi intervalli del processo generativo.
Gli sviluppatori dietro eDiff-I descrivono il modello come “una nuova generazione di strumenti di creazione di contenuti di intelligenza artificiale generativa che offre una sintesi da testo a immagine senza precedenti con trasferimento istantaneo dello stile e capacità intuitive”.
L’esclusivo algoritmo di sintesi delle immagini di Nvidia.
In un documento pubblicato di recente, gli autori affermano che gli attuali algoritmi di sintesi delle immagini fanno molto affidamento sul prompt del testo. Il condizionamento del testo è quasi del tutto ignorato, deviando il compito di sintesi verso la produzione di output di alta fedeltà visiva. Ciò ha portato alla realizzazione che potrebbero esserci modi migliori per rappresentare queste modalità uniche del processo di generazione. Nvidia ha sviluppato un nuovo modo per addestrare i modelli, che sono specializzati per diverse fasi di sintesi.
La pipeline di sintesi delle immagini di eDiff-I comprende una combinazione di tre modelli di diffusione, un modello di base in grado di sintetizzare campioni con risoluzione 64 x 64 e due stack di super-risoluzione che possono ingrandire le immagini progressivamente a 256 x 256 e 1024 x 1024 rispettivamente. Questi modelli elaborano una didascalia di input calcolando prima l’incorporazione e l’inclusione di testo T5 XXL. L’architettura del modello per eDiff-I utilizza anche le codifiche delle immagini CLIP calcolate da un’immagine di riferimento. Queste incorporazioni di immagini servono come un vettore in stile, ulteriormente inserito in modelli di diffusione a cascata per generare progressivamente immagini di risoluzione 1024 x 1024. Questi aspetti unici consentono a e Diff-I di avere un livello di controllo molto maggiore sul contenuto generato. Il modello ha inoltre due funzionalità aggiuntive: lo style transfer, e “dipingere con le parole“, un’applicazione in cui l’utente può creare immagini disegnando mappe di segmentazione su una tela virtuale.
Un nuovo processo di Denoising
Il modello eDiff-I utilizza un metodo di denoising unico in cui il modello addestra un insieme di denoiser specializzati per i diversi intervalli del processo generativo. Nvidia si riferisce a questa nuova rete di denoising come “expert denoiser” e afferma che questo processo migliora drasticamente la qualità di generazione delle immagini. Scott Stephenson, CEO di Deepgram, afferma che i nuovi metodi presentati nella pipeline di formazione di eDiff-I potrebbero essere utilizzati per le nuove versioni di DALL-E. La tecnologia aumenta la complessità dell’addestramento del modello, ma non aumenta significativamente la complessità computazionale nell’uso in produzione, afferma Stephenson. “Essere in grado di segmentare e definire l’aspetto di ciascun componente dell’immagine risultante potrebbe accelerare il processo di creazione in modo significativo”, afferma.
Lo stato della Generative AI
Secondo Nvidia eDiff-I ha superato concorrenti come DALL-E 2, Make-a-Scene, GLIDE e Stable Diffusion. e nel loro studio hanno portato ad esempio queste immagini per dimostrare la loro tesi.
L’editing delle immagini basato sull’intelligenza artificiale ha profonde implicazioni per l’autenticità delle immagini e queste tecnologie possono anche essere utilizzate per la manipolazione avanzata delle foto per scopi dannosi o per creare contenuti ingannevoli o illegali. Nvidia afferma che tali sfide possono essere affrontate convalidando automaticamente le immagini autentiche e rilevando contenuti manipolati o falsi. I set di dati di addestramento degli attuali modelli generativi da testo a immagine su larga scala sono per lo più non filtrati e possono includere distorsioni catturate dal modello e riflesse nei dati generati. È fondamentale essere consapevoli di tali distorsioni nei dati sottostanti e contrastarle raccogliendo attivamente dati più rappresentativi. I modelli di immagini AI affrontano le stesse sfide etiche di altri campi di intelligenza artificiale, afferma Stephenson. “I grandi set di dati di immagini etichettate possono contenere materiale protetto da copyright ed è spesso impossibile spiegare come (o se) il materiale protetto da copyright sia stato incorporato nel prodotto finale”, afferma. Secondo Stephenson, la velocità di addestramento del modello è un’altra sfida che i modelli di intelligenza artificiale generativa devono ancora affrontare, soprattutto durante la loro fase di sviluppo. “Se un modello impiega tra i 3 e i 60 secondi per generare un’immagine su alcune delle GPU di fascia più alta sul mercato, le distribuzioni su scala di produzione richiederanno un aumento significativo della fornitura di GPU o capiranno come generare immagini in una frazione dell’epoca” dice.
Il futuro
I modelli odierni da testo a immagine eseguono straordinariamente bene l’arte astratta, ma mancano dell’architettura necessaria per comprendere la realtà. Le architetture di nuova generazione text-to-image, come eDiff-I, risolveranno molti degli attuali problemi di qualità. “Possiamo ancora aspettarci errori di composizione, ma la qualità sarà simile a quella dei GAN specializzati per quanto riguarda la generazione dei volti”, ha affermato il CEO di reVolt Kyran McDonnell. I modelli generativi addestrati sullo stile e sul general “vibe” di un brand potrebbero generare un’infinita varietà di risorse creative. “C’è molto spazio per le applicazioni aziendali e l’IA generativa non ha ancora avuto il suo momento mainstream”.