La Al Generative Art è un tipo di arte, nella maggior parte dei casi visiva, che si basa sulla cooperazione tra un essere umano e un sistema autonomo. Per “sistema autonomo” si intende un software, algoritmo o modello di Intelligenza Artificiale in grado di eseguire operazioni complesse senza bisogno dell’intervento del programmatore.
Dai bizzarri accostamenti di immagini creati da Dall-E Mini al mercato degli NFT, le immagini generate da algoritmi di IA stanno entrando sempre di più nell’immaginario comune. Infatti, due progetti importanti in merito all’argomento che meritano di essere analizzati sono: Midjourney e DALL·E 2.
Ovviamente, la novità è arrivata anche su Twitter. A commentarla, fra gli altri, è Charles Hoskinson, il quale ha scritto:
AI generated art. I was able to make this picture in just a few minutes. I can't imagine how remarkable this technology will be in 3 years pic.twitter.com/jOToCZj7ki
— Charles Hoskinson (@IOHK_Charles) February 1, 2023
“Arte generata dall’intelligenza artificiale. Sono riuscito a fare questa foto in pochi minuti. Non riesco a immaginare quanto sarà straordinaria questa tecnologia tra 3 anni.”
Summary
Al Generative Art: primi esperimenti e caratteristiche
Dopo aver compreso cos’è la Generative Art, è importante sottolineare un suo principio fondante: la casualità (randomness). La quale è una proprietà fondamentale della Generative Art.
Infatti, a seconda del tipo di software, il sistema autonomo è in grado di elaborare risultati sempre diversi e unici ogni volta che si esegue il comando di generazione, o può restituire un numero variabile di risultati in risposta all’input dell’utente.
I primi esperimenti di Generative Art risalgono agli anni Sessanta con gli esperimenti di Harold Cohen e del suo programma AARON. Cohen utilizzò per primo software autonomi per generare opere d’arte astratte e ispirate alle serigrafie della Pop Art. Le opere di Cohen sono oggi esposte alla Tate Gallery di Londra.
Un altro attributo della Generative Art, che però rappresenta sempre meno una prerogativa, è la ripetizione di pattern o elementi astratti forniti dal programmatore e implementati all’interno del codice del software.
Inoltre, lo sviluppo di reti neurali sempre più complesse che operano sull’associazione testo-immagine ha permesso lo sviluppo di modelli generativi in grado di creare immagini sempre più realistiche e accurate. L’esempio più noto di questa categoria di Generative Art è Dall-E.
Dall-E è una rete neurale multimodale basata sul modello di deep learning GPT-3 di OpenAI, la stessa casa che recentemente ha sviluppato anche ChatGPT, il chatbot lanciato nel novembre 2022 e ottimizzato con tecniche di apprendimento “supervised” e di rinforzo.
Tornando a Dall-E, vediamo che questo sistema è capace di generare immagini a partire da una descrizione testuale, chiamata “prompt”, sulla base di un dataset di coppie testo-immagine.
La prima versione di Dall-E, presentata al pubblico a gennaio del 2021 e rimasta prerogativa di un numero ristretto di professionisti del settore, ha rappresentato una vera e propria rivoluzione per quanto riguarda questo tipo di modelli generativi, superando le innovazioni dello stesso GPT-3.
Di rilevanza è anche il fatto che l’accuratezza dei risultati elaborati da Dall-E si è rivelata il campo di applicazione perfetto per un’altra soluzione di OpenAI: CLIP (Contrastive Language–Image Pre-training).
Una rete neurale di classificazione e ranking di immagini addestrata sulla base di associazioni testo-immagine, come le didascalie presenti su Internet. Grazie all’intervento di CLIP, che riduce a 32 il numero di risultati proposti all’utente per ogni prompt, Dall-E si è rivelata in grado di restituire immagini soddisfacenti nella maggior parte dei casi.
Midjourney: design, infrastrutture umane e intelligenza artificiale
Come anticipato, Midjourney è un importante progetto facente parte del nascente concetto di Al Generative Art. Nello specifico, Midjourney è un laboratorio di ricerca indipendente che esplora nuovi mezzi di pensiero ed espande i poteri immaginativi della specie umana.
Usarlo è semplice: per prima cosa va creato un account su Discord, una piattaforma che ospita varie community dove poter chattare, in cui Midjourney è una di queste. All’interno dell’applicazione si trovano le varie chatrooms a cui si può partecipare attivamente o meno alle discussioni.
Importante è sottolineare che per provare ad utilizzare l’Intelligenza Artificiale per la prima volta si deve andare nei canali “newbies”, in cui si hanno a disposizione 25 render gratuiti.
Un render corrisponde alla generazione di quattro varianti diverse generate dallo stesso input testuale.
Quindi, i 25 render si riferiscono a 25 lavori di elaborazione eseguiti dal bot di Midjourney. Di conseguenza, per generare l’immagine occorre interagire con il bot di Midjourney tramite un messaggio di testo definito “prompt”, nel quale saranno presenti le parole chiave a descrizione dell’immagine che l’utente ha in mente.
Si possono aggiungere quanti più dettagli si vogliono, l’importante è dividere le parole chiave con una virgola. Una volta finito il render, il computer restituisce quattro immagini differenti in base alle descrizioni tra cui scegliere.
Inoltre, una volta che il programma ha terminato il render, si possono comunicare le proprie preferenze in base alle immagini e, volendo, far generare nuovamente altre quattro versioni.
DALL·E 2: il nuovo sistema di IA per le opere d’arte
Oltre Midjourney, anche DALL·E 2 è il nuovo sistema di Intelligenza Artificiale in grado di creare immagini e opere d’arte realistiche da una descrizione in linguaggio naturale. Non solo, DALL-E 2 può anche combinare concetti, attributi e stili.
Il punto di forza del nuovo sistema di IA sta anche nel poter espandere le immagini oltre ciò che è nella tela originale, creando nuove composizioni espansive. Inoltre, può apportare modifiche realistiche alle immagini esistenti da una didascalia in linguaggio naturale e può aggiungere e rimuovere elementi tenendo conto di ombre, riflessi e trame.
Tra le capacità di DALL-E 2 c’è anche quella di prendere un’immagine e crearne diverse varianti ispirate all’originale. DALL·E 2 ha, infatti, imparato la relazione tra le immagini e il testo usato per descriverle.
Utilizza un processo chiamato “diffusione”, che inizia con uno schema di punti casuali e altera gradualmente tale schema verso un’immagine quando riconosce aspetti specifici di quell’immagine.
Dunque, dopo che nel gennaio 2021 OpenAI ha introdotto DALL·E, ora il sistema più recente, DALL·E 2, genera immagini più realistiche e accurate con una risoluzione quattro volte maggiore.
Infine, DALL·E 2 è nato come progetto di ricerca ed è ora disponibile in versione beta. Le mitigazioni di sicurezza che il sistema ha sviluppato e che continua a migliorare includono: limitazione delle capacità del sistema di generare immagini violente, di odio o per adulti e una distribuzione graduale basata sull’apprendimento.