Sam Gregory, direttore dell’ong WITNESS che da anni usa video per documentare violazioni dei diritti umani nel mondo, ha fatto un’analisi a caldo di come una tecnologia come Sora possa avere un impatto sulla fiducia in ciò che vediamo. Si tratta del nuovo modello text-to-video di OpenAI, in grado di produrre video sintetici di grande realismo da istruzioni testuali. Anche se non ancora aperto al pubblico, OpenAI ha diffuso vari esempi di video così prodotti (li vedete qua).
Fino ad oggi, spiega Gregory in vari post sui social media, i punti di vista multipli sono stati un buon punto di partenza per valutare se un evento è realmente accaduto così come il contesto in cui è avvenuto. Inoltre, in quasi tutti gli episodi di violenza da parte dello Stato o della polizia viene contestato cosa è successo prima/dopo l’accensione di una telecamera che magari riprende un’azione o presunta reazione.
Oppure, una ripresa traballante, fatta da qualcuno con una videocamera a mano, è un “potente indicatore di credibilità emotiva”, di autenticità.
Ma ora ci troviamo di fronte a video sintetici realistici che possono adottare diversi stili, anche quello amatoriale. O ad angoli di ripresa multipli, la possibilità di creare contemporaneamente più punti di vista e angolazioni della telecamera sulla stessa scena. E la possibilità di “aggiungere video (essenzialmente out-paint per i video) avanti e indietro nel tempo da un fotogramma esistente”. [L’outpainting è una funzione, presente in generatori di immagine come DALL-E, di estendere un’immagine oltre i suoi confini originali].
“L’abilità più interessante di Sora – commenta anche il ricercatore Erik Salvaggio – guardando alle specifiche tecniche, è che può rappresentare scenari multipli che si *concludono* con una data immagine. Credo che questo sarà oggetto di discussione in alcune conferenze sulla disinformazione” (…) Supponiamo di avere un video sui social che inizia dal momento in cui la polizia inizia a usare la forza in modo ingiustificato contro una persona in strada”.
Le specifiche tecniche dicono “che si possono creare senza soluzione di continuità fino a 46 secondi di video sintetico che termina nel punto in cui inizia il video della violenza. Ciò che accade in quei 46 secondi è guidato dal tuo prompt, che si tratti di un adolescente che lancia una bomba a mano contro un poliziotto sorridente o di un uomo gentile che offre fiori alla polizia arrabbiata”.
In un certo senso, commenta ancora Gregory, “i video realistici di eventi fittizi si avvicinano alle attuali modalità di condivisione di video e immagini shallowfake (ad esempio, video mal contestualizzati o leggermente modificati trasposti da una data o da un’ora a un altro luogo), in cui i dettagli esatti non contano, purché siano sufficientemente convincenti rispetto alle ipotesi”.
Uno shallowfake, come ho raccontato più volte, è un video reale che è stato manipolato con semplici strumenti di editing a fini di propaganda. Si chiama così in contrapposizione a deepfake perché non usa l’intelligenza artificiale.
Ma torniamo a Gregory. Il problema, dice, è che nei video realistici di eventi che non sono mai accaduti (come quelli prodotti da Sora e non riadattati o decontestualizzati da video reali), “mancherebbe la possibilità di cercare il riferimento – cioè quello che facciamo ora con la ricerca shallowfake, quando usiamo la ricerca inversa di un’immagine per trovare l’originale, o la funzione About this Image di Google”.
“Con l’espansione del text-to-video e del video-to-video – conclude Gregory – dobbiamo capire come rafforzare la fiducia e garantire la trasparenza dei media, approfondire le capacità di rilevamento, restringere gli usi inaccettabili e pretendere la responsabilizzazione di tutta la filiera dell’AI”.
Vorrei allacciarmi a queste considerazioni per aggiungere alcune riflessioni. Forse dovremmo rovesciare il paradigma, e invece di preoccuparci solo di quello che, nel mondo informativo, potrebbe essere sintetico/ falso/ decontestualizzato, pensando a come individuarlo e dimostrarlo (etichettarlo prima, sbugiardarlo poi), concentrarci semmai su ciò che è o vorrebbe essere autentico/ verificato/ contestualizzato.
Perché, ammesso e non concesso che riusciremo, in un modo o in un altro, a bollare e bollinare come AI gran parte dei contenuti sintetici che circoleranno (ma al momento sono quasi tutti concordi nel dire che almeno una parte sfuggirà a questa capacità di individuazione, vedi il dibattito tecnico sui watermark di cui ho scritto qua), il crollo di fiducia nell’informazione rischia di risucchiare tutto il resto, come l’acqua di un lavandino stappato, inclusi i video, le foto, gli audio, le dichiarazioni, le notizie, le informazioni autentiche.
Allora, se c’è questo rischio, bisogna investire nel verificare e contestualizzare tutto quello che viene immesso in circolo dai media o da chiunque voglia fare informazione. Ricostruire e mettere a disposizione tutta la filiera non solo dell’AI, ma dei contenuti autentici. Permettere a tutti di risalire la corrente del flusso informativo a ritroso. I lettori come salmoni, esatto.
Ogni artefatto informativo per quanto minuscolo non dovrebbe essere una monade slegata dal resto, ma dovrebbe avere una serie di connessioni che permettano di capire da dove arriva, che percorso ha fatto, assieme a chi o cosa altro stava, come è mutato, come è stato tagliato o modificato. E i lettori a quel punto dovrebbero abituarsi al fatto che se vedono 4 foto buttate così, de botto, senza senso, in un post social così come su una pagina cartacea di un giornale, senza tutto quel contorno di informazioni che possono decidere o meno di andare a testare e verificare, ecco allora non vale la pena manco di fermarsi a guardarle.
Certo, tutto ciò implica, da un lato, uno sforzo aggiuntivo da parte di chi fa informazione; dall’altro, di abituarsi a essere molto più trasparenti sulle modalità con cui si lavora, e questo è qualcosa che suscita sempre molta resistenza. Ma credo che alla fine sarebbe un vantaggio per tutti.
Così, my 2 cents, come si dice sull’internet.
* da Guerre di Rete
- © Riproduzione possibile DIETRO ESPLICITO CONSENSO della REDAZIONE di CONTROPIANO
Ultima modifica: stampa
m
il senso sta tutto in questa frase:
“pretendere la responsabilizzazione di tutta la filiera dell’AI”
Così come c’è la tracciabilità alimentare, la tracciabilità dei preziosi, la tracciabilità del ciclo vita di un elettordomestico, un’automobili, ecc, così deve diventare qualsiasi contenuto AI.
Ci vuole un bollino sovrimpresso all’immagine, ci vuole la firma del maledetto artificio falso creato dal nulla da una AI in mano a persone senza etica.
Creare contenuti falsi ma credibilissimi, è senza etica.