ByteDance, la società madre di TikTok, ha recentemente presentato OmniHuman-1, un avanzato sistema di intelligenza artificiale capace di generare video estremamente realistici a partire da una singola immagine e un file audio. Questa tecnologia rappresenta un significativo passo avanti nel campo dei deepfake, e supera molte delle limitazioni precedenti.
Le capacità di OmniHuman-1
A differenza di molte applicazioni di deepfake esistenti, che spesso presentano imperfezioni evidenti, OmniHuman-1 riesce a creare video che superano la cosiddetta “uncanny valley”, offrendo risultati di sorprendente realismo. Ad esempio, il sistema è in grado di generare una performance musicale fittizia di Taylor Swift o una conferenza TED mai avvenuta, utilizzando solo un’immagine di riferimento e un audio corrispondente.

Cos’è la uncanny valley
L’uncanny valley (letteralmente “valle perturbante”) è un concetto della robotica e della psicologia che descrive la sensazione di disagio o inquietudine che le persone provano quando si trovano di fronte a rappresentazioni umane molto realistiche, ma non perfette. L’idea è stata introdotta nel 1970 dal ricercatore giapponese Masahiro Mori, il quale ha osservato che, mentre l’aspetto di un robot o di un’immagine generata digitalmente diventa sempre più realistico, la nostra empatia nei suoi confronti cresce. Tuttavia, quando il realismo si avvicina molto all’essere umano, ma presenta ancora delle imperfezioni (come espressioni facciali rigide, movimenti poco naturali o sguardi vuoti), l’effetto diventa inquietante anziché affascinante. Questa “valle” tra il familiare e il perturbante è particolarmente evidente nei deepfake, nei videogiochi, nella CGI nei film e nei robot umanoidi. Se un volto digitale è chiaramente finto, il nostro cervello lo accetta come tale; ma se è quasi realistico, le sue imperfezioni ci mettono a disagio perché rompono le aspettative di naturalezza.
Come funziona OmniHuman-1
Secondo i ricercatori di ByteDance, OmniHuman-1 necessita solo di un’immagine di riferimento e di un file audio, come un discorso o una traccia vocale, per produrre un video di qualsiasi durata. Il sistema consente di regolare il rapporto d’aspetto del video e la proporzione del corpo del soggetto, permettendo di mostrare diverse porzioni del corpo nella clip generata. Addestrato su 19.000 ore di contenuti video provenienti da fonti non specificate, OmniHuman-1 può anche modificare video esistenti, alterando persino i movimenti degli arti di una persona. Tuttavia, il sistema non è privo di difetti: immagini di riferimento di bassa qualità possono compromettere il risultato finale, e il modello può incontrare difficoltà con determinate pose o movimenti complessi.
Le preoccupazioni
L’introduzione di OmniHuman-1 solleva preoccupazioni significative riguardo alle potenziali implicazioni etiche e di sicurezza. Negli ultimi anni, i deepfake sono stati utilizzati per diffondere disinformazione politica e per commettere frodi finanziarie. Ad esempio, nel 2024, durante le elezioni a Taiwan, un gruppo affiliato al Partito Comunista Cinese ha diffuso un audio generato dall’IA in cui un politico esprimeva supporto per un candidato pro-Cina. Inoltre, i deepfake sono stati impiegati per truffare consumatori, facendo apparire celebrità che promuovono opportunità di investimento fraudolente. Secondo Deloitte, i contenuti generati dall’IA hanno contribuito a perdite per frode superiori a 12 miliardi di dollari nel 2023, con una proiezione di raggiungere i 40 miliardi di dollari negli Stati Uniti entro il 2027. Nonostante l’assenza di una legge federale negli Stati Uniti che criminalizzi i deepfake, oltre 10 stati hanno emanato leggi contro l’uso improprio dell’IA per impersonificazioni.
La difficoltà nel rilevare i deepfake rende la situazione ancora più complessa. Sebbene alcune piattaforme social e motori di ricerca abbiano adottato misure per limitare la loro diffusione, la quantità di contenuti deepfake online continua a crescere rapidamente. Un sondaggio del maggio 2024 condotto dalla società di verifica dell’identità Jumio ha rilevato che il 60% delle persone ha incontrato un deepfake nell’ultimo anno, e il 72% degli intervistati ha espresso preoccupazione per la possibilità di essere ingannato quotidianamente da tali contenuti.
Leave a Reply