OpenAI ha annunciato l’introduzione della generazione di immagini nativa in GPT‑4o, il suo modello multimodale più avanzato. A differenza delle soluzioni precedenti, questa integrazione nasce direttamente all’interno dell’architettura del modello, rendendo l’interazione visiva più precisa, potente e contestuale.
Immagini utili, non solo belle
La generazione di immagini con GPT‑4o va oltre l’estetica. L’obiettivo è rendere questo strumento utile nella comunicazione visiva quotidiana, in contesti come diagrammi, loghi, infografiche, menu, inviti e immagini educative. Il modello eccelle anche nel rendering del testo, rispondendo alla necessità di unire linguaggio e immagini in modo fluido e coerente.

Precisione, fotorealismo e contesto
Grazie a un addestramento su grandi volumi di testo e immagini, GPT‑4o può produrre output fotorealistici che seguono indicazioni dettagliate, mantengono la coerenza tra più iterazioni e comprendono il contesto della conversazione. Le immagini possono contenere fino a 20 oggetti distinti con relazioni complesse, rendendolo adatto anche a progetti articolati come videogiochi, poster o presentazioni tecniche.

Esempi creativi: dal fumetto alla lavagna
Tra gli esempi mostrati da OpenAI ci sono illustrazioni che combinano umorismo e intelligenza simbolica, esperimenti scientifici rappresentati su taccuini realistici, carte dei menu eleganti con illustrazioni in stile classico e scene fotografiche surreali ma dettagliate, come un cavallo che galoppa sull’oceano o un astronauta che dipinge galassie nello spazio.
Integrazione contestuale e modifica iterativa
Con la generazione nativa, è possibile modificare le immagini in più turni di conversazione, mantenendo coerenza tra versioni diverse. GPT‑4o può anche analizzare immagini caricate e usarle come base per nuove creazioni, integrandole con il testo e con le richieste specifiche.
Limiti ancora presenti
Nonostante i progressi, OpenAI segnala alcuni limiti: tagli troppo stretti, difficoltà con lingue non latine, errori nei testi piccoli o densi e precisone limitata nelle modifiche localizzate. Questi aspetti saranno oggetto di miglioramento nei prossimi aggiornamenti.
Sicurezza e tracciabilità
Tutte le immagini generate sono accompagnate da metadati C2PA per garantire trasparenza. I contenuti generati vengono controllati da un sistema interno che sfrutta ragionamento LLM per il rispetto delle policy, con blocchi attivi per contenuti inappropriati, deepfake sessuali e violenza grafica.
Accesso disponibile da oggi
La generazione di immagini è attiva da oggi in ChatGPT per utenti Free, Plus, Pro e Team, ed è in arrivo per i piani Enterprise ed Edu. Sarà presto accessibile anche tramite API. Chi preferisce DALL·E potrà comunque continuare a usarlo attraverso una GPT dedicata.
Lascia un commento