OpenAI ha annunciato OpenAI o3-mini, un nuovo modello ottimizzato per il ragionamento, con un focus particolare su scienza, matematica e programmazione. Questo modello rappresenta un’evoluzione di OpenAI o1-mini, con migliorie nell’efficienza e una minore latenza. Un’opzione interessante per chi cerca un’intelligenza artificiale capace di risolvere problemi complessi con tempi di risposta più rapidi.
Prestazioni e funzionalità avanzate
OpenAI o3-mini introduce per la prima volta in un modello di piccole dimensioni il supporto a function calling, output strutturati e developer messages, elementi che lo rendono subito pronto per l’uso in produzione. Gli sviluppatori potranno inoltre scegliere tra tre livelli di ragionamento – basso, medio e alto – per ottimizzare il bilanciamento tra precisione e velocità. Il modello non supporta il ragionamento visivo, quindi per attività legate all’interpretazione di immagini resta necessario l’uso di OpenAI o1. Tuttavia, grazie all’integrazione con il motore di ricerca, o3-mini può fornire risposte aggiornate con fonti web, rappresentando un passo avanti verso una maggiore affidabilità delle informazioni.
Disponibilità e accesso
OpenAI o3-mini è disponibile da oggi su ChatGPT e tramite API, inizialmente per gli sviluppatori nei livelli di utilizzo API 3-5. Gli utenti di ChatGPT Plus, Team e Pro possono già accedervi, mentre l’integrazione per gli utenti Enterprise arriverà a febbraio. In un cambiamento significativo, OpenAI ha reso per la prima volta un modello di ragionamento disponibile anche per gli utenti gratuiti, che potranno selezionare la modalità “Reason” nel composer dei messaggi per provarlo.

Confronto con OpenAI o1 e miglioramenti nelle prestazioni
Sul fronte delle prestazioni, OpenAI o3-mini offre una maggiore precisione rispetto a o1-mini e o1, in particolare nei settori STEM. Nei test interni, ha registrato:
- 56% di preferenza da parte dei tester rispetto a o1-mini.
- 39% in meno di errori gravi su domande difficili del mondo reale.
- Prestazioni pari o superiori a OpenAI o1 su valutazioni matematiche avanzate come AIME 2024 e GPQA Diamond.
Per la programmazione competitiva, OpenAI o3-mini ha raggiunto un punteggio Elo di 2073 su Codeforces, superando i modelli precedenti. Anche nei test di software engineering SWE-bench Verified, ha ottenuto il punteggio più alto finora registrato per un modello OpenAI di questa fascia.
Maggiore velocità e riduzione della latenza
Uno dei punti di forza di o3-mini è l’incremento nella velocità di risposta. Nei test interni ha fornito risposte 24% più veloci rispetto a o1-mini, con un tempo medio di risposta di 7,7 secondi rispetto ai 10,16 di o1-mini. Inoltre, la latenza è inferiore di 2500ms nel tempo di generazione del primo token, migliorando sensibilmente l’esperienza d’uso.
Sicurezza e mitigazione dei rischi
Sul fronte della sicurezza, OpenAI ha utilizzato un approccio di deliberative alignment, ovvero l’addestramento del modello per rispettare specifiche di sicurezza prima di rispondere alle richieste. Nei test di resistenza ai jailbreak, o3-mini ha mostrato un’affidabilità superiore a GPT-4o.
Leave a Reply