OpenAI logo OpenAI logo

OpenAI presenta i modelli o3 e o3-mini: nuove frontiere per l’intelligenza artificiale

Nuovi modelli o3 e o3-mini di OpenAI: migliorate capacità di ragionamento e prestazioni imbattibili in matematica e programmazione.

OpenAI ha annunciato ieri i nuovi modelli o3 e o3-mini, che rappresentano l’evoluzione rispetto ai precedenti o1, disponibili da circa tre mesi. Come spiegato dal CEO Sam Altman nel video di presentazione, il nome o2 è stato volutamente evitato per “rispetto degli amici di Telefónica” (proprietaria del marchio O2).

o3 è in grado di ragionare come un essere umano?

I modelli o3 non sono attualmente accessibili al pubblico. Tuttavia, una versione preliminare di o3-mini è disponibile per la sperimentazione da parte dei ricercatori, con il rilascio al pubblico previsto per fine gennaio 2025. OpenAI ha migliorato significativamente le capacità di ragionamento rispetto alla serie o1. Grazie all’uso della tecnica di apprendimento con rinforzo (reinforcement learning), i modelli della serie o3 sono progettati per “riflettere” prima di fornire una risposta accurata. Questo processo, seppur più lento rispetto ai modelli privi di tale capacità, offre risultati migliori, specialmente in ambiti come matematica, fisica e programmazione.

Rispetto agli o1, i modelli o3 permettono di regolare il livello di ragionamento (basso, medio o alto), adattando di conseguenza la potenza di elaborazione. Secondo il benchmark ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence), il modello o3 raggiunge un punteggio dell’87,5%, quasi tre volte superiore a quello degli o1, avvicinandosi significativamente al concetto di intelligenza artificiale generale (AGI).

Il test ARC-AGI verifica la capacità di un modello di acquisire nuove competenze indipendenti dai dati di addestramento. Tuttavia, uno degli sviluppatori ha precisato che o3 non può ancora essere considerato una vera AGI. Nella nuova versione del test (ARC-AGI 2), si prevede che il punteggio di o3 scenderà al di sotto del 30%, mentre un essere umano può ottenere un risultato del 95%.

Nonostante ciò, il modello o3 supera tutti i concorrenti nei test relativi a matematica, fisica, biologia, chimica e programmazione. Ad esempio, nel test FrontierMach di Epoch, o3 risolve il 25,2% dei problemi matematici, una percentuale che nessun altro modello riesce a superare, con i concorrenti che restano sotto il 2%.