OpenAI ha creato una nuova serie di modelli di intelligenza artificiale, progettati per riflettere maggiormente prima di rispondere. Questi modelli sono in grado di affrontare compiti complessi e risolvere problemi più difficili rispetto ai precedenti, specialmente nelle aree di scienze, programmazione e matematica.
Oggi, lanciamo il primo modello di questa serie nel nostro ChatGPT e nella nostra API. Si tratta di una versione preliminare e ci aspettiamo aggiornamenti regolari e miglioramenti futuri. In aggiunta a questo rilascio, stiamo includendo valutazioni per il prossimo aggiornamento, attualmente in fase di sviluppo.
Come funziona
I nuovi modelli sono stati addestrati a prendersi più tempo per riflettere sui problemi prima di fornire una risposta, proprio come farebbe un essere umano. Attraverso un processo di apprendimento, questi modelli perfezionano il loro metodo di pensiero, esplorano diverse strategie e riconoscono i propri errori.
Nei nostri test, il prossimo aggiornamento del modello ha mostrato prestazioni simili a quelle di studenti di dottorato su compiti di riferimento impegnativi nelle discipline di fisica, chimica e biologia. Abbiamo anche riscontrato che eccelle nell’ambito matematico e della programmazione.
Ad esempio, durante un esame di qualifica per le Olimpiadi Internazionali di Matematica (IMO), GPT-4o ha risolto correttamente solo il 13% dei problemi, mentre il modello di ragionamento ha raggiunto l’83%. Le sue capacità di programmazione sono state valutate in competizioni, ottenendo il 89° percentile nei contest di Codeforces. Maggiori dettagli sono disponibili nel nostro articolo di ricerca tecnica.
Caratteristiche e Sicurezza
Anche se, essendo un modello all’inizio dello sviluppo, non include molte delle funzionalità che rendono ChatGPT utile, come la navigazione web per informazioni e la possibilità di caricare file e immagini, per molti casi comuni, GPT-4o sarà più competente nel breve termine.
Tuttavia, per quanto riguarda compiti complessi di ragionamento, si tratta di un significativo avanzamento e rappresenta un nuovo standard nelle capacità dell’IA. Per questo motivo, abbiamo deciso di azzerare il contatore e denominare questa serie **OpenAI o1**.
In fase di sviluppo di questi nuovi modelli, abbiamo ideato un nuovo approccio alla formazione sulla sicurezza, che sfrutta le loro capacità di ragionamento per farli aderire alle linee guida di sicurezza e allineamento. Essendo in grado di ragionare sulle nostre regole di sicurezza nel contesto, possono applicarle in modo più efficace.
Valutazione della Sicurezza
Uno dei modi in cui misuriamo la sicurezza è sottoponendo il nostro modello a test per valutare quanto bene continua a seguire le sue regole di sicurezza se un utente prova a eluderle (il cosiddetto “jailbreaking”). Durante uno dei nostri test di jailbreaking più difficili, GPT-4o ha ottenuto un punteggio di 22 (su una scala da 0 a 100), mentre il modello o1-preview ha raggiunto un punteggio di 84. Ulteriori dettagli possono essere trovati nella scheda del sistema e nel nostro articolo di ricerca.
Per adeguarci alle nuove capacità di questi modelli, abbiamo potenziato il nostro lavoro in materia di sicurezza, governance interna e collaborazione con il governo federale. Questo include rigorosi test e valutazioni utilizzando il nostro Preparedness Framework, red teaming di prima classe e processi di revisione a livello di consiglio, gestiti dal nostro Safety & Security Committee.
Chi può Beneficiare di OpenAI o1
Queste capacità di ragionamento migliorate saranno particolarmente utili a chi deve affrontare problemi complessi in settori come scienze, programmazione e matematica. Ad esempio, o1 può essere utilizzato dai ricercatori nel settore sanitario per annotare dati di sequenziamento cellulare, dai fisici per generare formule matematiche complesse necessarie in ottica quantistica e dai programmatori di tutti i settori per costruire ed eseguire flussi di lavoro a più passaggi.
OpenAI o1-mini
La serie o1 si distingue per la sua capacità di generare e debuggare codice complesso con grande precisione. Per offrire una soluzione più efficiente agli sviluppatori, presentiamo anche **OpenAI o1-mini**, un modello di ragionamento più veloce e meno costoso, particolarmente efficace nella programmazione. Essendo un modello più piccolo, o1-mini è l’80% più economico rispetto a o1-preview, rendendolo una scelta potente e conveniente per applicazioni che richiedono ragionamento senza necessità di una conoscenza globale approfondita.
Utilizzare OpenAI o1
Gli utenti di ChatGPT Plus e Team potranno accedere ai modelli o1 a partire da oggi. Sia o1-preview che o1-mini possono essere selezionati manualmente nel selettore di modelli; al momento del lancio, i limiti settimanali saranno di 30 messaggi per o1-preview e 50 per o1-mini. Stiamo lavorando per aumentare questi limiti e per consentire a ChatGPT di scegliere automaticamente il modello migliore per un determinato prompt.
Gli utenti di ChatGPT Enterprise ed Edu avranno accesso a entrambi i modelli a partire dalla settimana prossima.
Gli sviluppatori che soddisfano i requisiti per il livello di utilizzo API 5 possono iniziare a prototipare entrambi i modelli tramite l’API da oggi, con un limite di 20 RPM. Stiamo lavorando per aumentare questi limiti dopo ulteriori test. Attualmente, l’API per questi modelli non include chiamate di funzioni, streaming, supporto per messaggi di sistema e altre funzionalità. Per iniziare, è possibile consultare la documentazione API.
Prospettive Future
Questa è una preview iniziale di questi modelli di ragionamento in ChatGPT e nell’API. Oltre agli aggiornamenti del modello, prevediamo di aggiungere funzionalità come la navigazione, il caricamento di file e immagini e altre caratteristiche per renderli più utili a tutti.
Inoltre, continueremo a sviluppare e rilasciare modelli nella nostra serie GPT, oltre alla nuova serie OpenAI o1.