Home Tecnologia GPT-5.5 di OpenAI vs Claude Opus 4.7: qual è il migliore?

GPT-5.5 di OpenAI vs Claude Opus 4.7: qual è il migliore?

11
0

OpenAI ha rilasciato il suo ultimo modello, GPT-5.5, il 23 aprile, appena una settimana dopo che Anthropic ha introdotto Claude Opus 4.7.

Essendo i due modelli principali dei due principali laboratori di intelligenza artificiale, volevamo vedere come si confrontano i nuovi modelli.

Avviso spoiler: Riteniamo che Claude Opus 4.7 abbia un vantaggio nella codifica avanzata e advert agenti, ma GPT-5.5 ha prestazioni migliori nella maggior parte dei benchmark.

VEDI ANCHE:

Anthropic afferma che Claude Opus 4.7 ha un tasso di onestà del 92%, meno servilismo

Vuoi saperne di più su come ottenere il meglio dalla tua tecnologia? Iscriviti alla e-newsletter High Tales and Offers di Mashable Oggi.

GPT-5.5 e Opus 4.7: classifiche

GPT-5.5 non è ancora classificato in tutte le classifiche AI, ma dovrebbe essere molto competitivo con Claude Opus 4.7. Nelle classifiche dei check benchmark verificati come Premio ArcoGPT-5.5 batte Opus 4.7 (ne parleremo più avanti).

Sul popolare Classifica dell’arenache si basa sui check degli utenti, Claude Opus 4.7 Pondering ha il primo posto in assoluto. È interessante notare che Opus 4.7 è attualmente classificato sotto Opus 4.6, anche se probabilmente cambierà nel tempo. Attualmente, i nuovi modelli Anthropic occupano le prime quattro posizioni complessive. Inoltre, l’inedito Claude Mythos di Anthropic non è classificato e Anthropic afferma che funziona anche meglio di Opus 4.7.

Su Indice delle capacità epocali (ECI) classifica, GPT-5.4 Professional ha il punteggio più alto per ora. (ECI combina diversi benchmark in un unico punteggio.) Troverai Gemini 3.1 Professional e GPT-5.4 in seconda e terza posizione.

VEDI ANCHE:

La capacità dell’intelligenza artificiale di individuare i principali bug del software program cresce del 490% anno dopo anno

GPT-5.5 e Opus 4.7: benchmark

Come si comportano i nuovi modelli rispetto ai check benchmark più comuni? Per questi check dobbiamo fare affidamento principalmente sui punteggi auto-riferiti di OpenAI e Anthropic. Entrambi ottengono voti alti, come ci si aspetterebbe, ma GPT-5.5 ha sicuramente un vantaggio.

Ecco come si confrontano in alcuni dei principali check benchmark dell’intelligenza artificiale:

  • Panca SWE Professional: GPT-5.5 ha ottenuto 58,6; Opus 4.7 ha ottenuto il 64,3%.

  • Terminale-Bench 2.0: GPT-5.5 ha ottenuto l’82,7%; Opus 4.7 ha ottenuto il 69,4%.

  • L’ultimo esame dell’umanità: GPT-5.5 ha ottenuto il 40,6%; Opus 4.7 ha ottenuto il 31,2%*

  • L’ultimo esame dell’umanità (con strumenti): GPT-5.5 ha ottenuto il 52,2%; Opus 4.7 ha ottenuto il 54,7%.

  • SfogliaComp: GPT-5.5 ha ottenuto l’84,4%; Opus 4.7 ha ottenuto il 79,3%.

  • Diamante GPQA: GPT-5.5 ha ottenuto il 93,6%; Opus 4.7 ha ottenuto il 94,2%.

  • ARC-AGI-1 (verificato): GPT-5.5 (Alto) ha ottenuto il 94,5%; Claude 4.7 (Alto) ha ottenuto il 92%**

  • ARC-AGI-2 (verificato): GPT-5.5 (Alto) ha ottenuto l’83,3%; Claude 4,7 (Alto) ha ottenuto il 68,3%**

*Per L’Ultimo Esame dell’Umanità, stiamo citando Risultati HLE verificati da Artificial Analysis. In particolare, Anthropic riporta che Opus 4.7 ha ottenuto un punteggio del 46,9% in questo check.

**Vedi i risultati completi su Sito web del Premio Arco.

GPT 5.5 e Opus 4.7: disponibilità e prezzi

OpenAI afferma che GPT 5.5 è “il nostro modello più intelligente e intuitivo da usare finora”. Claude Opus 4.7 è il modello più avanzato di Anthropic disponibile per gli utenti di Claude, anche se Anthropic afferma che l’inedito Claude Mythos Preview è il modello più capace in generale.

Pertanto, solo gli abbonati a pagamento possono accedere a questi modelli di frontiera.

GPT 5.5 è disponibile solo per gli utenti OpenAI Plus, Professional, Enterprise ed Enterprise in ChatGPT e Codex (scusate, utenti ChatGPT Go). Gli utenti Professional, Enterprise ed Enterprise possono anche accedere a GPT-5.5 Professional, mentre i clienti Plus, Professional, Enterprise ed Enterprise possono accedere a GPT-5.5 Pondering.

OpenAI sta aumentando i prezzi per GPT-5.5 nella sua API, anche se la società afferma che è più efficiente in termini di token. Il prezzo dell’API parte da “5 $ per 1 milione di token di enter e 30 $ per 1 milione di token di output, con una finestra di contesto di 1 milione”.

Opus 4.7 è disponibile per i clienti Professional e Max; tramite l’API, è disponibile per “$ 5 per milione di token di enter e $ 25 per milione di token di output”.

GPT-5.5 e Opus 4.7: set di funzionalità

OpenAI afferma che GPT-5.5 apporta notevoli miglioramenti nella “codifica degli agenti, nell’uso del laptop, nel lavoro di conoscenza e nelle prime ricerche scientifiche”. Anthropic afferma che Claude Opus 4.7 migliora in termini di codifica avanzata, intelligenza visiva e analisi dei documenti.

ChatGPT e Claude hanno set di funzionalità generali simili, anche se ci sono alcune eccezioni. In generale, puoi utilizzare entrambi questi chatbot AI per la ricerca, la codifica, i progetti creativi e il lavoro professionale quotidiano. Puoi anche utilizzare entrambi i nuovi modelli nelle piattaforme di codifica OpenAI e Anthropic, Codex e Claude Code.

È più facile parlare delle differenze che delle somiglianze. Sebbene GPT-5.5 non sia un modello di immagine, all’interno di ChatGPT puoi utilizzare il nuovo Modello ChatGPT Immagini 2.0. Anthropic è stato recentemente lanciato Claudio Designma offre solo visualizzazioni di dati, grafica e diapositive, non la generazione completa di immagini. Quindi, se hai bisogno di generare immagini o grafica interattiva per un progetto, GPT-5.5 avrà più strumenti a disposizione da chiamare.

GPT-5.5 può essere utilizzato per creare visualizzazioni di dati complesse e interattive.
Credito: OpenAI

ChatGPT ha più integrazioni di app e acquisti, anche se grazie alla recente acquisizione di OpenClaw, Anthropic ha un vantaggio sulle capacità degli agenti.

TL;DR: Se dovessimo scegliere uno di questi modelli per il lavoro professionale quotidiano, GPT-5.5 sarebbe in vantaggio grazie al set di funzionalità complessive più ampio di ChatGPT. Tuttavia, per la codifica avanzata e advert agenti, sceglieremmo Claude Opus 4.7.


Divulgazione: Ziff Davis, la società madre di Mashable, nell’aprile 2025 ha intentato una causa contro OpenAI, sostenendo di aver violato i diritti d’autore di Ziff Davis nella formazione e nel funzionamento dei suoi sistemi di intelligenza artificiale.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here