Home Tecnologia Tracker di rilascio del modello AI: tassi di disallineamento dell’Opus 4.8 simili...

Tracker di rilascio del modello AI: tassi di disallineamento dell’Opus 4.8 simili all’anteprima di Claude Mythos

7
0

Elyse migliora Picaro/ZDNET

Segui ZDNET: Aggiungici come fonte preferita su Google.


I laboratori di intelligenza artificiale inviano nuovi modelli senza sosta. Oltre advert essere migliori e più veloci dei loro predecessori, tuttavia, non è garantito che ogni nuovo modello rappresenti un grande passo avanti, nonostante il modo in cui le pubbliche relazioni dell’azienda possano essere poetiche nei loro confronti. I punti di forza del modello emergono davvero nel contesto: dove mancano o eccellono i modelli della concorrenza? Quali modelli hanno specialità eccezionali e quali stanno appena raggiungendo gli normal del settore?

Inoltre: come testiamo l’intelligenza artificiale su ZDNET

Il nostro Tracker delle liberatorie dei modelli ti aiuta a capire dove si collocano i modelli rispetto agli altri e se meritano uno sguardo più approfondito. Sebbene non testiamo ogni modello o aggiornamento del modello presente in questo elenco, includeremo sempre gli elementi chiave che devi conoscere, insieme al nostro check pratico da parte di esperti, ove applicabile. Includiamo anche un punteggio esperto per alcuni modelli. Sei curioso di sapere come testiamo l’intelligenza artificiale? Dai un’occhiata a questa ripartizione del nostro processo.

Ecco alcuni dei modelli più importanti rilasciati finora nel 2026 e cosa sapere al riguardo. Aggiorneremo questo elenco ogni volta che arriva un nuovo modello degno di nota.


Claude Opus 4.8

Antropico | 28 maggio 2026

Cosa fa: Sostituendo Opus 4.7 a partire da oggi (allo stesso prezzo), Opus 4.8 offre modalità di pensiero più veloci per un terzo del costo della versione precedente, secondo Anthropic. Come la maggior parte dei modelli di Anthropic, 4.8 dà priorità alle capacità di codifica, ottenendo un punteggio superiore a 4.7 su due benchmark di codifica ma non superando completamente il GPT 5.5 di OpenAI. Inoltre “raggiunge nuovi massimi nelle nostre misurazioni dei tratti prosociali come il supporto dell’autonomia dell’utente e l’azione nel suo migliore interesse”, ha osservato la società nel comunicato, anche se le definizioni di cosa ciò significhi rimangono oscure.

Inoltre: Anthropic lancia Opus 4.8, con l’onestà come caratteristica principale

Perché è importante: Anthropic ha sempre dato priorità alla sicurezza e all’interpretabilità dei modelli, ma sembra che con questa versione stia enfatizzando ulteriormente story normal. La società ha affermato che Opus 4.7 aveva un tasso di onestà del 92%, oltre advert essere complessivamente meno adulatorio e incline alle allucinazioni. Il fatto che affermi 4.8 mostri tassi di disallineamento “sostanzialmente” inferiori rispetto a 4.7 indica uno normal sempre più elevato per la sicurezza del modello, soprattutto perché Anthropic ha confrontato l’allineamento di 4.8 con quello di Mythos Preview.


GPT-5.5 istantaneo

OpenAI | 5 maggio 2026

Cosa fa: OpenAI ha detto nel suo annuncio che la versione più leggera di GPT-5.5 appena rilasciata da OpenAI è meno dettagliata rispetto al suo predecessore, GPT-5.3 Instantaneous. Ha inoltre pubblicizzato meno allucinazioni e una migliore fattualità, affermando che “GPT‑5.5 Instantaneous ha prodotto il 52,5% in meno di affermazioni allucinatorie rispetto a GPT‑5.3 Instantaneous su suggerimenti advert alto rischio che coprono aree come medicina, diritto e finanza”.

Inoltre: Mythos di Anthropic si sta evolvendo più velocemente del previsto, riferisce l’agenzia per la sicurezza AI

Perché importa: GPT-5.5 Instantaneous sostituisce GPT-5.3 come modello predefinito in ChatGPT. Ancora una volta, mentre l’aspettativa è che ogni nuovo modello di intelligenza artificiale diventi più efficiente, più facile da usare e comporti meno materiale, un miglioramento significativo delle allucinazioni per un modello che la maggior parte delle persone utilizza per question veloci potrebbe significare una minore diffusione di disinformazione tra le masse. Ciò è particolarmente importante considerando quante persone utilizzano ChatGPT per domande quotidiane sulla salute, advert esempio.

(Divulgazione: Ziff Davis, la società madre di ZDNET, ha intentato una causa nell’aprile 2025 contro OpenAI, sostenendo di aver violato i diritti d’autore di Ziff Davis nella formazione e nel funzionamento dei suoi sistemi di intelligenza artificiale.)


Nemotron 3 Nano Omni

Nvidia | 28 aprile 2026

Cosa fa: L’ultimo della famiglia aperta Nemotron di Nvidia, questo modello fornisce agli agenti enter multimodali. Ciò significa che possono “percepire e ragionare attraverso enter visivi, audio e testuali all’interno di un unico ciclo condiviso di percezione-azione”, secondo Nvidiaunificando così più funzionalità in un unico sistema.

Inoltre: l’intelligenza artificiale è una corsa agli armamenti e gli Stati Uniti vogliono 9 miliardi di dollari in superchip Nvidia per tenere il passo

Perché importa: Normalmente, i sistemi di agenti devono utilizzare modelli separati per parlato, visione e testo, il che significa che saltano tra documenti, video e audio per completare attività in più fasi. Ciò rallenta i flussi di lavoro, compromette il contesto raccolto dagli agenti e aumenta i costi di inferenza. L’approccio di Nvidia, se funzionasse, semplificherebbe questo processo e ridurrebbe l’uso dei token, facendoti risparmiare denaro. Provalo su Hugging Face.


GPT-5.5

OpenAI | 23 aprile 2026

Punteggio esperto: 93/100

Cosa fa: David Gewirtz, tester residente di ZDNET, ha tecnicamente assegnato a GPT-5.5 un punteggio A, ma ha affermato che “può essere descritto in modo riduttivo come migliore e più veloce di GPT-5.4”, che si spera sia l’aspettativa minima per un nuovo modello. Nello specifico, però, il modello è migliorato nella codifica degli agenti, nell’identificazione chiara dei concetti, nella ricerca scientifica e nell’accuratezza dei fatti.

Inoltre: ho sottoposto GPT-5.5 a un check di 10 spherical: ha ottenuto un punteggio di 93/100, perdendo punti solo per l’esuberanza

Perché è importante: Anche se il modello in sé potrebbe non fare passi da gigante rispetto al suo immediato predecessore, il rapido passaggio da 5.4 a 5.4 – meno di due mesi – indica quanto rapidamente la codifica degli agenti stia accelerando il ciclo di rilascio del modello di OpenAI. Mentre David Gewirtz fallisce, l’azienda, proprio come altri laboratori di frontiera che utilizzano l’intelligenza artificiale per costruire l’intelligenza artificiale, sta inviando aggiornamenti a un ritmo in aumento esponenziale.


Immagini ChatGPT 2

OpenAI | 23 aprile 2026

Cosa fa: Subito dopo Sora al tramontoil suo modello video generativo e piattaforma social, OpenAI ha annunciato in modo un po’ confuso Photographs 2. Il tester del modello ZDNET David Gewirtz ha dato un’occhiata a Photographs 2 prima del suo rilascio ed è rimasto colpito. Anche se non ha assegnato a questo modello un punteggio esperto formale, ha detto che è divertente, un grande passo avanti e effettivamente utile per il lavoro.

Perché è importante: OpenAI sembrava uscire dal gioco dei prodotti AI più orientati al consumatore quando ha interrotto la produzione di Sora, dopo essere stato battuto da Anthropic nell’assicurarsi lucrosi contratti aziendali. Il fatto che OpenAI sia ancora uscito con Photographs 2 all’interno di quella narrativa di reindirizzamento indica che considera i generatori di immagini sufficientemente rilevanti per l’intelligenza artificiale aziendale, specialmente sulla scia di Claude Design di Anthropic.


Claude Opus 4.7

Antropico | 16 aprile 2026

Che cosa fa: In arrivo relativamente rapidamente dopo l’Opus 4.6, questo modello vanta nuovi massimi di onestà, adulazione e allucinazioni ridotte. Sembra anche avere un talento per la sicurezza informatica, poiché supporta il nuovo Claude Safety, rilasciato poco dopo il modello stesso – ma no, non è Mythos, come molti sospettavano.

Inoltre: il nuovo strumento Claude Safety di Anthropic analizza il tuo codice base alla ricerca di difetti e ti aiuta a decidere cosa risolvere prima

Perché è importante: Le allucinazioni e l’onestà sono tra i problemi più difficili e difficili da risolvere che affliggono anche i migliori modelli. Per Anthropic rivendicare guadagni così significativi in ​​quelle aree non è un’impresa da poco per un laboratorio di intelligenza artificiale che prende sul serio la sicurezza.


Claude Mythos (Anteprima)

Antropico | 7 aprile 2026

Che cosa fa: Questo è difficile perché Mythos non è effettivamente disponibile al pubblico. Anthropic ha creato una vera tempesta mediatica quando ha posizionato il nuovo modello generico come troppo potente per essere rilasciato come al solito. Anche se il modello rappresenta apparentemente un passo avanti rispetto ai precedenti modelli antropici, la società period particolarmente allarmata a causa della minaccia alla sicurezza che rappresentava. affermando ciò “è straordinariamente capace nei compiti di sicurezza informatica.”

In risposta a ciò, Anthropic ha guidato Mission Glasswing, uno sforzo di collaborazione con diversi laboratori di intelligenza artificiale rivali, tra cui Google, Nvidia e Microsoft, nonché autorità di sicurezza come Palo Alto Networks, “per aiutare a proteggere il software program più critico del mondo e per preparare il settore alle pratiche che tutti dovremo adottare per stare al passo con gli attacchi informatici”.

Inoltre: Apple, Google e Microsoft si uniscono al progetto Glasswing di Anthropic per difendere il software program più critico del mondo

Perché è importante: Se dobbiamo credere alla guida di Anthropic secondo cui Mythos rappresenta una minaccia significativa per il software program mondiale – al punto che solo pochi associate selezionati possono accedervi – gli apparati di sicurezza informatica così come sono potrebbero non essere preparati a soddisfare la frontiera in rapida evoluzione delle capacità del modello. Mythos potrebbe non essere l’unico modello di questo calibro, ma semplicemente il primo di molti che arriveranno una volta che altri laboratori avranno raggiunto risultati simili.

Per ora, a poche settimane dal suo rilascio, Mythos sta aiutando a individuare i bug del software program in massa.


GPT-5.4

OpenAI | 5 marzo 2026

Che cosa fa: OpenAI ha inquadrato questo nuovo modello, rilasciato appena tre mesi dopo GPT-5.2, come specificatamente pensato per il lavoro professionale. Secondo i check dell’azienda (che dovrebbero sempre essere presi con le pinze fino a quando non vengono verificati da terzi), GPT-5.4 corrisponde o supera i professionisti umani nell’83% dei casi.

Perché è importante: Poiché le aziende di intelligenza artificiale si concentrano maggiormente sull’acquisizione della fiducia (e dei contratti) delle imprese, lodando ciò che l’intelligenza artificiale può fare, hanno bisogno di modelli in grado di gestire compiti complessi legati al lavoro con rischi minimi, ritardi o costi proibitivi. Qualsiasi progresso del modello che dimostri abilità nei flussi di lavoro professionali ha maggiori possibilità di essere preso sul serio dalle aziende che lottano per adottare l’intelligenza artificiale, anche se nulla garantisce un’integrazione perfetta.

Inoltre: il nuovo GPT-5.4 di OpenAI ostacola gli esseri umani nel lavoro di livello professionale nei check – dell’83%


Claude Opus 4.6

Antropico | 5 febbraio 2026

Che cosa fa: Questo modello ha ridefinito rapidamente lo normal per il lavoro degli agenti autonomi, in particolare per la codifica. Ciò non sorprende, information l’autorità di Anthropic nella costruzione di modelli particolarmente adatti alle attività di programmazione. Opus 4.6 ha dimostrato anche un miglioramento complessivo delle attività complesse e di lunga durata.

Perché è importante: La capacità di Opus 4.6 di gestire meglio le attività da sola significa che puoi scaricare in modo affidabile una parte maggiore del tuo flusso di lavoro, qualcosa con cui le offerte di agenti di solito lottano.

Inoltre: Anthropic afferma che il suo nuovo Claude Opus 4.6 può inchiodare i risultati del tuo lavoro al primo tentativo


Codice GPT-5.3

OpenAI | 5 febbraio 2026

Che cosa fa: Questo nuovo modello di codifica, che secondo OpenAI ha aiutato a costruire e eseguire il debug di se stesso, può essere interrotto e reindirizzato durante l’attività, il che, se vero, sarebbe un enorme vantaggio per gli sviluppatori che lo utilizzano su progetti complessi o mutevoli con tonnellate di tentativi ed errori. GPT-5.3-Codex vanta anche tempi di esecuzione di oltre un giorno e una migliore comprensione delle intenzioni dell’utente.

Inoltre: il nuovo modello Spark di OpenAI codifica 15 volte più velocemente del Codex GPT-5.3, ma c’è un problema

Perché è importante: OpenAI sta cercando di raggiungere il vantaggio di Anthropic nella codifica advert agenti (e, per coincidenza o meno, ha rilasciato 5.3 Codex lo stesso giorno in cui Anthropic ha lanciato Opus 4.6). Sebbene gli esperti di ZDNET spesso preferiscano Claude Code advert altri strumenti per la codifica delle vibrazioni, il presunto spostamento di OpenAI verso i clienti aziendali e l’allontanamento dagli strumenti divertenti per i consumatori potrebbe alla high quality colmare questa lacuna.



fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here