Home Tecnologia Anthropic lancia Claude Opus 4.8 con vantaggi in termini di codifica e...

Anthropic lancia Claude Opus 4.8 con vantaggi in termini di codifica e onestà

13
0

Antropico annunciato oggi il lancio del suo ultimo modello di intelligenza artificiale, Claude Opus 4.8. Anthropic afferma che il modello è un “collaboratore più efficace” con miglioramenti nella codifica degli agenti, nel ragionamento multidisciplinare, nell’uso del laptop degli agenti, nel lavoro della conoscenza e nell’analisi finanziaria degli agenti.


I tester hanno riscontrato che Opus 4.8 è “più affidabile e più acuto nel suo giudizio” quando svolgono compiti di agente, e il modello ha anche guadagnato in onestà.

I primi tester riferiscono che Opus 4.8 ha maggiori probabilità di segnalare incertezze sul suo lavoro e meno probabilità di fare affermazioni non supportate. Ciò è confermato dalle nostre valutazioni, che mostrano che Opus 4.8 ha circa quattro volte meno probabilità rispetto al suo predecessore di lasciare che i difetti nel codice scritto passino inosservati.

Le valutazioni dell’allineamento suggeriscono che il modello raggiunge nuovi massimi nelle misure dei tratti prosociali come il sostegno all’autonomia dell’utente e l’azione nel migliore interesse dell’utente. I tassi di comportamenti disallineati come l’inganno sono inferiori a quelli di Opus 4.7 e simili all’anteprima di Claude Mythos.

I benchmark antropici indicano che Opus 4.8 ha ottenuto un punteggio del 69,2% su SWE-Bench Professional, superando GPT–5.5 e Gemini 3.1 Professional nel take a look at e molti altri benchmark, sebbene GPT–5.5 sia in testa al benchmark di codifica dei terminali.

Anche la modalità veloce dell’Opus 4.8 funziona a una velocità 2,5 volte superiore e ora è tre volte più economica rispetto ai modelli precedenti.

Insieme a Opus 4.8, Anthropic sta aggiungendo nuove funzionalità alla sua gamma di prodotti.

  • Flussi di lavoro dinamici (anteprima della ricerca) – Claude può completare compiti più grandi in Claude Code. È in grado di pianificare il lavoro ed eseguire centinaia di subagenti paralleli in un’unica sessione. È in grado di completare migrazioni su scala codebase su centinaia di migliaia di righe di codice. La funzionalità è disponibile per i piani Claude Code per Enterprise, Staff e Max.
  • Controllo dello sforzo – In Claude.ai e Cowork, gli utenti possono scegliere quanto impegno Claude mette in una risposta. Con un’impostazione più bassa, Claude risponderà più velocemente e utilizzerà i limiti di velocità più lentamente. Per impostazione predefinita, Opus 4.8 prevede un impegno elevato, che secondo Anthropic è il miglior equilibrio tra qualità ed esperienza utente.
  • API dei messaggi – L’API Messaggi accetta voci di sistema all’interno dell’array dei messaggi, in modo che gli sviluppatori possano aggiornare le istruzioni di Claude durante l’attività.

Claude Opus 4.8 è disponibile ovunque oggi. Il prezzo per l’uso regolare non è cambiato rispetto a Opus 4.7.

Anthropic sta lavorando su modelli che abbiano le stesse capacità di Opus 4.8 a un costo inferiore e su una nuova classe di modelli ancora più intelligenti di Opus. Anthropic afferma di aver sviluppato misure di protezione per il modello Claude Mythos che sta testando con un piccolo numero di organizzazioni e si aspetta di poter portare modelli di classe Mythos a tutti i clienti “nelle prossime settimane”.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here