Home Tecnologia Anthropic lancia Opus 4.8, con l’onestà come caratteristica principale

Anthropic lancia Opus 4.8, con l’onestà come caratteristica principale

8
0

Primakov/Shutterstock

Segui ZDNET: Aggiungici come fonte preferita su Google.


I principali punti salienti di ZDNET

  • Claude Opus 4.8 promette risposte AI più oneste.
  • I flussi di lavoro dinamici possono eseguire centinaia di subagenti Claude.
  • La modalità veloce diventa più economica, mentre i prezzi normali di Opus rimangono invariati.

Diogene period un filosofo greco del IV secolo a.C. noto per la sua arte performativa. Si cube che abbia vagato per il strade di Atene a metà giornata, portando una lanterna accesa, gridando: “Cerco un uomo onesto”. Se quel mito fosse modernizzato ai giorni nostri, saremmo tutti alla ricerca di un’intelligenza artificiale onesta.

Anthropic sta annunciando e rilasciando Claude Opus 4.8, un ampio modello linguistico che ritiene possa aver soddisfatto la ricerca di Diogenes.

“Uno dei miglioramenti più importanti di Opus 4.8 è la sua onestà”, ha affermato giovedì la società in un publish sul weblog.

Inoltre: i tuoi agenti Claude ora possono “sognare”: come funziona la nuova funzionalità di Anthropic

Ora, forse, questo nuovo modello di frontiera si comporterà meglio. Anthropic riferisce che Opus 4.8 ha meno probabilità di fare affermazioni non supportate. È anche più probabile che ti dica quando non sei sicuro di una risposta.

“Ciò è confermato dalle nostre valutazioni, che mostrano che Opus 4.8 ha circa 4 volte meno probabilità rispetto al suo predecessore di consentire che i difetti nel codice scritto passino inosservati”, ha affermato la società.

In Claude Code, ho trovato che Opus 4.7 rappresenta un miglioramento sostanziale rispetto a 4.6. Mentre 4.6 spesso interpreta erroneamente le istruzioni o fornisce risultati errati, Opus 4.7 mi cube regolarmente che il modo in cui ha esaminato inizialmente un problema non ha funzionato e sta adottando una tattica diversa. I recenti incarichi di progetto hanno dimostrato un grado di comprensione molto maggiore rispetto a quello riscontrato con 4.6.

Quindi, dato il salto di qualità da 4.6 a 4.7, che soggettivamente è stato abbastanza evidente in molte sessioni, spero che vedremo lo stesso nel salto da 4.7 a 4.8.

Inoltre: I 5 miti dell’apocalisse della codifica agentica

Sembrerebbe proprio così, almeno secondo Tom Pritchard, ingegnere dello employees di Spotify, che ha già testato Opus 4.8.

“Claude Opus 4.8 ha una capacità di giudizio notevolmente migliore. In Claude Code, pone le domande giuste, individua i propri errori, si oppone quando un piano non è valido e crea fiducia attorno a esplorazioni complesse e multi-servizio prima di apportare grandi cambiamenti. È un ottimo modello con cui costruire”, ha affermato nel publish sul weblog.

Sarà carino.

Una questione di fatica

Claude Code ha la capacità di impostare lo sforzo almeno dalla versione 4.7 (almeno, è da quando l’ho notato per la prima volta). L’impegno è essenzialmente una misura della potenza dell’intelligenza artificiale che il modello offre a un problema, misurata in token.

In Opus 4.8, l’impegno elevato predefinito di Claude Code produce quello che l’azienda ha definito “il miglior equilibrio complessivo tra qualità ed esperienza utente”. Nelle attività di codifica, questo valore predefinito spende un numero di token simile al livello predefinito offerto in Claude Code Opus 4.7, ma con prestazioni migliori.

Inoltre: Mythos di Anthropic si sta evolvendo più velocemente del previsto, riferisce l’agenzia per la sicurezza AI

Questa capacità di sforzo si sta ora sviluppando Claude.ai e Collaborazione. Con impostazioni di impegno più elevate, Claude “penserà più frequentemente e più profondamente”. Con uno sforzo minore, Claude risponde più velocemente e gli utenti scopriranno che le loro esperienze di intelligenza artificiale sono meno limitate.

Flussi di lavoro dinamici

Al momento del lancio questa funzionalità non è stata completamente definita, ma è interessante. Lanciato come anteprima della ricerca, Opus 4.8 può pianificare il lavoro, eseguire centinaia di subagenti paralleli in un’unica sessione e verificare i risultati prima di riferire. Questa funzionalità è progettata per attività su larga scala. L’esempio fornito da Anthropic riguardava le migrazioni su scala di codebase su centinaia di migliaia di righe.

Sembra che Claude possa generare e gestire il flusso di lavoro man mano che l’attività evolve. Invece di seguire un piano fisso, gli agenti possono modificare le proprie priorità e attività in base a ciò che trovano mentre svolgono il proprio lavoro. Questo potrebbe essere potente.

Inoltre: il nuovo strumento Claude Safety di Anthropic analizza il tuo codice base alla ricerca di difetti e ti aiuta a decidere cosa risolvere prima

Anthropic ha affermato che i subagenti verificano i propri risultati prima di riferirli agli utenti. Se Claude coordina centinaia di subagenti, gli utenti ne hanno bisogno per notare incertezze, ipotesi errate e risultati non riusciti.

È interessante notare che questo si ricollega alle affermazioni sull’onestà discusse all’inizio dell’articolo. Se Claude intende lanciare “migliaia di agenti”, ottenere risultati affidabili e controllati è davvero importante, perché non è possibile che la supervisione umana possa tenere il passo da sola.

La funzionalità dei flussi di lavoro dinamici sarà disponibile per gli utenti di Claude Code sui piani Enterprise, Staff e Max.

Prezzo e disponibilità

Anthropic ha affermato che Claude Opus 4.8 è disponibile ovunque giovedì tramite Claude e l’API Claude come claude-opus-4-8.

In pratica, soprattutto se stai utilizzando Claude Code, potresti scoprire che dovrai riavviare la sessione o attendere circa un giorno affinché Claude Code se ne accorga. Quando Anthropic è passato da Opus 4.6 a 4.7, ho continuato a chiedere a Claude Code quale modello stesse utilizzando, e solo il mattino successivo ha smesso di riportare Opus 4.6 e ha iniziato a riportare Opus 4.7.

Il prezzo complessivo non è cambiato dall’Opus 4.7. I prezzi regolari basati sui token rimangono di 5 dollari per milione di token di enter e di 25 dollari per milione di token di output.

Inoltre: questo dirigente offre 4 modi per essere un innovatore di successo nell’period dell’intelligenza artificiale

L’azienda ha affermato che la modalità veloce, che consente al modello di funzionare a 2,5 volte la velocità della modalità normale, sarà “tre volte più economica rispetto ai modelli precedenti”. Anche se non spendo in modalità veloce, vedo l’attrattiva. Ho guardato un quantità di YouTube, in attesa che Claude Code risponda a una richiesta, ora dopo ora.

Preferiresti che Claude rispondesse più velocemente con uno sforzo minore o pensasse più a lungo con uno sforzo maggiore? Fatecelo sapere nei commenti qui sotto.


Puoi seguire gli aggiornamenti quotidiani sui miei progetti sui social media. Assicurati di iscriverti a la mia newsletter di aggiornamento settimanalee seguimi su Twitter/X all’indirizzo @DavidGewirtzsu Fb all’indirizzo Facebook.com/DavidGewirtzsu Instagram all’indirizzo Instagram.com/DavidGewirtzsu Bluesky a @DavidGewirtz.come su YouTube all’indirizzo YouTube.com/DavidGewirtzTV.



fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here