Home Tecnologia Mistero risolto: Anthropic rivela che le modifiche alle imbracature e alle istruzioni...

Mistero risolto: Anthropic rivela che le modifiche alle imbracature e alle istruzioni operative di Claude probabilmente hanno causato il degrado

11
0

Per numerous settimane, un crescente coro di sviluppatori e utenti esperti di intelligenza artificiale ha affermato che i modelli di punta di Anthropic stavano perdendo il loro vantaggio. Gli utenti di GitHub, X e Reddit hanno segnalato un fenomeno che hanno descritto come “riduzione dell’intelligenza artificiale”, un degrado percepito in cui Claude sembrava meno capace di ragionamento sostenuto, più incline alle allucinazioni e sempre più dispendioso con i token.

I critici hanno sottolineato un cambiamento misurabile nel comportamento, sostenendo che il modello period passato da un approccio “incentrato sulla ricerca” a uno stile più pigro, “prima modifica”, di cui non ci si poteva più fidare per l’ingegneria complessa.

Sebbene inizialmente l’azienda si sia opposta alle accuse di “nerfing” del modello per gestire la domanda, le show crescenti provenienti da utenti di alto profilo e benchmark di terze parti hanno creato un significativo divario di fiducia.

Oggi, Anthropic ha affrontato direttamente queste preoccupazioni, pubblicando un publish mortem tecnico che ha identificato tre distinti cambiamenti a livello di prodotto responsabili dei problemi di qualità segnalati.

“Prendiamo molto sul serio le segnalazioni sul degrado”, si legge Il post sul blog di Anthropic sull’argomento. “Non degradiamo mai intenzionalmente i nostri modelli e siamo stati in grado di confermare immediatamente che la nostra API e il livello di inferenza non erano interessati.”

Anthropic afferma di aver risolto i problemi ripristinando la modifica dello sforzo di ragionamento e la richiesta di verbosità, risolvendo al contempo il bug di memorizzazione nella cache nella versione v2.1.116.

Le show crescenti del degrado

La controversia ha acquisito slancio all’inizio di aprile 2026, alimentata da analisi tecniche dettagliate da parte della comunità degli sviluppatori. Stella Laurenzo, Senior Director del gruppo AI di AMD, ha pubblicato un audit esaustivo di 6.852 file di sessione di Claude Code e oltre 234.000 chiamate a strumenti su Github mostrando prestazioni in calo rispetto al suo utilizzo precedente.

Le sue scoperte suggerivano che la profondità del ragionamento di Claude period diminuita drasticamente, portando a circuiti di ragionamento e alla tendenza a scegliere la “soluzione più semplice” piuttosto che quella corretta.

Questa frustrazione aneddotica è stata apparentemente convalidata da benchmark di terze parti. BridgeMind ha riferito che la precisione di Claude Opus 4.6 è scesa dall’83,3% al 68,3% nei loro check, facendo precipitare la sua classifica dal n. 2 al n. 10.

Sebbene alcuni ricercatori sostenessero che questi confronti di benchmark specifici fossero viziati a causa di ambiti di check incoerenti, la narrazione secondo cui Claude period diventato “più stupido” divenne un punto di discussione virale. Gli utenti hanno inoltre riferito che i limiti di utilizzo si stavano esaurendo più rapidamente del previsto, facendo sospettare che Anthropic stesse intenzionalmente limitando le prestazioni per gestire l’aumento della domanda.

Le trigger

Nel suo publish post-morem, Anthropic ha chiarito che, sebbene i pesi dei modelli sottostanti non fossero regrediti, tre modifiche specifiche all'”imbracatura” che circonda i modelli avevano inavvertitamente ostacolato le loro prestazioni:

  • Sforzo di ragionamento predefinito: Il 4 marzo Anthropic ha modificato lo sforzo di ragionamento predefinito da excessive A medium affinché Claude Code risolva i problemi di latenza dell’interfaccia utente. Questa modifica aveva lo scopo di evitare che l’interfaccia apparisse “congelata” mentre il modello pensava, ma ha comportato un notevole calo dell’intelligenza per compiti complessi.

  • Un bug della logica di memorizzazione nella cache: Distribuita il 26 marzo, un’ottimizzazione della cache intesa a eliminare il vecchio “pensiero” dalle sessioni inattive conteneva un bug critico. Invece di cancellare la cronologia del pensiero una volta dopo un’ora di inattività, la cancellava advert ogni turno successivo, facendo perdere al modello la sua “memoria a breve termine” e diventando ripetitivo o smemorato.

  • Limiti di verbosità dei immediate di sistema: Il 16 aprile, Anthropic ha aggiunto istruzioni al sistema per mantenere il testo tra le chiamate allo strumento sotto le 25 parole e le risposte finali sotto le 100 parole. Questo tentativo di ridurre la verbosità nell’Opus 4.7 è fallito, causando un calo del 3% nelle valutazioni della qualità della codifica.

Impatto e tutele future

I problemi di qualità si estendevano oltre la CLI di Claude Code, influenzando il file SDK dell’agente Claude E Claudio Coworksebbene il Claudio API non è stato influenzato.

Anthropic ha ammesso che questi cambiamenti hanno fatto sembrare il modello “meno intelligente”, cosa che hanno riconosciuto non period l’esperienza che gli utenti dovrebbero aspettarsi.

Per riconquistare la fiducia degli utenti e prevenire future regressioni, Anthropic sta implementando numerous modifiche operative:

  • Prova sperimentale interna: A una quota maggiore del personale interno sarà richiesto di utilizzare le esatte construct pubbliche di Claude Code per garantire che possano sperimentare il prodotto come fanno gli utenti.

  • Suite di valutazione avanzate: L’azienda eseguirà ora una suite più ampia di valutazioni e “ablazioni” per modello per ogni modifica tempestiva del sistema per isolare l’impatto di istruzioni specifiche.

  • Controlli più severi: Sono stati creati nuovi strumenti per rendere più semplice il controllo delle modifiche tempestive e le modifiche specifiche del modello saranno strettamente vincolate agli obiettivi previsti.

  • Compensazione dell’abbonato: Per tenere conto dello spreco di token e dell’attrito prestazionale causato da questi bug, Anthropic ha reimpostato i limiti di utilizzo per tutti gli abbonati a partire dal 23 aprile.

L’azienda intende utilizzare il suo nuovo Account @ClaudeDevs su X e thread su GitHub per fornire ragionamenti più approfonditi dietro le future decisioni sui prodotti e mantenere un dialogo più trasparente con la sua base di sviluppatori.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here