Home Tecnologia Il “/objectives” di Claude Code separa l’agente che lavora da quello che...

Il “/objectives” di Claude Code separa l’agente che lavora da quello che determine che è finito

22
0

Un agente di migrazione del codice termina l’esecuzione e la pipeline appare verde. Ma molti pezzi non furono mai compilati e ci vollero giorni per catturarli. Questo non è un fallimento del modello; è un agente che determine che è stato fatto prima che lo fosse realmente.

Molte aziende stanno ora vedendo che le pipeline di produzione degli agenti IA falliscono non a causa delle capacità dei modelli, ma perché il modello dietro l’agente determine di fermarsi. LangChain, Google e OpenAI offrono ora diversi metodi per prevenire l’abbandono prematuro delle attività, sebbene spesso si basino su sistemi di valutazione separati. Il metodo più recente viene da Anthropic: /goals su Claude Codeche separa formalmente l’esecuzione delle attività e la valutazione delle attività.

Gli agenti di codifica lavorano in loop: leggono file, eseguono comandi, modificano il codice e poi controllano se l’attività è stata completata.

Claude Code /objectives aggiunge essenzialmente un secondo livello a quel ciclo. Dopo che un utente ha definito un obiettivo, Claude continuerà a girare turno dopo turno, ma un modello di valutatore arriva dopo ogni passaggio per rivedere e decidere se l’obiettivo è stato raggiunto.

I due modelli si sono divisi

Le piattaforme di orchestrazione di tutti e tre i fornitori hanno identificato lo stesso ostacolo. Ma il modo in cui affrontano questi problemi è diverso. OpenAI lascia il ciclo da solo e lascia che sia il modello a decidere quando è finito, ma consente agli utenti di taggare i propri valutatori. Per LangGraph e l’Agent Improvement Package di Google, è possibile una valutazione indipendente, ma richiede agli sviluppatori di definire il nodo critico, scrivere la logica di terminazione e configurare l’osservabilità.

Claude Code /objectives imposta il valore predefinito del valutatore indipendente, indipendentemente dal fatto che l’utente desideri che venga eseguito più a lungo o più brevemente. Fondamentalmente, lo sviluppatore imposta la condizione di completamento dell’obiettivo tramite un immediate. Advert esempio, /purpose tutti i check in check/auth passano e il passaggio lint è pulito. Claude Code viene quindi eseguito e ogni volta che l’agente tenta di terminare il proprio lavoro, il modello di valutazione, che per impostazione predefinita è Haiku, verificherà il ciclo delle condizioni. Se la condizione non viene soddisfatta, l’agente continua a funzionare. Se la condizione viene soddisfatta, registra la condizione raggiunta nella trascrizione della conversazione dell’agente e cancella l’obiettivo. Ci sono solo due decisioni che il valutatore prende, ed è per questo che il modello Haiku più piccolo funziona bene, sia che venga eseguito o meno.

Claude Code lo rende possibile separando il modello che tenta di completare un’attività dal modello di valutazione che garantisce che l’attività venga effettivamente completata. Ciò impedisce all’agente di confondere ciò che ha già realizzato con ciò che deve ancora essere fatto. Con questo metodo, Anthropic ha osservato che non è necessaria una piattaforma di osservabilità di terze parti (sebbene le aziende siano libere di continuare a utilizzarne una insieme a Claude Code), non è necessario un registro personalizzato e si fa meno affidamento sulla ricostruzione submit mortem.

Concorrenti come Google ADK supportano modelli di valutazione simili. Google ADK distribuisce un LoopAgent, ma gli sviluppatori devono progettare questa logica.

Nella sua documentazione, Anthropic afferma che le condizioni di maggior successo di solito hanno:

  • Uno stato finale misurabile: un risultato del check, un codice di uscita della construct, un conteggio dei file, una coda vuota

  • Un controllo dichiarato: come Claude dovrebbe dimostrarlo, advert esempio “npm check exits 0” o “git standing is clear”.

  • Vincoli che contano: tutto ciò che non deve cambiare durante il percorso, advert esempio “nessun altro file di check viene modificato”

Affidabilità nel circuito

Per le aziende che già gestiscono stack di strumenti in espansione, l’appello è un valutatore nativo che non aggiunga un altro sistema da mantenere.

Ciò fa parte di una tendenza più ampia nello spazio degli agenti, soprattutto perché la possibilità di agenti con stato, di lunga durata e advert autoapprendimento diventa sempre più una realtà. Modelli di valutazione, sistemi di verifica e altri sistemi di valutazione indipendenti stanno iniziando a comparire nei sistemi di ragionamento e, in alcuni casi, negli agenti di codifica come Devin o SWE-agent.

Sean Brownell, direttore delle soluzioni di Sprinklr, ha detto a VentureBeat in una e-mail che c’è interesse per questo tipo di loop, in cui il compito e il giudice sono separati, ma ritiene che non ci sia nulla di unico nell’approccio di Anthropic.

“Sì, il circuito funziona. Separare il costruttore dal giudice è un buon design perché, fondamentalmente, non puoi fidarti di un modello per giudicare i propri compiti. Il modello che fa il lavoro è il peggior giudice se è stato fatto”, ha detto Brownell. “Detto questo, Anthropic non è il primo a commercializzarlo. La storia più interessante è che due dei più grandi laboratori di intelligenza artificiale del mondo hanno spedito lo stesso comando a pochi giorni di distanza, ma ognuno di loro è giunto a conclusioni completamente numerous su chi può dichiarare ‘fatto.'”

Brownell ha affermato che il ciclo funziona meglio “per il lavoro deterministico con uno stato finale verificabile come le migrazioni, la correzione di suite di check non funzionanti, l’eliminazione di un arretrato”, ma per compiti più sfumati o per coloro che necessitano di giudizio di progettazione, una decisione umana è molto più importante.

Portare la suddivisione valutatore/compito al livello del ciclo degli agenti dimostra che aziende come Anthropic stanno spingendo gli agenti e l’orchestrazione ulteriormente verso un sistema più verificabile e osservabile.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here