Home Tecnologia Il nuovo modello di codifica di Cursor, Composer 2, è qui: batte...

Il nuovo modello di codifica di Cursor, Composer 2, è qui: batte Claude Opus 4.6 ma è ancora dietro GPT-5.4

7
0

Cursor, una piattaforma di codifica AI di San Francisco della startup Anysphere del valore di 29,3 miliardi di dollariha lanciato Compositore 2un nuovo modello di codifica interno ora disponibile all’interno del suo ambiente di codifica con intelligenza artificiale advert agenti e offre parametri di riferimento drasticamente migliorati rispetto al precedente modello interno.

È anche lanciare e creare Compositore 2 Veloceuna variante più costosa ma più veloce, l’esperienza predefinita per gli utenti.

Ecco la ripartizione dei costi:

Si tratta di un grande calo rispetto al modello interno predecessore di Cursor, Compositore 1.5, da febbraioche costa $ 3,50 per milione di token di enter e $ 17,50 per milione di token di output; Il compositore 2 costa circa l’86% in meno su entrambi i fronti.

Anche Composer 2 Quick è più o meno 57% più economico rispetto a Composer 1.5.

Sono previsti anche sconti per i “prezzi di lettura della cache”, ovvero l’invio di alcuni degli stessi token in una richiesta al modello, di $ 0,20 per milione di token per Composer 2 e $ 0,35 per milione per Composer 2 Quick, contro $ 0,35 per milione per Composer 1.5.

È anche importante che questa sembri essere una versione nativa di Cursor, non un modello autonomo ampiamente distribuito. Nell’annuncio dell’azienda e nella documentazione del modello, Composer 2 è descritto come disponibile in Cursor, ottimizzato per il flusso di lavoro dell’agente Cursor e integrato con lo stack di strumenti del prodotto.

I materiali forniti non indicano disponibilità separata tramite piattaforme di modelli esterni o come API generica al di fuori dell’ambiente Cursor.

Il cursore propone una codifica a lungo orizzonte, non solo completamenti migliori

L’affermazione tecnica più profonda in questa versione non è semplicemente che Composer 2 ottiene punteggi più alti di Composer 1.5. Cursor afferma che il modello è più adatto alla codifica di agenti a lungo orizzonte.

Nel suo weblog, Cursor afferma che i miglioramenti in termini di qualità derivano dalla sua prima sessione di pre-addestramento continuo, che gli ha fornito una base più forte per l’apprendimento per rinforzo su scala. Da lì, l’azienda afferma di aver addestrato Composer 2 su attività di codifica a lungo orizzonte e che il modello può risolvere problemi che richiedono centinaia di azioni.

Questa definizione è importante perché affronta uno dei maggiori problemi irrisolti nella codifica dell’intelligenza artificiale. Molti modelli sono efficaci nella generazione di codice isolato. Molti meno rimangono affidabili in un flusso di lavoro più lungo che embody la lettura di un repository, la decisione di cosa modificare, la modifica di più file, l’esecuzione di comandi, l’interpretazione degli errori e il proseguimento verso un obiettivo.

La documentazione di Cursor rafforza il fatto che questo è il caso d’uso a cui tiene. Descrive Composer 2 come un modello advert agenti con una finestra di contesto da 200.000 token, ottimizzata per l’uso degli strumenti, le modifiche dei file e le operazioni del terminale all’interno di Cursor.

Rileva inoltre tecniche di formazione come l’auto-riepilogo per attività di lunga durata. Per gli sviluppatori che già utilizzano Cursor come ambiente principale, questa messa a punto più rigorosa può avere più importanza di una generica affermazione in classifica.

I guadagni del benchmark sono sostanziali, anche se GPT-5.4 è ancora in testa su un grafico chiave

Confronto di Cursor Composer 2 con altri modelli chief su benchmark di terze parti. Credito: cursore

I risultati pubblicati da Cursor mostrano un netto miglioramento rispetto ai modelli Composer precedenti. L’azienda elenca Composer 2 a 61,3 su CursorBench, 61,7 su Terminal-Bench 2.0 e 73,7 su SWE-bench Multilingual.

Ciò si confronta con Composer 1.5 a 44.2, 47.9 e 65.9 e Composer 1 a 38.0, 40.0 e 56.9.

Il rilascio è più misurato rispetto al lancio di alcuni modelli perché Cursor non rivendica la management universale.

Su Terminal-Bench 2.0, che misura la capacità di un agente AI di eseguire attività nelle interfacce in stile terminale della riga di comando, GPT-5.4 è ancora in testa con 75,1, mentre Composer 2 ottiene 61,7, davanti a Opus 4.6 a 58,0, Opus 4.5 a 52,1 e Composer 1.5 a 47,9.

Punteggio Cursor Composer 2 su Terminal-Bench 2.0 rispetto ad altri modelli leader.

Punteggio Cursor Composer 2 su Terminal-Bench 2.0 rispetto advert altri modelli chief. Credito: cursore

Ciò rende la proposta di Cursor più pragmatica e probabilmente più utile per gli acquirenti. L’azienda non sta dicendo che Composer 2 sia il modello migliore in assoluto. Si cube che il modello sia passato a un livello di qualità più competitivo, offrendo allo stesso tempo aspetti economici più interessanti e una maggiore integrazione con i prodotti che gli sviluppatori stanno già utilizzando.

Cursor ha anche incluso un grafico prestazioni/costi nella sua suite di benchmarking CursorBench che sembra progettato per fornire un argomento in stile Pareto a favore di Composer 2.

Cursor Composer 2 Grafico di confronto tra prestazioni e modello di costo

Cursor Composer 2 Grafico di confronto tra prestazioni e modello di costo. Credito: cursore

In questo grafico, Composer 2 si trova a un punto di rapporto costo-prestazioni più elevato rispetto a Composer 1.5 e regge favorevolmente il confronto con le impostazioni GPT-5.4 e Opus 4.6 a costo più elevato mostrate da Cursor. Il messaggio dell’azienda non è semplicemente che Composer 2 ottiene punteggi più alti rispetto al suo predecessore, ma che potrebbe offrire un compromesso più efficiente tra costo e intelligenza per il lavoro quotidiano di codifica all’interno di Cursor.

Perché il punto “bloccato sul cursore” è importante per gli acquirenti

Per i lettori che decidono se utilizzare Composer 2, la domanda più importante potrebbe non essere solo la prestazione del benchmark. Potrebbe essere se desiderano un modello ottimizzato per l’esperienza del prodotto Cursor.

Questo può essere un punto di forza. Secondo la documentazione, Composer 2 può accedere allo stack di strumenti agente di Cursor, inclusa la ricerca di codice semantico, ricerca di file e cartelle, lettura di file, modifica di file, comandi shell, controllo del browser e accesso net.

Questo tipo di integrazione può essere più prezioso della qualità grezza del modello se l’obiettivo è completare attività software program reali anziché produrre risposte quick e impressionanti.

Ma restringe anche il pubblico a cui rivolgersi. I workforce alla ricerca di un modello da poter implementare ampiamente su più strumenti e piattaforme esterni dovrebbero riconoscere che Cursor presenta Composer 2 come un modello per gli utenti di Cursor, non come un modello di base autonomo generalmente disponibile.

Il quadro più ampio: il cursore sta sostenendo un argomento operativo

L’importanza di Composer 2 non è che Cursor abbia improvvisamente preso il primo posto in ogni benchmark di codifica. Non è così. Il punto più importante è che Cursor sta sostenendo un argomento operativo: il suo modello sta migliorando, i suoi prezzi sono sufficientemente bassi da incoraggiare un uso più ampio e il suo livello più veloce è sufficientemente reattivo da consentire all’azienda di renderlo predefinito nonostante il costo più elevato.

Questa combinazione potrebbe avere risonanza tra i workforce di ingegneri che si preoccupano sempre meno del prestigio del modello astratto e più della possibilità che un assistente possa rimanere utile durante lunghe sessioni di codifica senza diventare proibitivamente costoso.

Il cursore è più ampio struttura dei prezzi aiuta a inquadrare la pressione competitiva attorno a questo lancio. Nella sua attuale pagina dei prezzi, Cursor offre un livello Pastime gratuito, a Piano Professional a $ 20 al mese, Professional+ a $ 60 al meseE Extremely a $ 200 al mese per singoli utenti, con livelli più alti che offrono un maggiore utilizzo tra i modelli di OpenAI, Anthropic e Google.

Dal lato commerciale, Groups costa $ 40 per utente al mesementre Enterprise ha un prezzo personalizzato e aggiunge utilizzo in pool, fatturazione centralizzata, analisi dell’utilizzo, controlli della privateness, SSO, registri di controllo e controlli amministrativi granulari. In altre parole, Cursor non addebita solo l’accesso a un modello di codifica. Viene addebitato un livello di applicazione gestita che si sovrappone a più fornitori di modelli aggiungendo funzionalità del workforce, governance e strumenti per il flusso di lavoro.

Questo modello è sempre più sotto pressione poiché le aziende di intelligenza artificiale di prima parte si spingono sempre più nella codifica stessa. OpenAI e Anthropic non vendono più solo modelli tramite prodotti di terze parti; stanno inoltre distribuendo le proprie interfacce di codifica, agenti e quadri di valutazione – come Codex e Claude Code – sollevando la questione di quanto spazio rimanga per una piattaforma intermediaria.

I commentatori di X, sebbene non verificati e non necessariamente rappresentativi del mercato più ampio, hanno sempre più descritto il passaggio da Cursor a Claude Code di Anthropic, soprattutto tra gli utenti esperti attratti da flussi di lavoro terminal-first, dal comportamento degli agenti a lungo termine e da un minor sovraccarico percepito.

Alcuni di questi publish descrivono la frustrazione per i prezzi di Cursor, la perdita di contesto o l’esperienza incentrata sull’editor, elogiando Claude Code come un modo di lavorare più diretto e pienamente agente. Anche se trattate con cautela, questo tipo di chiacchiere sociali sottolinea il problema strategico che Cursor deve affrontare: deve dimostrare che la sua piattaforma integrata, i controlli del workforce e ora i suoi modelli interni aggiungono abbastanza valore da giustificare il fatto di sedersi tra gli sviluppatori e i prodotti di codifica sempre più capaci dei creatori di modelli.

Ciò rende Composer 2 strategicamente importante per Cursor.

Offrendo un modello interno molto più economico rispetto a Composer 1.5, adattandolo strettamente allo stack di strumenti di Cursor e rendendo predefinita una versione più veloce, l’azienda sta cercando di dimostrare che fornisce più di un wrapper per sistemi esterni.

La sfida è che con il miglioramento dei prodotti di codifica di prima parte, gli sviluppatori e gli acquirenti aziendali potrebbero chiedersi sempre più se desiderano una piattaforma di codifica AI separata o se gli strumenti dei creatori di modelli stanno diventando sufficienti da soli.

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here