Gli ingegneri che creano agenti browser oggi devono scegliere tra API chiuse che non possono ispezionare e framework open-weight senza alcun modello addestrato al di sotto di essi. Ai2 offre ora una terza opzione.
L’organizzazione no-profit con sede a Seattle dietro il OLMo open supply modelli linguistici e Molmo La famiglia Imaginative and prescient-Language lancia oggi MolmoWeb, un agente net visivo di peso aperto disponibile in 4 miliardi e 8 miliardi di dimensioni di parametri. Fino advert ora, nessun agente net visivo open-weight veniva fornito con i dati di addestramento e la pipeline necessari per controllarlo o riprodurlo. MolmoWeb lo fa. MolmoWebMix, il set di dati di accompagnamento, embrace 30.000 traiettorie di attività umane su più di 1.100 siti Net, 590.000 dimostrazioni di sottoattività individuali e 2,2 milioni di coppie di domande-risposte di screenshot, che Ai2 descrive come la più grande raccolta pubblicata pubblicamente di esecuzioni di attività Net umane mai assemblata.
“Si può passare dalla semplice comprensione passiva delle immagini, alla loro descrizione e didascalia, al farle effettivamente agire in un determinato ambiente?” Lo ha detto Tanmay Gupta, ricercatore senior presso Ai2 VentureBeat. “MolmoWeb è proprio questo.”
Come funziona: Vede ciò che vedi tu
MolmoWeb funziona interamente tramite screenshot del browser. Non analizza l’HTML né si basa sulle rappresentazioni dell’albero di accessibilità di una pagina. Advert ogni passaggio riceve un’istruzione dell’attività, lo screenshot corrente, un registro testuale delle azioni precedenti e l’URL corrente e il titolo della pagina. Produce un pensiero in linguaggio naturale che descrive il suo ragionamento, quindi esegue l’azione successiva del browser: fare clic sulle coordinate dello schermo, digitare testo, scorrere, navigare verso un URL o cambiare scheda.
Il modello è indipendente dal browser. Richiede solo uno screenshot, il che significa che funziona con Chrome locale, Safari o un servizio browser ospitato. La demo ospitata utilizza Browserbase, un’avvio dell’infrastruttura del browser cloud.
Il set di dati che lo fa funzionare
I pesi del modello sono solo una parte di ciò che Ai2 sta rilasciando. MolmoWebMix, il set di dati di addestramento allegato, è l’elemento di differenziazione principale da ogni altro agente a peso aperto oggi disponibile.
“I dati sembrano fondamentalmente una sequenza di screenshot e azioni abbinate a istruzioni su quale fosse l’intento dietro quella sequenza di screenshot”, ha detto Gupta.
MolmoWebMix combina tre componenti.
Dimostrazioni umane. Gli annotatori umani hanno completato le attività di navigazione utilizzando un’estensione Chrome personalizzata che ha registrato azioni e screenshot su oltre 1.100 siti Net. Il risultato sono 30.000 traiettorie di attività che abbracciano più di 590.000 dimostrazioni di sottoattività individuali.
Traiettorie sintetiche. Per andare oltre ciò che la sola annotazione umana può fornire, Ai2 ha generato traiettorie aggiuntive utilizzando agenti dell’albero di accessibilità basati su testo: esecuzioni di un singolo agente filtrate per il successo delle attività, pipeline multi-agente che scompongono le attività in sotto-obiettivi e percorsi di navigazione deterministici attraverso centinaia di siti net. Fondamentalmente, non sono stati utilizzati agenti visivi proprietari. I dati sintetici provenivano da sistemi di solo testo, non da OpenAI Operator o dall’API di utilizzo del pc di Anthropic.
Dati sulla percezione della GUI. Un terzo componente addestra il modello a leggere e ragionare sul contenuto della pagina direttamente dalle immagini. Comprende più di 2,2 milioni di coppie di domande-risposte di screenshot tratte da quasi 400 siti Net, che coprono attività di base degli elementi e di ragionamento basate su screenshot.
“Se sei in grado di eseguire un’attività e di registrare una traiettoria da essa, dovresti essere in grado di addestrare l’agente net su quella traiettoria a svolgere esattamente la stessa attività”, ha affermato Gupta.
Come MolmoWeb si confronta con la concorrenza
Secondo Gupta, esistono due categorie di tecnologie nel mercato degli agenti browser.
Il primo riguarda i sistemi solo API, capaci ma chiusi, senza visibilità sulla formazione o sull’architettura. OpenAI Operator, l’API per l’utilizzo del pc di Anthropic e l’utilizzo del pc Gemini di Google rientrano in questo gruppo. La seconda riguarda i modelli a peso aperto, una categoria significativamente più piccola. L’uso del browser, l’alternativa aperta più ampiamente adottata, è una struttura piuttosto che un modello addestrato. Richiede agli sviluppatori di fornire il proprio LLM e di creare sopra il livello agente.
MolmoWeb si colloca nella seconda categoria come modello di visione a peso aperto completamente addestrato. Ai2 riferisce di essere in testa a quel gruppo in quattro benchmark di siti Net reside: WebVoyager, On-line-Mind2Web, DeepShop e WebTailBench. Secondo Ai2, supera anche i vecchi agenti basati su API basati su GPT-4o con albero di accessibilità e enter di screenshot.
Ai2 documenta numerous limitazioni attuali nella versione. Il modello commette errori occasionali durante la lettura del testo dagli screenshot, le interazioni drag-and-drop rimangono inaffidabili e le prestazioni peggiorano in caso di istruzioni ambigue o fortemente vincolate. Inoltre, il modello non è stato addestrato su attività che richiedono accessi o transazioni finanziarie.
I staff aziendali che valutano gli agenti browser non si limitano a scegliere un modello. Stanno decidendo se possono controllare ciò che stanno eseguendo, ottimizzarlo sui flussi di lavoro interni ed evitare una dipendenza API per chiamata.













