Con 620 milioni di utenti mensili, definire un modello di frontiera per ogni immagine consigliata non è una strategia: è un conto. Il CTO di Pinterest Matt Madrigal ha risolto il problema sventrando il livello di visione di Qwen3-VL e ricostruendolo con incorporamenti proprietari, riducendo i costi del 90% e aumentando la precisione del 30%.
Il group di Madrigal ha investito molto nella personalizzazione dei modelli open supply “fondamentalmente internamente”.
“Se disponi di dati davvero unici con cui puoi mettere a punto un modello open supply, la qualità dei dati, francamente, supererà o supererà le dimensioni del modello”, ha spiegato Madrigal in un recente VB Oltre il podcast pilota.
Come Pinterest ha personalizzato Qwen per la scoperta visiva
Pinterest, che conta circa 620 milioni di utenti attivi mensili, applica da tempo modelli open supply per la ricerca e la scoperta visiva, risalendo al BERT di Google e al CLIP di OpenAI. L’azienda ha messo a punto il proprio Pin CLIP su quest’ultimo, incorporando incorporamenti visivi proprietari e metadati delle immagini.
L’assistente allo buying conversazionale di Pinterest, Navigator 1, è stato costruito su Qwen3-VL e personalizzato in modi “piuttosto significativi”. Il group di Madrigal ha sostanzialmente “strappato” il livello del codificatore di visione di Qwen e ha messo a punto il modello su incorporamenti multimodali proprietari. Ciò ha consentito loro di acquisire metadati attorno a segnaposti e immagini che possono poi essere precalcolati offline e regolarmente riqualificati su nuove informazioni per offrire esperienze personalizzate.
“I modelli open supply, in particolare con le licenze Apache aperte in cui puoi davvero modificare molti pesi aperti e personalizzare per casi d’uso unici: è qui che abbiamo scoperto che l’open supply è così potente per noi”, ha affermato Madrigal.
Portare i propri incorporamenti consente al suo group di ottenere contesto su metadati, pin e immagini; inoltre, in particolare, il modello offre prestazioni migliori in fase di esecuzione e inferenza. Senza questi incorporamenti, gli sviluppatori dovrebbero richiamare e codificare ogni immagine restituita in fase di esecuzione, una alla volta. Ciò si traduce in una latenza “20 volte peggiore” dal punto di vista dell’inferenza, ha affermato Madrigal.
“Se è qualcosa che sarà fondamentale per i nostri utenti finali, che stimolerà il coinvolgimento, che dovrà raggiungere oltre 600 milioni di utenti attivi mensili, probabilmente lo costruiremo o sfrutteremo l’open supply e lo personalizzeremo a fondo”, ha affermato.
VB Rework · 14–15 luglio · Menlo Park · Orchestrazione agentica
Intuit ha ricostruito il suo sistema multi-agente in 60 giorni. Cosa sono cambiati e perché?
A Rework, i chief tecnici di Intuit, Goal e Instacart analizzano il modo in cui hanno riprogettato le loro architetture di orchestrazione per garantire affidabilità, scalabilità e clienti reali.
Consulta l’agenda completa →
Come un grafico del gusto cattura gli interessi in evoluzione
Per guidare gli utenti dall’ispirazione all’acquisto, il group di Madrigal ha creato un “grafico dei gusti”: una rappresentazione dinamica di ciò che piace realmente ai singoli utenti, non solo di ciò su cui fanno clic. “È questa rappresentazione dei gusti in evoluzione di miliardi di persone”, ha detto.
Le persone vanno su Google o su altri motori di ricerca quando hanno un quadro chiaro di ciò che vogliono; Pinterest è per quando sono ancora nella fase di scoperta, ha detto Madrigal. L’obiettivo di Pinterest è incoraggiare l'”esplorazione laterale” e trasformare la scoperta in intenzione (ovvero, fare clic sugli annunci o effettuare acquisti).
Sotto il cofano, l’architettura combina una struttura grafica con l’apprendimento rappresentazionale. Gli incorporamenti degli utenti catturano i gusti in evoluzione di un utente. Questi vengono costantemente aggiornati in base all’attività e ai nuovi contenuti e segnali. “Non è un grafico sociale”, ha detto Madrigal. “È più un grafico delle preferenze: cosa ti ispirerà? Cosa stai cercando di fare dopo?”
Advert esempio, un utente potrebbe preferire i design moderni della metà del secolo; un altro potrebbe preferire un’estetica di Nantucket. Tali preferenze verranno catturate negli incorporamenti degli utenti e di conseguenza il grafico dei gusti fornirà prodotti specifici e pertinenti.
“Si passa dall’imbuto superiore, alla scoperta dell’ispirazione, fino all’intento dell’imbuto inferiore”, ha detto Madrigal.
Ascolta il podcast completo per saperne di più su:
-
In che modo Pinterest utilizza i sandbox per incoraggiare la creatività in modo sicuro e contenuto;
-
Perché un ciclo di suggestions continuo può prevenire il rallentamento dell’intelligenza artificiale visiva;
-
L’importanza di un benchmarking costante per valutare il coinvolgimento degli utenti, le prestazioni, la latenza e altri fattori.
Puoi anche ascoltare e iscriverti Oltre il pilota SU Spotify, Mela o ovunque trovi i tuoi podcast.











