Qual è il ruolo dei database vettoriali nel mondo dell’intelligenza artificiale advert agenti? Questa è una domanda con cui le organizzazioni hanno dovuto fare i conti negli ultimi mesi. La narrazione ha avuto un vero slancio. Man mano che i modelli linguistici di grandi dimensioni si adattavano a finestre di contesto di milioni di token, tra gli architetti aziendali circolava un argomento credibile: la ricerca vettoriale appositamente creata period un ripiego, non un’infrastruttura. La memoria agentica assorbirebbe il problema del recupero. I database vettoriali erano un artefatto dell’period RAG.
Le show della produzione vanno nella direzione opposta.
Qdrantla società di ricerca vettoriale open supply con sede a Berlino, ha annunciato giovedì una Serie B da 50 milioni di dollari, due anni dopo una Serie A da 28 milioni di dollari. La tempistica non è casuale. L’azienda distribuisce anche la versione 1.17 della sua piattaforma. Insieme, riflettono un argomento specifico: il problema del recupero non si è ridotto con l’arrivo degli agenti. È cresciuto ed è diventato più difficile.
“Gli esseri umani fanno alcune domande ogni pochi minuti”, ha detto a VentureBeat Andre Zayarni, CEO e co-fondatore di Qdrant. “Gli agenti effettuano centinaia o addirittura migliaia di question al secondo, raccogliendo solo informazioni per poter prendere decisioni.”
Questo cambiamento modifica i requisiti infrastrutturali in modi che le implementazioni dell’period RAG non sono mai state progettate per gestire.
Perché gli agenti necessitano di un livello di recupero che la memoria non può sostituire
Gli agenti operano su informazioni su cui non sono mai stati formati: dati aziendali proprietari, informazioni attuali, milioni di documenti che cambiano continuamente. Le finestre di contesto gestiscono lo stato della sessione. Non forniscono ricerche advert alto richiamo tra i dati, non mantengono la qualità del recupero quando questi cambiano, né sostengono i volumi di question generati dal processo decisionale autonomo.
“La maggior parte dei framework di memoria AI disponibili utilizzano una sorta di memorizzazione vettoriale”, ha affermato Zayarni.
L’implicazione è diretta: anche gli strumenti posizionati come various alla memoria si basano su un’infrastruttura di recupero sottostante.
Tre modalità di guasto emergono quando il livello di recupero non è creato appositamente per il carico. A livello di documento, un risultato mancato non è un problema di latenza: è un problema di qualità della decisione che si aggrava in ogni passaggio di recupero in un singolo turno di agente. Sotto carico di scrittura, la pertinenza diminuisce perché i dati appena acquisiti si trovano in segmenti non ottimizzati prima che l’indicizzazione raggiunga, rendendo le ricerche sui dati più recenti più lente e meno correct proprio quando le informazioni attuali contano di più. Nell’infrastruttura distribuita, una singola duplicate lenta spinge la latenza su ogni chiamata di strumento parallelo in un turno di agente: un ritardo che un utente umano assorbe come inconveniente ma un agente autonomo non può.
La versione 1.17 di Qdrant affronta ciascuno di essi direttamente. Una question di suggestions sulla pertinenza migliora il ricordo regolando il punteggio di somiglianza nel successivo passaggio di recupero utilizzando segnali leggeri generati dal modello, senza riqualificare il modello di incorporamento. Una funzionalità di fan-out ritardato interroga una seconda duplicate quando la prima supera una soglia di latenza configurabile. Una nuova API di telemetria a livello di cluster sostituisce la risoluzione dei problemi nodo per nodo con un’unica visualizzazione dell’intero cluster.
Perché Qdrant non vuole più essere definito un database vettoriale
Quasi tutti i principali database ora supportano i vettori come tipo di dati, dagli hyperscaler ai sistemi relazionali tradizionali. Questo cambiamento ha cambiato la questione competitiva. Il tipo di dati ora è desk stakes. Ciò che rimane specializzato è la qualità del recupero su scala di produzione.
Questa distinzione è il motivo per cui Zayarni non vuole più che Qdrant venga chiamato database vettoriale.
“Stiamo costruendo un livello di recupero delle informazioni per l’period dell’intelligenza artificiale”, ha affermato. “I database servono per archiviare i dati degli utenti. Se la qualità dei risultati di ricerca è importante, hai bisogno di un motore di ricerca.”
Il suo consiglio per i group che iniziano: usa qualunque supporto vettoriale sia già nel tuo stack. I group che migrano verso il recupero mirato lo fanno quando la dimensione impone il problema. “Ogni giorno vediamo aziende venire da noi dicendo di aver iniziato con Postgres e di aver pensato che fosse abbastanza buono, ma non lo è.”
L’architettura di Qdrant, scritta in Rust, offre efficienza della memoria e controllo delle prestazioni di basso livello che i linguaggi di livello superiore non raggiungono allo stesso costo. La base open supply aggiunge questo vantaggio: il suggestions della comunità e l’adozione degli sviluppatori sono ciò che consente a un’azienda delle dimensioni di Qdrant di competere con fornitori che dispongono di risorse ingegneristiche molto più grandi. “Senza di esso, non saremmo affatto dove siamo adesso”, ha detto Zayarni.
Come due group di produzione hanno scoperto i limiti dei database generici
Le aziende che costruiscono sistemi di intelligenza artificiale su Qdrant sostengono la stessa argomentazione da direzioni various: gli agenti hanno bisogno di un livello di recupero e la memoria conversazionale o contestuale non può sostituirlo.
GlassDollar aiuta aziende come Siemens e Mahle a valutare le startup. La ricerca è il prodotto principale: un utente descrive un bisogno in linguaggio naturale e ottiene una lista di risultati selezionati da un corpus di milioni di aziende. L’architettura esegue l’espansione delle question su ogni richiesta: un singolo immediate si sviluppa in più question parallele, ciascuna delle quali recupera i candidati da un’angolazione diversa, prima che i risultati vengano combinati e riclassificati. Si tratta di un modello di recupero agentico, non di un modello RAG, e richiede un’infrastruttura di ricerca appositamente creata per sostenerlo a quantity.
L’azienda è migrata da Elasticsearch per raggiungere i 10 milioni di documenti indicizzati. Dopo essere passato a Qdrant, ha tagliato i costi dell’infrastruttura di circa il 40%, ha abbandonato il livello di compensazione basato su parole chiave che aveva mantenuto per compensare le lacune di pertinenza di Elasticsearch e ha registrato un aumento di 3 volte del coinvolgimento degli utenti.
“Misuriamo il successo in base al ricordo”, ha detto a VentureBeat Kamen Kanev, responsabile del prodotto di GlassDollar. “Se le migliori aziende non compaiono nei risultati, nient’altro conta. L’utente perde fiducia.”
Nemmeno la memoria agenti e le finestre di contesto estese sono sufficienti per assorbire il carico di lavoro di cui GlassDollar ha bisogno.
“Questo è un problema infrastrutturale, non un compito di gestione dello stato di conversazione”, ha detto Kanev. “Non è qualcosa che risolvi estendendo una finestra di contesto.”
Un altro utente Qdrant lo è &AIche sta costruendo infrastrutture per le controversie sui brevetti. Il suo agente AI, Andy, esegue la ricerca semantica su centinaia di milioni di documenti che abbracciano decenni e molteplici giurisdizioni. Gli avvocati specializzati in brevetti non agiranno sul testo legale generato dall’intelligenza artificiale, il che significa che ogni risultato emerso dall’agente deve essere fondato su un documento reale.
“Tutta la nostra architettura è progettata per ridurre al minimo il rischio di allucinazioni, rendendo il recupero il nucleo primitivo, non la generazione”, ha detto a VentureBeat Herbie Turner, fondatore e CTO di &AI.
Per &AI, il livello agente e il livello di recupero sono distinti per progettazione.
“Andy, il nostro agente specializzato in brevetti, si basa su Qdrant”, ha affermato Turner. “L’agente è l’interfaccia. Il database vettoriale è la verità fondamentale.”
Tre segnali indicano che è ora di abbandonare la configurazione attuale
Il punto di partenza pratico: usa qualunque capacità vettoriale sia già nel tuo stack. La domanda di valutazione non è se aggiungere la ricerca vettoriale, ma quando la configurazione attuale smette di essere adeguata. Tre segnali evidenziano questo punto: la qualità del recupero è direttamente legata ai risultati aziendali; i modelli di question implicano espansione, riclassificazione in più fasi o chiamate a strumenti paralleli; oppure il quantity dei dati arriva a decine di milioni di documenti.
A quel punto la valutazione si sposta su questioni operative: quanta visibilità offre la configurazione attuale su ciò che accade in un cluster distribuito e quanto margine di prestazioni ha quando aumentano i volumi di question degli agenti.
“C’è molto rumore in questo momento su cosa sostituirà lo strato di recupero”, ha detto Kanev. “Ma per chiunque crei un prodotto in cui la qualità del recupero è il prodotto principale, dove la mancanza di un risultato ha conseguenze aziendali reali, è necessaria un’infrastruttura di ricerca dedicata.”










