Quando il staff dati di Miro ha indirizzato gli agenti IA direttamente all’ambiente Snowflake, gli agenti hanno ottenuto la risposta sbagliata più del 65% delle volte. Il problema non period il modello: period il contesto. Con più di 10.000 tabelle e nessun livello semantico a guidare il routing, gli agenti non avevano modo di sapere quali risorse di dati corrispondevano a quali domande aziendali.
Giovedì DataHub rilascerà un livello di intelligence del contesto che estrae la cronologia delle question SQL esistente per creare un indice semantico e lo espone agli agenti tramite MCP, LangChain, Agent Improvement Package di Google e CrewAI. L’azienda la chiama Context Intelligence ed è costruita sulla stessa infrastruttura di log delle question che DataHub ha utilizzato per il tracciamento della derivazione nelle distribuzioni di produzione in tutto il mondo.
L’azienda è stata fondata dal staff che ha creato DataHub come progetto open supply su LinkedIn, dove il cofondatore e CTO Shirshanka Das ha guidato l’infrastruttura dati per quasi 11 anni. Il progetto open supply conta ora più di 15.000 collaboratori e 3.000 implementazioni di produzione in tutto il mondo.
“Per la prima volta, le aziende possono trasformare anni di cronologia delle question degli analisti in una base di conoscenza viva e recuperabile in cui gli agenti smettono di avere allucinazioni sui be a part of perché hanno accesso ai be a part of che hanno funzionato prima, convalidati dalle persone che li gestivano”, ha detto Shirshanka Das, co-fondatrice e CTO di DataHub, a VentureBeat in un’intervista esclusiva.
Perché la cronologia delle question è migliore dello schema non elaborato per il routing degli agenti
DataHub è nato come progetto di gestione dei metadati presso LinkedIn, creato per risolvere due problemi contemporaneamente: rendere i dati facili da trovare e utilizzare in tutta l’organizzazione garantendo al tempo stesso che vengano utilizzati solo per le giuste ragioni. Das ha reso open supply il progetto all’inizio del 2020 dopo quasi sei anni di sviluppo interno.
Il caso d’uso principale negli anni successivi è stato il lignaggio: comprendere come i dati fluiscono dai sistemi operativi attraverso l’infrastruttura di streaming nei magazzini e verso gli strumenti aziendali. Gli audit di conformità normativa, il triage operativo e l’inserimento di nuovi ingegneri dipendono tutti da quel grafico di derivazione. Postgres è la fonte più connessa nella base di distribuzione DataHub a livello globale, seguita da MySQL, Oracle e dai principali cloud warehouse tra cui Snowflake e Google BigQuery. La piattaforma supporta più di 100 fonti di metadati connesse.
Questa base distribuita è importante per ciò che DataHub sta rilasciando. Le funzionalità di estrazione del log delle question e di analisi SQL che alimentano Context Intelligence sono state sviluppate nel corso di anni di distribuzione in produzione, non realizzate per questa versione. La stessa infrastruttura ora serve gli agenti che interrogano un indice semantico in fase di esecuzione.
“Lo strato di consumo è cambiato da esseri umani advert agenti”, ha detto Das.
Context Intelligence estrae la cronologia delle question convalidate, non i registri grezzi
Context Intelligence è un nuovo livello di capacità costruito sulla base di metadati open supply esistente di DataHub. La piattaforma open supply ha impiegato anni a estrarre e analizzare i registri delle question dai magazzini connessi per il monitoraggio della derivazione. Quella stessa infrastruttura è ciò a cui fa riferimento Context Intelligence per costruire l’indice semantico. La funzionalità è nuova. L’impianto idraulico sottostante non lo è.
Filtraggio per il segnale. I log delle question del warehouse contengono troppo rumore per essere utilizzati direttamente. Il motore di DataHub filtra quelle che Das descrive come le “question d’oro”, ovvero question di analisti di alta qualità e pipeline pianificate che rappresentano una logica aziendale comprovata.
Inversione di SQL in definizioni semantiche. Il motore estrae modelli da tali question e li traduce in definizioni di testo strutturato che DataHub chiama ancore semantiche. Tali ancoraggi costituiscono la base di recupero su cui si basano gli agenti prima di generare SQL. “Si può quasi pensare a come invertire il testo in SQL”, ha detto Das.
La convalida umana è al primo posto. Context Hub consente agli esperti del settore di esaminare il contesto proposto dall’intelligenza artificiale, risolvere definizioni contrastanti e simulare l’impatto delle modifiche prima della pubblicazione. DataHub evidenzia casi in cui staff diversi calcolano la stessa metrica in modo diverso e li genera per la risoluzione umana.
Come Miro ha fatto sì che gli agenti IA lavorassero su 10.000 tavoli Snowflake
Miro, la piattaforma di collaborazione digitale, stava già utilizzando DataHub per il tracciamento della derivazione e l’analisi dell’impatto quando ha iniziato a testare gli agenti di analisi rispetto al suo ambiente Snowflake. Ronald Angel, product supervisor per la piattaforma dati di Miro, ha dichiarato a VentureBeat che la portata del patrimonio di dati è diventata immediatamente il problema. L’invio di question in linguaggio naturale direttamente all’MCP Snowflake ha prodotto risposte errate più del 65% delle volte. L’esposizione diretta di più di 10.000 tabelle agli agenti causava troppa confusione riguardo al routing affidabile.
Miro ha affrontato il problema organizzando i dati in prodotti di dati ben definiti che limitano ciò che gli agenti possono vedere anziché esporre uno schema grezzo. L’architettura di produzione parte dalle richieste degli utenti inviate tramite Claude Chat o Claude Cowork attraverso un livello di contesto in cui l’MCP di DataHub associa il linguaggio naturale alle risorse di dati acceptable, quindi passa all’MCP di Snowflake per la generazione SQL.
Angel ha affermato che il livello di contesto inserisce metadati, relazioni tra entità, cronologia delle question e intenti aziendali per ciascuna tabella Snowflake, in particolare a quale domanda aziendale è progettata per rispondere ciascuna entità. Questi segnali semantici consentono all’agente di identificare le entità del database corrette prima di scrivere SQL anziché fare supposizioni solo dallo schema.
Pinecone, Oracle, Redis, Microsoft: come DataHub si adatta allo stack di contesto
I fornitori di dati, tra cui Pinecone, Oracle e Redis, dispongono tutti di funzionalità di memoria contestuale. Dal punto di vista della piattaforma, Microsoft ha sviluppato il suo Material IQ come livello semantico per il contesto.
L’argomento di DataHub non è la parità di funzionalità. L’azienda sta posizionando il livello di contesto come neutrale rispetto alla piattaforma, fornendo il contesto agli endpoint esistenti come le viste semantiche Snowflake e Microsoft Material IQ invece di sostituirli.
“Molte volte le persone vogliono essere neutrali rispetto alla piattaforma quando si tratta del loro livello di contesto”, ha detto Das.
Kevin Petrie, analista di BARC, ha dichiarato a VentureBeat che ritiene che la capacità di DataHub di integrare diversi metadati per oggetti sia strutturati che non strutturati, inclusi documenti e immagini, li differenzia sul mercato.
“Molti altri fornitori si concentrano maggiormente sulle tabelle strutturate, che forniscono fatti attendibili ma spesso mancano del ricco contesto degli oggetti di testo”, ha affermato.
Michael Ni, vicepresidente e analista principale di Constellation Analysis, ha dichiarato a VentureBeat che per lui ciò che risalta nel livello di contesto di DataHub è il suo supporto al passaggio dalla catalogazione passiva all’intelligenza semantica continuamente aggiornata. Ni ha descritto la competizione per il contesto come la prossima grande guerra tra piattaforme, sostenendo che chiunque controlli il contesto in fase di runtime controlla il livello decisionale per dati, agenti, flussi di lavoro e decisioni.
“Gli acquirenti devono stare attenti, dal momento che molti fornitori supportano solo una parte delle funzionalità di contesto full richieste per le soluzioni AI e agenti”, ha affermato Ni. “Gli acquirenti dovrebbero essere chiari sui requisiti di gestione del contesto, poiché la memoria vettoriale non è il significato aziendale, il significato aziendale non è governance e la governance non è esecuzione.”













