La crescente domanda di pc in grado di eseguire modelli di intelligenza artificiale non ha fatto altro che accelerare, ma ci sono due ostacoli principali che chiunque nel settore deve superare: ottenere i chip giusti e inserirli nei information middle dove possono iniziare a generare entrate.
Common Compute, un nuovo neocloud di inferenza – una società che affitta la potenza di elaborazione dell’IA, specializzata nella fase in cui i modelli sono in esecuzione e rispondono agli utenti anziché essere addestrati – ha risposte a quelle domande che illuminano dove è diretto l’ecosistema AI. Queste risposte l’hanno aiutata a raccogliere un spherical iniziale di 15 milioni di dollari con una valutazione post-money di 60 milioni di dollari, guidato da FUSE VC con la partecipazione di Carya Enterprise Companions e Village International Ventures.
Innanzitutto, qual è il chip giusto? La domanda di GPU è salita alle stelle, ma sta diventando opinione comune che non siano i chip più adatti per eseguire modelli di intelligenza artificiale una volta addestrati. La fase dell’intelligenza artificiale in cui un modello genera attivamente risposte ha requisiti computazionali diversi rispetto all’addestramento e una nuova classe di chip viene progettata appositamente per questo. La transazione Groq da 20 miliardi di dollari di Nvidia a dicembre e l’IPO da 57 miliardi di dollari di Cerebras la scorsa settimana indicano la strada.
Con le capacità limitate di entrambe le società, i cofondatori di Common Compute, il CEO Finn Puklowski e il CTO Jason Goodison, hanno trovato un’altra opzione. Si stanno rivolgendo a chip specializzati costruiti da SambaNova, un produttore di chip sostenuto da Intel focalizzato sull’inferenza che è rimasto un po’ fuori dalle conversazioni della Silicon Valley.
Ciò potrebbe cambiare quando SambaNova rilascerà i suoi nuovi chip quest’anno. L’architettura è più flessibile e utilizza più memoria per archiviare il contesto durante i calcoli di inferenza e SambaNova afferma di superare non solo le GPU ma anche altri chip specializzati costruiti da aziende del calibro di Groq o Cerebras. Puklowski afferma che i nuovi chip genereranno da 600 a 700 token al secondo, contro i circa 250 token al secondo delle GPU.
Common Compute ha ordinato 300 milioni di dollari di chip SN50 dell’azienda e afferma che sarà il primo neocloud a distribuirli.
Questi chip aiutano anche a risolvere il secondo grande problema, ovvero dove collocarli, per il Common Compute: sono raffreddati advert aria, non advert acqua, e consumano meno energia, quindi possono essere installati nei information middle esistenti senza nuovi investimenti infrastrutturali.
Puklowski sta perseguendo accordi di colocation – accordi in cui Common Compute installa il suo {hardware} nella struttura di qualcun altro – non solo con fornitori di information middle, ma anche con minatori di criptovalute che cercano di riconvertire la loro infrastruttura poiché il costo di produzione di un bitcoin ha spesso superato il suo prezzo.
Common Compute ha lanciato la sua offerta cloud la scorsa settimana, sostenendo che è già la più veloce nell’esecuzione di MiniMax 2.7, un potente LLM open supply.
Joe Hassleman è un investitore di enterprise capital che ha colto l’occasione del growth dell’inferenza quando ha investito in Groq nel 2021. Quest’anno ha lanciato un nuovo fondo, Evercrest Companions, focalizzato sullo spazio dell’intelligenza artificiale, e ha fatto di Common Compute il suo primo investimento. Hassleman vede nella partnership di SambaNova con Common Compute parallelismi con la relazione di Coreweave con Nvidia – e con l’abbinamento della produzione di chip di Groq con la sua precedente offerta cloud.
“Hanno bisogno di un sano combine di clienti che metteranno i loro chip in ambienti che avranno una crescita elevata per loro”, ha detto Hassleman. “Per quanto Common Compute sta scommettendo su SambaNova, SambaNova sta scommettendo su Common Compute.”
La domanda è: quale tipo di architettura informatica acquisirà il massimo valore nel futuro dell’intelligenza artificiale. I cloud di inferenza sono scommesse implicite su un mondo di molteplici modelli e agenti, un mondo in cui nessun singolo fornitore domina e la velocità e il costo dell’inferenza diventano le principali variabili aggressive. Considera i 113 milioni di dollari di Serie B raccolti per OpenRouter questa settimana, che riflettono la capacità dell’azienda di offrire ai clienti l’accesso a più modelli al nice di ottimizzare la spesa in token.
La velocità è importante in questo calcolo, per il prezzo e per la capacità. Puklowski vuole trasformare i carichi di lavoro di un’ora per gli agenti di codifica in attività di cinque o dieci minuti e rendere più economici gli agenti audio per il servizio clienti, che richiedono un’inferenza più rapida per conversare in modo efficace.
“Se usi ChatGPT e ti dà 50 token al secondo, è ancora molto più veloce di quanto possiamo leggere”, ha detto Puklowski a TechCrunch, “Ora che le cose si sono spostate da agente advert agente, dove gli agenti sono là fuori a leggere per nostro conto o a eseguire il ping dei database, devono andare più veloci.”
Quando acquisti tramite i hyperlink presenti nei nostri articoli, potremmo guadagnare una piccola commissione. Ciò non pregiudica la nostra indipendenza editoriale.











