Ogni cluster GPU ha tempi morti. I lavori di formazione finiscono, i carichi di lavoro cambiano e l'{hardware} resta spento mentre i costi di alimentazione e raffreddamento continuano a crescere. Per gli operatori neocloud, quei cicli vuoti rappresentano un margine perso.
La soluzione ovvia è rappresentata dai mercati spot delle GPU: affittare la capacità inutilizzata a chiunque ne abbia bisogno. Ma le istanze spot significano che il fornitore del cloud è ancora quello che si occupa del noleggio, e gli ingegneri che acquistano quella capacità stanno ancora pagando per il calcolo grezzo senza stack di inferenza collegato.
La risposta di FriendliAI è diversa: esegui l’inferenza direttamente sull'{hardware} inutilizzato, ottimizza il throughput dei token e dividi le entrate con l’operatore. FriendliAI è stata fondata da Byung-Gon Chun, il ricercatore il cui articolo sul batching continuo è diventato fondamentale per vLLM, il motore di inferenza open supply utilizzato oggi nella maggior parte delle implementazioni di produzione.
Chun ha trascorso oltre un decennio come professore alla Seoul Nationwide College studiando l’esecuzione efficiente di modelli di apprendimento automatico su larga scala. Quella ricerca ha prodotto un articolo intitolato Orcache ha introdotto il dosaggio continuo. La tecnica elabora le richieste di inferenza in modo dinamico anziché attendere di riempire un batch fisso prima dell’esecuzione. Ora è uno commonplace del settore ed è il meccanismo principale all’interno di vLLM.
Questa settimana, FriendliAI lancia una nuova piattaforma chiamata InferenceSense. Proprio come gli editori utilizzano Google AdSense per monetizzare l’inventario pubblicitario invenduto, gli operatori neocloud possono utilizzare InferenceSense per riempire i cicli GPU inutilizzati con carichi di lavoro di inferenza AI a pagamento e raccogliere una quota delle entrate dei token. I lavori dell’operatore hanno sempre la priorità: nel momento in cui uno scheduler recupera una GPU, InferenceSense cede.
“Quello che stiamo fornendo è che invece di lasciare le GPU inattive, eseguendo inferenze possono monetizzare quelle GPU inattive”, ha detto Chun a VentureBeat.
Come un laboratorio della Seoul Nationwide College ha costruito il motore all’interno di vLLM
Chun ha fondato FriendliAI nel 2021, prima che la maggior parte del settore spostasse l’attenzione dalla formazione all’inferenza. Il prodotto principale dell’azienda è un servizio endpoint di inferenza dedicato per startup e imprese IA che utilizzano modelli open-weight. FriendliAI appare anche come opzione di distribuzione su Hugging Face insieme advert Azure, AWS e GCP e attualmente supporta più di 500.000 modelli open-weight dalla piattaforma.
InferenceSense ora estende quel motore di inferenza al problema di capacità che gli operatori GPU devono affrontare tra i carichi di lavoro.
Come funziona
InferenceSense funziona su Kubernetes, che la maggior parte degli operatori neocloud utilizza già per l’orchestrazione delle risorse. Un operatore assegna un pool di GPU a un cluster Kubernetes gestito da FriendliAI, dichiarando quali nodi sono disponibili e a quali condizioni possono essere recuperati. Il rilevamento inattivo viene eseguito attraverso Kubernetes stesso.
“Abbiamo il nostro orchestratore che funziona sulle GPU di questi fornitori di neocloud – o semplicemente cloud -“, ha affermato Chun. “Sfruttiamo sicuramente Kubernetes, ma il software program in esecuzione su di esso è uno stack di inferenza davvero altamente ottimizzato.”
Quando le GPU non vengono utilizzate, InferenceSense crea contenitori isolati che servono carichi di lavoro di inferenza a pagamento su modelli open-weight tra cui DeepSeek, Qwen, Kimi, GLM e MiniMax. Quando lo scheduler dell’operatore necessita del ripristino dell'{hardware}, i carichi di lavoro di inferenza vengono anticipati e vengono restituite le GPU. FriendliAI afferma che il trasferimento avviene in pochi secondi.
La domanda viene aggregata tramite i clienti diretti di FriendliAI e tramite aggregatori di inferenza come OpenRouter. L’operatore fornisce la capacità; FriendliAI gestisce la pipeline della domanda, l’ottimizzazione del modello e lo stack di servizio. Non sono previste commissioni anticipate né impegni minimi. Una dashboard in tempo reale mostra agli operatori quali modelli sono in esecuzione, i token in fase di elaborazione e le entrate maturate.
Perché il throughput dei token è migliore del noleggio della capacità grezza
I mercati spot delle GPU di fornitori come CoreWeave, Lambda Labs e RunPod implicano che il fornitore del cloud noleggi il proprio {hardware} a terzi. InferenceSense funziona su {hardware} che l’operatore neocloud già possiede, con l’operatore che definisce quali nodi partecipano e stabilisce in anticipo accordi di programmazione con FriendliAI. La distinzione è importante: i mercati spot monetizzano la capacità, InferenceSense monetizza i token.
Il throughput dei token per ora di GPU determina quanto InferenceSense può effettivamente guadagnare durante le finestre inutilizzate. FriendliAI afferma che il suo motore offre da due a tre volte il throughput di una distribuzione vLLM commonplace, anche se Chun nota che la cifra varia in base al tipo di carico di lavoro. La maggior parte degli stack di inferenza concorrenti sono costruiti su framework open supply basati su Python. Il motore di FriendliAI è scritto in C++ e utilizza kernel GPU personalizzati anziché la libreria cuDNN di Nvidia. L’azienda ha creato il proprio livello di rappresentazione del modello per il partizionamento e l’esecuzione dei modelli su {hardware}, con le proprie implementazioni di decodifica speculativa, quantizzazione e gestione della cache KV.
Poiché il motore di FriendliAI elabora più token per ora GPU rispetto a uno stack vLLM commonplace, gli operatori dovrebbero generare più entrate per ciclo inutilizzato rispetto a quanto potrebbero ottenere implementando il proprio servizio di inferenza.
A cosa dovrebbero prestare attenzione gli ingegneri dell’intelligenza artificiale che valutano i costi di inferenza
Per gli ingegneri dell’intelligenza artificiale che valutano dove eseguire i carichi di lavoro di inferenza, la decisione tra neocloud e hyperscaler si riduce in genere al prezzo e alla disponibilità.
InferenceSense aggiunge una nuova considerazione: se i neocloud riescono a monetizzare la capacità inattiva attraverso l’inferenza, hanno maggiori incentivi economici per mantenere competitivi i prezzi dei token.
Questo non è un motivo per cambiare oggi le decisioni sulle infrastrutture: è ancora presto. Ma gli ingegneri che monitorano i costi totali di inferenza dovrebbero verificare se l’adozione del neocloud di piattaforme come InferenceSense esercita una pressione al ribasso sui prezzi delle API per modelli come DeepSeek e Qwen nei prossimi 12 mesi. “Quando avremo fornitori più efficienti, il costo complessivo diminuirà”, ha affermato Chun. “Con InferenceSense possiamo contribuire a rendere questi modelli più economici.”











