La ricerca e sviluppo sull’intelligenza artificiale si basa su un ciclo di ipotesi, esperimenti e analisi: ogni passaggio richiede un notevole impegno di ingegneria manuale. Un nuovo quadro dei ricercatori del SII-GAIR mira a colmare questo collo di bottiglia automatizzando l’intero ciclo di ottimizzazione per dati di addestramento, architetture di modelli e algoritmi di apprendimento.
Un nuovo quadro chiamato ASI-EVOLVEREsviluppato dai ricercatori del Generative Synthetic Intelligence Analysis Lab (SII-GAIR), mira a risolvere questo collo di bottiglia. Progettato come un sistema advert agenti per la ricerca AI per AI, utilizza un ciclo continuo di “apprendimento-progettazione-esperimento-analisi” per automatizzare l’ottimizzazione dello stack AI fondamentale.
Negli esperimenti, questo ciclo di auto-miglioramento ha scoperto autonomamente nuovi progetti che hanno notevolmente superato le linee di base umane all’avanguardia. Il sistema ha generato nuove architetture di modelli linguistici, migliorato le pipeline di dati di pre-addestramento per aumentare i punteggi dei benchmark di oltre 18 punti e progettato algoritmi di apprendimento per rinforzo altamente efficienti.
Per i group aziendali che eseguono cicli di ottimizzazione ripetuti sui propri sistemi di intelligenza artificiale, il framework offre un percorso per ridurre il sovraccarico di ingegneria manuale eguagliando o superando le prestazioni delle linee di base progettate dall’uomo.
Il collo di bottiglia dei dati e della progettazione
I group di ingegneri possono esplorare solo una piccola parte del vasto spazio di progettazione possibile per i modelli di intelligenza artificiale in un dato momento. L’esecuzione di flussi di lavoro sperimentali richiede costosi sforzi manuali e frequenti interventi umani. E le intuizioni acquisite da questi cicli costosi sono spesso relegate all’intuizione o all’esperienza individuale, rendendo difficile preservare e trasferire sistematicamente story conoscenza a progetti futuri o tra group diversi. Questi vincoli limitano fondamentalmente il ritmo e la portata dell’innovazione dell’IA.
L’intelligenza artificiale ha fatto passi da gigante nella scoperta scientifica, spaziando da strumenti specializzati come AlphaFold risolvere problemi biologici discreti a sistemi advert agenti che rispondono a domande scientifiche di base. Tuttavia, i framework attuali sono ancora in difficoltà con l’innovazione aperta dell’IA e sono per lo più limitati a un’ottimizzazione ristretta entro vincoli molto specifici.
Il progresso delle capacità fondamentali dell’intelligenza artificiale è molto più complesso. Richiede la modifica di grandi codebase interdipendenti, l’esecuzione di esperimenti advert alto carico di calcolo che consumano da decine a centinaia di ore GPU e l’analisi del suggestions multidimensionale dalle dinamiche di addestramento.
“I quadri esistenti non hanno ancora dimostrato che l’intelligenza artificiale possa operare efficacemente in questo regime in modo unificato, né che possa generare progressi significativi attraverso i tre pilastri fondamentali dello sviluppo dell’intelligenza artificiale piuttosto che all’interno di un unico contesto ristretto”, scrivono i ricercatori.
Come ASI-EVOLVE impara a ricercare
Per superare i limiti della ricerca e sviluppo manuale, ASI-EVOLVE opera su un ciclo continuo tra conoscenza pregressa, generazione di ipotesi, sperimentazione e perfezionamento. Il sistema apprende le conoscenze rilevanti e l’esperienza storica dai database esistenti, progetta un programma candidato che rappresenta la sua ipotesi successiva, esegue esperimenti per ottenere segnali di valutazione e analizza i risultati in lezioni riutilizzabili e leggibili dall’uomo che reintegra nella sua base di conoscenza.
Ci sono due componenti chiave che guidano ASI-EVOLVE. La “Cognition Base” funge da competenza di dominio fondamentale del sistema. Per accelerare il processo di ricerca, il sistema è precaricato con conoscenze umane, euristiche rilevanti per le attività e trappole observe estratte dalla letteratura esistente. Ciò indirizza l’esplorazione verso direzioni promettenti fin dalla prima iterazione.
Il secondo componente è l’“Analizzatore”, che affronta il suggestions complesso e multidimensionale degli esperimenti. Elabora registri di formazione grezzi, risultati di benchmark e tracce di efficienza, distillandoli in intuizioni compatte e utilizzabili e analisi causali.
Numerosi altri moduli complementari uniscono il quadro. Un agente “ricercatore” esamina la conoscenza precedente della base cognitiva e i risultati sperimentali passati per generare nuove ipotesi, proponendo modifiche localizzate al codice o scrivendo nuovi programmi.
Il componente “Ingegnere” esegue gli esperimenti veri e propri. Poiché le show di formazione sull’intelligenza artificiale sono incredibilmente costose, l’ingegnere è dotato di misure di efficienza come limiti di clock e check rapidi di rifiuto anticipato per filtrare i programmi candidati difettosi prima che consumino eccessive ore di GPU.
Infine, il “Database” funge da memoria persistente del sistema, memorizzando il codice, le motivazioni della ricerca, i risultati grezzi e i report finali dell’Analizzatore per ogni iterazione, garantendo che le informazioni si compongano sistematicamente nel tempo.
Unificando questi componenti, ASI-EVOLVE garantisce che un agente AI apprenda sistematicamente da suggestions sperimentali complessi e reali senza richiedere un costante intervento umano.
Mentre i framework precedenti sono progettati per far evolvere le soluzioni candidate, “ASI-EVOLVE fa evolvere la cognizione stessa”, scrivono i ricercatori. “L’esperienza accumulata e le intuizioni distillate vengono continuamente archiviate e recuperate per informare l’esplorazione futura, garantendo che il sistema cresca non solo nella qualità delle sue soluzioni ma nella sua capacità di ragionare su dove cercare successivamente”.
ASI-EVOLVE in azione
Nei loro esperimenti, i ricercatori hanno dimostrato che ASI-EVOLVE può migliorare con successo la cura dei dati, le architetture dei modelli e gli algoritmi di apprendimento per creare sistemi di intelligenza artificiale migliori.
Per le applicazioni aziendali reali, i dati di alta qualità rappresentano un collo di bottiglia persistente. Quando è stato incaricato di progettare strategie di pulizia specifiche per categoria per massicci corpora di preformazione, ASI-EVOLVE ha ispezionato campioni di dati e diagnosticato problemi di qualità come artefatti HTML e incoerenze di formattazione. Il sistema ha formulato autonomamente regole di curation personalizzate, scoprendo che la pulizia sistematica combinata con regole di conservazione basate sul dominio è molto più efficace del filtraggio aggressivo.
Nei check di benchmark, i modelli con parametri 3B addestrati sui dati curati dall’intelligenza artificiale hanno registrato un aumento del punteggio medio di quasi 4 punti rispetto ai modelli addestrati sui dati grezzi. I guadagni sono stati maggiori nelle attività advert alta intensità di conoscenza, con prestazioni in aumento di oltre 18 punti su Huge Multitask Language Understanding (MMLU), un benchmark LLM che copre attività di ambito STEM, umanistiche e scienze sociali.
Al di là dei dati, il sistema si è dimostrato altamente capace nella progettazione dell’architettura neurale. Nel corso di 1.773 cicli di esplorazione autonoma, ha generato 105 nuove architetture di attenzione lineare che hanno superato DeltaNet, una linea di base altamente efficiente progettata dall’uomo. Per ottenere questi risultati, ASI-EVOLVE ha sviluppato meccanismi di routing multiscala che regolano dinamicamente il price range computazionale del modello in base al contenuto specifico dell’enter.
Infine, nella progettazione degli algoritmi di apprendimento per rinforzo, ASI-EVOLVE ha scoperto nuovi meccanismi di ottimizzazione. Ha progettato algoritmi che hanno sovraperformato la linea di base GRPO competitiva su benchmark di ragionamento matematico complesso come AMC32 e AIME24. Una variante di successo ha inventato un “raggio dinamico vincolato al price range” che mantiene gli aggiornamenti del modello entro un price range definito, stabilizzando efficacemente l’addestramento su dati rumorosi.
Cosa significa questo per l’intelligenza artificiale aziendale
I flussi di lavoro dell’intelligenza artificiale aziendale richiedono costantemente ottimizzazioni ai sistemi esistenti, dalla messa a punto di modelli open supply su dati proprietari all’apporto di piccole modifiche advert architetture e algoritmi. Di solito, le risorse computazionali e le ore di ingegneria necessarie per portare a termine tali sforzi sono immense e vanno oltre le capacità della maggior parte delle organizzazioni. Di conseguenza, molti sono costretti a eseguire versioni non ottimizzate dei modelli di intelligenza artificiale normal.
Il gruppo di ricerca afferma che il framework è progettato in modo che le imprese possano integrare la conoscenza del dominio proprietario nel repository cognitivo e consentire al ciclo autonomo di scorrere sui sistemi di intelligenza artificiale interni.
Il gruppo di ricerca ha rendere open source il codice ASI-EVOLVErendendo il framework fondamentale disponibile per sviluppatori e creatori di prodotti.












