[Editor’s Note: Agents of Transformation is an independent GeekWire series, underwritten by Accenture, exploring the adoption and impact of AI and agents. See coverage of our related event.]
L’utilizzo di un modello AI comporta ancora un asterisco non detto: verifica prima di agire. Verificalo. Cercalo su Google. Chiedi a un collega. Alla wonderful, l’onere della precisione è sempre ricaduto sull’uomo. Ma Microsoft pensa di avere un modo per spostare questo peso: far sì che due IA si tengano sotto controllo a vicenda.
In un’period in cui i compiti della forza lavoro vengono sempre più gestiti da agenti di intelligenza artificiale, questa strategia multi-modello ora raggiunge qualcosa che i lavoratori umani presumevano fosse solo loro: il giudizio. L’intervento umano è stato per lungo tempo l’elemento non negoziabile nei flussi di lavoro dell’intelligenza artificiale. L’approccio di Microsoft non lo elimina, ma solleva la questione di quanto di quel ruolo siamo disposti a cedere.
“Due teste sono meglio di una”
Microsoft non è sola in questa scommessa. Amazon Internet Companies, Google e altri stanno costruendo piattaforme che consentono alle aziende di accedere a più modelli attraverso un’unica interfaccia.
AWS Bedrock offre l’accesso a modelli di base di più fornitori, mentre Gemini Enterprise di Google presenta un’unica porta d’ingresso per l’intelligenza artificiale sul posto di lavoro. La particolarità di Microsoft è che incorpora la revisione multi-modello direttamente in uno strumento di produttività utilizzato da milioni di lavoratori.
Abbiamo assistito alla prima implementazione di questo piano la scorsa settimana con nuovi aggiornamenti a Microsoft 365 Copilot. Il suo agente Ricercatore può ora utilizzare GPT di OpenAI per redigere una risposta, quindi chiedere a Claude di Anthropic di esaminarla per verificarne l’accuratezza, la completezza e la qualità della citazione prima di finalizzarla.
“Vogliamo intenzionalmente una diversità di opinioni”, Steve Gustavsonvicepresidente aziendale di Microsoft per il design e la ricerca, ha dichiarato a GeekWire in un’intervista. “Due teste sono meglio di una quando si uniscono.”
Non è una preoccupazione banale. La ricerca lo ha già dimostrato Gli utenti dell’intelligenza artificiale tendono ad esternalizzare il pensiero critico a modelli che percepiscono come autorevoli. Se stiamo già arrendendoci al giudizio su un singolo modello, avere un secondo che respinge il primo può essere il controllo che mancava?
È una questione con cui Microsoft si è confrontata nella progettazione di Critique e Council, le due nuove funzionalità del suo agente Researcher.
“La nostra ricerca mostra costantemente che i lavoratori continuano a desiderare sia una maggiore fiducia nell’intelligenza artificiale che contenuti di qualità”, ha affermato Gustavson. “Le persone o si fidano eccessivamente dell’intelligenza artificiale, accettando affermazioni che non dovrebbero, oppure si fidano poco di essa e non ne ottengono il pieno valore. Entrambe sono opportunità di progettazione e tecniche.”
Prendiamo advert esempio la funzione Critica di Microsoft. Gustavson ha affermato che Microsoft lo ha progettato attorno a un passaggio deliberato: GPT guida la generazione e Claude interviene come revisore.
“La separazione è importante perché la valutazione è una modalità cognitiva diversa dalla generazione”, ha affermato. “Quando un modello fa entrambe le cose, ottieni due volte gli stessi punti ciechi. Quando il compito di un secondo modello è convalidare il primo, ottieni qualcosa di strutturalmente diverso.”
Ciò crea un “potente ciclo di suggestions che fornisce risultati di qualità superiore in termini di accuratezza fattuale, ampiezza analitica e presentazione” Gaurav Anandvicepresidente aziendale di Microsoft per l’ingegneria, ha scritto in un post tecnico sul blog sulla funzione Critica dell’M365.
Il modello multiplo non è solo una prova di concetto: è attivo ed è già l’esperienza predefinita all’interno di Researcher. Ma Gustavson si affretta a sottolineare che alla maggior parte dei lavoratori non interessa quali modelli corrono sotto il cofano. I modelli, a suo avviso, dovrebbero essere invisibili.
“L’utente medio desidera risultati fenomenali. Vuole potersi fidare di loro”, ha affermato. “Hanno bisogno di sapere che è 5.2 rispetto a qualsiasi altra cosa? Non credo.”
Gustavson contesta che questo sia il caso del “cieco che guida altri ciechi”, sottolineando che mettere a punto i modelli è un modo per evitare allucinazioni. Con Researcher, “Claude ha dimostrato di essere un sintetizzatore fantastico e di controllare cosa potrebbero fare i modelli GPT.”
Tuttavia, Gustavson ha affermato che Microsoft valuta continuamente le prestazioni dei modelli singoli rispetto ai modelli doppi, oltre a mettere “un giudice LLM tra i due” per vedere i compromessi.
Gustavson ha affermato che Microsoft intende abbandonare del tutto la promozione di nomi di modelli specifici, spostando l’attenzione su ciò che un lavoratore sta cercando di realizzare. Advert esempio, ha affermato, i lavoratori potrebbero specificare che lavorano nel settore finanziario e Copilot indirizzerebbe il lavoro al modello che meglio gestisce Excel, sintesi dei dati e analisi, senza necessità di selezione del modello.
Il pendolo dell’intelligenza artificiale aziendale
Per Microsoft, il multi-modello non è tanto una caratteristica quanto l’inevitabile direzione dell’intelligenza artificiale aziendale. Gustavson la definisce una progressione naturale, sottolineando che Copilot ha iniziato con un unico modello.
Da allora, ha affermato, il settore ha oscillato tra ciò che i modelli possono fare, quale dovrebbe essere l’esperienza del prodotto e dove esiste il fossato competitivo.
“Penso che questa sia solo un’evoluzione naturale”, ha detto. “Due modelli sono meglio di uno.”
Con i modelli che si susseguono ogni pochi mesi, Microsoft non scommette su nessuno di essi, ma piuttosto cerca di costruire qualcosa che sopravviva a tutti loro.
Man mano che le organizzazioni passano dalla sperimentazione dell’intelligenza artificiale alla dipendenza da essa per decisioni consequenziali, l’approccio a modello unico inizia a mostrare i suoi limiti. La domanda potrebbe essere non tanto se le imprese debbano adottare multi-modello quanto se siano pronte advert accettare un sistema in cui i controlli sono automatizzati, i modelli sono invisibili e l’intelligenza artificiale esamina l’intelligenza artificiale prima che un essere umano ne veda il risultato.
Oltre all’integrazione iniziale nell’agente Researcher, Gustavson ha affermato che Microsoft prevede di estendere l’approccio multi-modello agli altri suoi strumenti di intelligenza artificiale. Spera che l’approccio diventi customary in tutto il settore. A suo avviso, integrare la revisione multi-modello nei flussi di lavoro degli agenti è sia una buona governance che una buona progettazione.
Per coloro che costruiscono esperienze agentiche, il consiglio di Gustavson è semplice: trattare gli agenti come qualsiasi processo con conseguenze significative. La domanda chiave: “Chi controlla il lavoro?”











