Home Tecnologia L’intelligenza artificiale ha appena battuto i medici nella diagnosi dei pazienti del...

L’intelligenza artificiale ha appena battuto i medici nella diagnosi dei pazienti del pronto soccorso. Non eccitarti del tutto

9
0

I reparti di emergenza e altri ambienti clinici in tutto il mondo sono ora un passo avanti verso il suono della cabina di pilotaggio del Millennio Falcon– con medici umani che sollecitano consigli, litigano e non di rado si fidano della guida dei loro supponenti colleghi IA.

I ricercatori del Beth Israel Deaconess Medical Heart di Harvard e Boston hanno testato con successo un modello avanzato di intelligenza artificiale di grande linguaggio (LLM) contro due medici curanti (umani) nelle loro prestazioni di diagnosi dei pazienti in arrivo al pronto soccorso durante la fase di triage.

L’LLM, il primo cosiddetto modello di “ragionamento” o1-preview di OpenAI, ha effettuato la scelta corretta nel 67,1% dei 76 casi effettivi del pronto soccorso sottoposti, con quella che i ricercatori hanno definito accuratezza diagnostica “esatta o molto vicina” nel nuovo studiopubblicato oggi sulla rivista Science. Due medici esperti provenienti da istituti medici universitari d’élite, tuttavia, hanno ottenuto rispettivamente solo il 55,3% e il 50,0% di precisione, con revisori medici in cieco incapaci di distinguere queste diagnosi o1 da quelle fatte dall’uomo.

Il nuovo studio ha anche confrontato o1 e i precedenti LLM non ragionanti di OpenAI, come ChatGPT-4, con le linee di base dei check precedenti dei medici che diagnosticavano 143 casi complessi pubblicati come vignette cliniche sul New England Journal of Medication.

“o1-preview includeva la diagnosi corretta nella sua diagnosi differenziale nel 78,3% di questi casi”, secondo uno degli autori principali dello studio, il dottorando Thomas Buckley del Dipartimento di Informatica Biomedica della Harvard Medical Faculty, che ha parlato martedì in una conferenza stampa.

“E quando si è passati a una diagnosi differenziale che sarebbe stata utile”, ha continuato Buckley, “abbiamo scoperto che o1-preview suggeriva una diagnosi utile nel 97,9% dei casi.” I risultati, ha osservato, non solo hanno superato ChatGPT-4, ma hanno anche superato di gran lunga i valori di riferimento di un medico umano pubblicato su Nature, dove i medici con la libertà di consultare motori di ricerca e risorse mediche customary avevano una precisione del 44,5%. (Sebbene questo studio includesse una serie più ampia e forse più spinosa di 302 vignette cliniche.)

Io, Robotic, medico

“Non credo che i nostri risultati significhino che l’intelligenza artificiale sostituirà i medici”, ha sottolineato il coautore dello studio Arjun Manrai, che insegna informatica biomedica advert Harvard, durante la conferenza stampa, “malgrado ciò che alcune aziende probabilmente diranno”.

Manrai, tuttavia, ha descritto i risultati del group come la prova di un “cambiamento davvero profondo nella tecnologia che rimodellerà la medicina”, un cambiamento che richiederebbe check rigorosi per verificarne l’utilità nel migliorare effettivamente i risultati dei pazienti.

Due ricercatori medici indipendenti, che commentato sul nuovo studio in un articolo pubblicato contemporaneamente su Science, ha fatto eco a questo punto di vista. “La proposta prevalente per l’intelligenza artificiale nell’assistenza sanitaria non è la sostituzione ma la collaborazione”, hanno osservato, “con i medici che forniscono supervisione, giudizio contestuale e responsabilità”.

Il coautore dello studio Adam Rodman, medico di medicina interna presso Beth Israel, ha paragonato il possibile standing legale delle diagnosi di intelligenza artificiale al paradigma attuale con supporto alle decisioni cliniche (CDS), strumenti digitali già esistenti utilizzati dai medici pur mantenendo la colpevolezza personale per tali scelte.

“Vi dirò, come medico praticante, che ciò rappresenterebbe un limite all’adozione diffusa di tutto questo, se il sistema normativo fosse ‘Fidati di me'”, ha detto Rodman durante il briefing. “Dovrei vedere show straordinariamente forti, come uno studio randomizzato e controllato, in cui lo farei per i miei pazienti.”

Giocare al dottore

I modelli di ragionamento, come o1-preview, differiscono dai chatbot AI a cui potresti essere abituato in quanto questi LLM sono stati costruiti per risolvere i problemi in passaggi strutturati, rispecchiando un pensiero più deduttivo, prima di fornire risposte a un immediate. Il sistema ha ancora i suoi limiti che, secondo i ricercatori, includono la reale difficoltà di diagnosticare casi medici che coinvolgono enter multimodali, ovvero immagini e show audio che aiuterebbero facilmente un medico umano a diagnosticare il caso di un paziente.

“Stanno sottoperformando la maggior parte dei parametri di riferimento dell’imaging medico”, ha affermato Buckley. “Penso che un’space di ricerca davvero attiva nel prossimo decennio sarà come migliorare le capacità di integrazione multimodale di questi modelli”.

Yujin Potter, uno scienziato ricercatore sull’intelligenza artificiale presso l’Università della California, Berkeley, che ha esaminato il nuovo studio per Gizmodo, ha notato che l’articolo finito del group non conteneva alcun commento su questioni più preoccupanti ora word che affliggono l’intelligenza artificiale. Potter, che non è coinvolto nella nuova ricerca, ha co-pubblicato uno studio a marzo dettagli come i group di intelligenza artificiale possono svilupparsi spontaneamente e agire secondo i propri obiettivi quando vengono incaricati di lavorare in coordinamento, ingannando attivamente i propri utenti umani ed esfiltrando file da nascondere su server diversi.

“Questo documento è informativo. È positivo. Ma questo significa anche che dobbiamo anche comprendere meglio la sicurezza dell’IA”, ha detto Potter a Gizmodo. “Le persone dovrebbero tenere presente che l’intelligenza artificiale può anche avere allucinazioni e fornire loro informazioni sbagliate, e persino un’intelligenza artificiale dannosa o disallineata può manipolarli”.

Al briefing di martedì, Buckley ha riconosciuto che lui e i suoi colleghi “non hanno misurato formalmente il tasso di allucinazioni di questi modelli”.

“Sappiamo che modelli come o1 provocano allucinazioni”, ha aggiunto Buckley, “ma nella maggioranza significativa dei casi, stiamo scoprendo che il modello suggerisce qualcosa almeno di utile, e quindi, in un’enorme quantità di casi, suggerisce la diagnosi esatta nel caso originale.”

Manrai, coautore di Buckley, ha aggiunto: “Il mio mantra è ancora ‘fiducia, ma verifica.'”

fonte

LEAVE A REPLY

Please enter your comment!
Please enter your name here