di Margherita Lopes (*)
Roma, 21 apr. (LaPresse) – Nonostante il crescente utilizzo dell’intelligenza artificiale in sanità, un nuovo studio condotto da ricercatori del Mass General Brigham del MESH Incubator dimostra che i modelli di AI generativa continuano a presentare delle lacune nelle loro capacità di ragionamento clinico. Lacune che lasciano aperti non pochi dubbi di fronte al dilagare di questi strumenti in medicina. “Questo studio si inserisce in modo particolarmente significativo in un dibattito ancora fortemente segnato da entusiasmo e aspettative elevate nei confronti dei Large Language Models (LLM). Più che ridimensionarne il potenziale, il lavoro sembra invitare a una forma di cautela epistemologica, riportando l’attenzione su ciò che queste tecnologie effettivamente fanno e, soprattutto, su ciò che ancora non riescono a fare”, commenta a LaSalute di LaPresse Francesco Branda, ricercatore dell’Università Campus Bio-Medico e socio della Società europea per l’etica e la politica dell’intelligenza artificiale (Sepai). Ma vediamo meglio i punti deboli del ‘dottor AI’.
Chiedendo a 21 diversi modelli linguistici complessi di mettersi nei panni del medico in una serie di scenari clinici, i ricercatori hanno dimostrato che questi ultimi spesso falliscono nel gestire gli iter diagnostici e nell’elaborare un elenco verificabile di diagnosi potenziali o “differenziali”. Sebbene tutti gli modelli di AI testati siano giunti a una diagnosi finale corretta in oltre il 90% dei casi quando erano dotati di tutte le informazioni pertinenti relative al paziente, hanno totalizzato prestazioni scadenti nelle fasi iniziali del processo diagnostico, come si legge su ‘JAMA Network Open’. Per Branda uno degli aspetti più interessanti riguarda proprio il tentativo di superare il cosiddetto multiple-choice bias. “Per lungo tempo, la valutazione delle performance dei modelli di intelligenza artificiale generativa in ambito medico si è basata su test a risposta multipla, che inevitabilmente favoriscono il riconoscimento di pattern e la selezione della risposta corretta tra opzioni predefinite”, dice il ricercatore.
“In questo senso, l’introduzione del PrIME-LLM rappresenta un cambio di prospettiva: non più una valutazione centrata esclusivamente sull’esito finale, ma un’attenzione distribuita lungo l’intero processo di ragionamento clinico. Questo spostamento, più che tecnico, appare concettuale, perché riconosce implicitamente che la qualità del pensiero clinico non risiede solo nella risposta, ma nel percorso che conduce ad essa”.Insomma, la questione non è se l’AI sia utile o no in medicina, ma piuttosto come e dove impiegarla in modo appropriato. “Lo studio sembra suggerire un utilizzo intrinsecamente asimmetrico dei LLM: più affidabili nelle fasi in cui il problema è già strutturato, meno nelle fasi in cui deve ancora esserlo. In altre parole, strumenti che possono supportare il ragionamento, ma difficilmente sostituirne l’avvio”.
(*) La Presse
