
Cambridge, Massachusetts, USA
Även om avancerade AI-modeller presterar väl på medicinska tentor, så misslyckas de fortfarande med en av de viktigaste uppgifterna för en läkare: att samtala med patienter för att samla in relevant medicinsk information och ge en korrekt diagnos.
”Medan stora språkmodeller visar imponerande resultat på flervalsprov, sjunker deras noggrannhet betydligt i dynamiska samtal,” säger Pranav Rajpurkar vid Harvard University. ”Modellerna har särskilt svårt med öppen diagnostisk resonemang.”
Detta blev tydligt när forskare utvecklade en metod för att utvärdera en klinisk AI-modells resonemangsförmåga baserat på simulerade läkare-patient-samtal. ”Patienterna” baserades på 2 000 medicinska fall, främst hämtade från professionella amerikanska medicinska tentor.
”Att simulera patientinteraktioner möjliggör utvärdering av medicinsk anamnesinsamling, en kritisk komponent i klinisk praktik som inte kan bedömas med fallbeskrivningar,” säger Shreya Johri, även hon vid Harvard University. Den nya utvärderingsbenchmarken, kallad CRAFT-MD, ”speglar även verkliga scenarier, där patienter kanske inte vet vilka detaljer som är viktiga att dela och bara avslöjar viktig information när de uppmanas av specifika frågor,” lägger hon till.
Källa: Newscientist
Taggar: AI-chatbottar, medicinsk diagnos, patientinteraktion, Harvard University, Pranav Rajpurkar, Shreya Johri, CRAFT-MD, klinisk praktik, medicinsk anamnes, diagnostisk resonemang, samtalssimulering