Studier visar att AI-chattbots ger inkonsekvent exakthet i information om muskuloskeletala hälsotillstånd

  • Forskare är överens: ortopediska kirurger är fortfarande den mest tillförlitliga informationskällan
  • Alla chatbots visade betydande begränsningar och hoppade över kritiska steg i arbetet.
  • Forskarna sammanfattar: ChatGPT är ännu inte en adekvat resurs för att svara på patienters frågor; Mer arbete krävs för att utveckla en korrekt chatbot fokuserad på ortopedi.

SAN FRANCISCO, 12 februari 2024 /PRNewswire/ — Med den ökande populariteten för den stora språkmodellen (LLM) chatbotsen typ av artificiell intelligens (AI) som används av ChatGPTGoogle Bard och BingAIDet är viktigt att belysa riktigheten av muskuloskeletala hälsoinformation de tillhandahåller. Tre nya studier presenterades vid årsmötet 2024 American Academy of Orthopedic Surgeons (AAOS) analyserade informationens giltighet chatbots ges till patienter för vissa ortopediska ingrepp, utvärderar noggrannheten av hur chatbots presentera framsteg inom forskning och kliniskt beslutsfattande.

Medan studier fann att vissa chatbots ger kortfattade sammanfattningar av ett brett spektrum av ortopediska tillstånd, visade var och en begränsad noggrannhet beroende på kategori. Forskare är överens om att ortopediska kirurger fortfarande är den mest tillförlitliga informationskällan. Resultaten kommer att hjälpa dem som arbetar på fältet att förstå effektiviteten av dessa AI-verktyg, oavsett om användning av patienter eller icke-specialistkollegor kan introducera partiskhet eller missuppfattningar, och hur framtida förbättringar kan göra chatbots till en potentiellt värdefull för patienter och läkare i framtiden.

SAMMANFATTNING OCH RESULTAT AV STUDIEN
Potentiell felaktig information och faror i samband med klinisk användning av LLM-chatbots
Denna studie, ledd av Branden Sosa, en läkarstudent på fjärde året vid Weill Cornell Medicine, utvärderade noggrannheten hos Open AI-chatbotarna ChatGPT 4.0, Google Bard och BingAI när det gäller att förklara grundläggande ortopediska koncept, integrera klinisk information och ta itu med patientfrågor. Varje chatbot ombads att svara på 45 ortopediska frågor som spänner över kategorierna “benfysiologi”, “remitterande läkare” och “patientkonsultation” och utvärderades sedan för noggrannhet. Två oberoende, förblindade granskare betygsatte svaren på en skala från 0 till 4, och utvärderade noggrannhet, fullständighet och användbarhet. Svaren analyserades för styrkor och begränsningar inom kategorier och mellan chatbots. Forskargruppen fann följande trender:

  • När de tillfrågades med ortopediska frågor gav OpenAI ChatGPT, Google Bard och BingAI korrekta svar som täckte de viktigaste punkterna i 76,7 %, 33 % respektive 16,7 % av frågorna.
  • När de gav kliniska hanteringsförslag visade alla chatbots betydande begränsningar genom att avvika från vårdstandarden och hoppa över kritiska steg i upparbetningen, som att beställa antibiotika före odlingar eller inte inkludera nyckelstudier i den diagnostiska upparbetningen.
  • När de tillfrågades mindre komplexa patientfrågor kunde ChatGPT och Google Bard ge mestadels korrekta svar, men misslyckades ofta med att skaffa relevant kritisk medicinsk historia för att till fullo ta itu med frågan.
  • En noggrann analys av citaten från chatbotarna avslöjade översampling av ett litet antal referenser och 10 dåliga länkar som inte fungerade eller ledde till felaktiga artiklar.

Är ChatGPT redo för bästa sändningstid? Utvärdera noggrannheten hos AI när det gäller att svara på vanliga frågor från artroplastikpatienter
Forskarna, med ledning av Jenna Bernstein, MD, en ortopedisk kirurg vid Connecticut Orthopaedics, försökte undersöka hur exakt ChatGPT 4.0 svarade på patientfrågor genom att utveckla en lista med 80 vanliga frågor från patienten om knä- och höftproteser. Varje fråga ställdes två gånger i ChatGPT; först ställa frågorna som skrivna och sedan be ChatGPT svara på patientens frågor “som ortopedkirurg”. Varje kirurg i teamet utvärderade noggrannheten för varje uppsättning svar och betygsatte dem på en skala från ett till fyra. Överensstämmelse mellan de två kirurgernas bedömning av varje uppsättning ChatGPT-svar bedömdes. Sambandet mellan fråge- och svarsnoggrannhet bedömdes med hjälp av två metoder för statistisk analys (Cohens kappa respektive Wilcoxon signed rank test). Fynden inkluderade:

  • Vid bedömning av kvaliteten på ChatGPT-svar hade 26 % (21 av 80 svar) ett skalmedelvärde på tre (delvis korrekt, men ofullständigt) eller mindre när de tillfrågades utan en uppmaning, och 8 % (sex av 80 svar) hade en genomsnittlig skala . betyg mindre än tre när det föregås av en indikation. Som sådan sammanfattade forskarna att ChatGPT ännu inte är en adekvat resurs för att svara på patientfrågor och att ytterligare arbete behövs för att utveckla en korrekt chatbot fokuserad på ortopedi.
  • ChatGPT presterade avsevärt bättre när man ombads svara på patientfrågor “som ortopedisk kirurg” med 92 % noggrannhet.

Kan ChatGPT 4.0 användas för att svara på patientfrågor om Latarjet-proceduren för främre axelinstabilitet?
Forskare vid Sjukhuset för specialkirurgi NYledd av Kyle KunzeMD, utvärderade benägenheten att ChatGPT 4.0 för att tillhandahålla medicinsk information om Latarjet Procedur för patienter med främre axelinstabilitet. Det allmänna syftet med denna studie var att förstå om detta chatbot skulle kunna visa potential att fungera som ett kliniskt komplement och hjälpa både patienter och vårdgivare genom att tillhandahålla korrekt medicinsk information.

För att svara på denna fråga gjorde teamet först en Google-sökning med hjälp av frågan “Latarjet” för att extrahera de tio vanligaste frågorna (FAQ) och tillhörande källor om proceduren. De bad sedan ChatGPT att utföra samma FAQ-sökning för att identifiera frågorna och källorna från chatboten. Höjdpunkterna i fynden var:

  • ChatGPT visade förmågan att tillhandahålla ett brett utbud av kliniskt relevanta frågor och svar och information som härrör från akademiska källor 100 % av tiden. Detta till skillnad från Google, som inkluderade en liten andel akademiska resurser, kombinerat med information som finns på kirurgers personliga webbplatser och bredare medicinska kontor.
  • Den vanligaste frågekategorin för både ChatGPT och Google var tekniska detaljer (40 %); ChatGPT presenterade dock också information om risker/komplikationer (30 %), återhämtningsschema (20 %) och operationsutvärdering (10 %).

# # #

2024 AAOS årsmötesupplysning

Om AAOS
Med mer än 39 000 medlemmar är American Academy of Orthopedic Surgeons den största medicinska sammanslutningen av muskuloskeletala specialister i världen. AAOS är den pålitliga ledaren för att främja muskuloskeletala hälsa. Tillhandahåller den mest omfattande utbildningen av högsta kvalitet för att hjälpa ortopediska kirurger och närstående hälso- och sjukvårdspersonal på alla yrkesnivåer att bättre behandla patienter i sina dagliga metoder. AAOS är källan till information om ben- och ledtillstånd, behandlingar och muskuloskeletala hälsovårdsfrågor; och leder sjukvårdsdebatten om kvalitetsutveckling.

Följ AAOS vidare Facebook, x, LinkedIn och Instagram.

KÄLLA American Academy of Orthopedic Surgeons

Leave a Reply

Your email address will not be published. Required fields are marked *