top of page

Banebrytende studie: OpenAI-o1 scorer 97 % på nasjonal fysioterapieksamen i Japan

En ny studie publisert 6. januar 2025 i tidsskriftet Cureus har fanget oppmerksomheten i både teknologiske og helsefaglige miljøer. Forskere fra Heisei College of Health Sciences i Gifu, Japan, har undersøkt hvordan to avanserte kunstige intelligens-modeller – OpenAI-o1 og GPT-4o – presterer på den japanske nasjonale eksamenen for fysioterapeuter (JNEPT). Resultatene viser at OpenAI-o1, som er en nyere språkmodell utviklet av OpenAI, oppnådde hele 97 % korrekt svarrate – et nivå som overgår mange menneskelige kandidater.



Kunstig intelligens som gjør eksamen i fsioterapi
“OpenAI-o1 exhibited high accuracy and solid explanatory quality, indicating strong adaptability to both general and specialized content in physical therapy,” skriver førsteforfatter Shogo Sawamura i artikkelen.

To AI-modeller, to ulike styrker

I studien ble det gjennomført en analyse av totalt 191 eksamensspørsmål hentet fra den 59. utgaven av JNEPT i 2024. Hele 168 tekstbaserte spørsmål ble besvart av OpenAI-o1, mens 23 bildebaserte spørsmål ble analysert av multimodellversjonen GPT-4o. Det ble benyttet en "zero-shot"-prompting-tilnærming, noe som betyr at ingen modelltilpasning eller spesialopplæring ble gjort i forkant.

Resultatene var tydelige:

  • OpenAI-o1: 97,0 % riktige svar og 86,4 % korrekt forklaring

  • GPT-4o: 56,5 % riktige svar og 52,2 % korrekt forklaring

Særlig interessant var det at OpenAI-o1 klarte 98,7 % på generelle spørsmål og 84,2 % på praktiske spørsmål innen fysioterapi. Dette antyder at modellen både behersker grunnleggende helsefag og klinisk resonnering.


Feiltyper avslører svakheter

Til tross for imponerende presisjon, ble det også identifisert svakheter hos begge modeller. OpenAI-o1 gjorde flest feil knyttet til utdatert eller feilaktig kunnskap (13 tilfeller), forenklede forklaringer (6 tilfeller), samt noen tilfeller av feilfortolkning av spørsmålets intensjon (3 tilfeller).

GPT-4o, som er designet for å tolke multimodalt innhold (tekst og bilde), slet spesielt med det visuelle. Syv av ti feil var knyttet til feiltolkning av anatomiske bilder eller medisinske illustrasjoner. Eksempelvis misforsto modellen en enkel EKG-avlesning, noe som førte til feil klinisk anbefaling.

“This suggests that the ability to accurately analyze anatomical findings or kinematic features within images has not yet been fully developed or trained,” påpeker forfatterne.

Fremtidig rolle i medisinsk utdanning?

Studien peker også på det pedagogiske potensialet ved slike modeller. OpenAI-o1 viste seg ikke bare å være presis i svarene, men kunne også forklare dem pedagogisk. Dette åpner for bruk i simulert eksamensforberedelse, faglig oppdatering og til og med veiledning for studenter – særlig i områder hvor det mangler tilgang på spesialister.

“OpenAI-o1 can serve as a tool for providing simulated answers and explanations for national examination questions in the context of student training,” står det i diskusjonsdelen.

Det pekes også på at slike modeller kan være særlig verdifulle i lavressursområder og under fjernundervisning. Ved å sikre tilgang til konsistent, evidensbasert informasjon, kan LLM-teknologi bidra til å jevne ut forskjeller i helsetilbudet.


Etisk ansvar og begrensninger

Artikkelen understreker imidlertid viktigheten av ansvarlig bruk. Ingen av modellene kan holdes ansvarlig for beslutninger basert på feil informasjon, og dagens LLM-er opererer fortsatt med kunnskap begrenset til treningsperioden – i dette tilfellet frem til desember 2023.

“There are clinical and ethical risks associated with relying solely on model outputs for decision-making,” advarer forskerne.

Dette aktualiserer behovet for kontinuerlig oppdatering, menneskelig kontroll og faglig validering av AI-modeller før de implementeres i kliniske sammenhenger.


Hva betyr dette for fysioterapi i Norge?

Studien har åpenbare implikasjoner for norske fysioterapeuter og utdanningsinstitusjoner. Et viktig spørsmål blir hvordan vi kan bruke slike teknologier på en trygg og effektiv måte i klinikk, utdanning og forskning. Med stadig strengere krav til dokumentasjon, kvalitet og effektivitet, kan LLM-er som OpenAI-o1 bli en del av det fremtidige verktøybeltet – forutsatt at de integreres med varsomhet.


Fysiobasen.no følger utviklingen tett og vil fremover publisere oppdaterte veiledere om hvordan slike verktøy kan brukes innen fysioterapi, både med tanke på etiske hensyn, juridiske rammer og praktisk anvendelse.


Kilder:

¹ Sawamura S, Kohiyama K, Takenaka T, Sera T, Inoue T, Nagai T. An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists. Cureus. 2025 Jan 6;17(1):e76989. DOI: 10.7759/cureus.76989


Tips: Bruk "Ctrl + g" for å søke på siden

Fysionytt

Ta kontakt

Er det noe som er feil?

Noe som mangler?

Noe du savner?

Nyere litteratur?

Ta gjerne kontakt og skriv hvilken artikkel det gjelder og hva som kan endres på. Vi setter pris på din tilbakemelding!

123-456-7890

  • Facebook
  • Twitter
  • LinkedIn
  • Instagram

Takk for at du bidrar!

bottom of page