Specjalizacje, Kategorie, Działy
123RF

ChatGPT zdał egzamin z radiologii, ale lepiej mu nie wierzyć

Udostępnij:
– Najnowsza wersja ChatuGPT potrafi interpretować wyniki medycznych badań obrazowych na tyle dobrze, że zdała egzamin na lekarza radiologa, ma jednak nadal pewne widoczne wady, ograniczające wiarygodność tak postawionych diagnoz – informuje pismo „Radiology”.
ChatGPT to chatbot wykorzystujący sztuczną inteligencję (AI). Dzięki modelowi głębokiego uczenia się rozpoznaje wzorce i relacje między słowami w ogromnych zbiorach danych w celu generowania odpowiedzi podobnych do ludzkich. Bywa jednak, że jego odpowiedzi nie są zgodne ze stanem rzeczywistym.

— Wykorzystanie dużych modeli językowych, takich jak ChatGPT, rośnie i będzie rosło. Nasze badania dają wgląd w możliwości ChatuGPT w kontekście radiologii, podkreślając niesamowity potencjał dużych modeli językowych, wraz z obecnymi ograniczeniami, które czynią go niewiarygodnym — powiedział główny autor, dr Rajesh Bhayana, radiolog z University Medical Imaging w Toronto (Kanada).

Jak zaznaczył dr Bhayana, ChatGPT został niedawno uznany za najszybciej rozwijającą się aplikację konsumencką w historii, a podobne chatboty są włączane do popularnych wyszukiwarek, takich jak Google i Bing, których lekarze i pacjenci używają, szukając informacji medycznych.

Aby ocenić skuteczność AI w zdawaniu egzaminu na radiologa oraz zbadać mocne i słabe strony, dr Bhayana i współpracownicy najpierw przetestowali ChatGPT w obecnie najczęściej używanej wersji GPT-3.5, stosując treść i poziom trudności egzaminów Canadian Royal College i American Board of Radiology.

Pytania nie zawierały obrazów i zostały tak pogrupowane, aby ocenić prostsze (przywoływanie wiedzy, podstawowe zrozumienie) i bardziej złożone (zastosowanie, analiza, synteza) czynności myślowe. W przypadku tych drugich oceniano z kolei opisywanie znalezionych cech obrazu, postepowanie kliniczne, klasyfikację oraz powiązania chorób.

Działanie ChatuGPT oceniono ogólnie oraz według rodzaju i tematu pytania.

Naukowcy odkryli, że ChatGPT oparty na GPT-3.5 odpowiedział poprawnie na 69 proc. pytań (104 ze 150) – wynik był blisko pozytywnej oceny 70 proc. stosowanej przez Royal College w Kanadzie – miał jednak trudności z pytaniami dotyczącymi myślenia wyższego rzędu (60 proc.; 53 z 89), kalkulacji i klasyfikacji (25 proc., 2 z 8) oraz stosowania pojęć (30 proc., 3 z 10). Jego słabe wyniki w pytaniach dotyczących myślenia wyższego rzędu nie były zaskakujące, biorąc pod uwagę brak wstępnego szkolenia w zakresie radiologii.

W kolejnym badaniu udostępniony w marcu 2023 r. jako płatna usługa GPT-4 odpowiedział poprawnie na 81 proc. (121 ze 150) tych samych pytań, przewyższając GPT-3.5 i przekraczając próg zaliczenia wynoszący 70 proc. GPT-4 działał znacznie lepiej niż GPT-3.5 w przypadku bardziej skomplikowanych intelektualnie czynności, zwłaszcza gdy chodziło o opisy wyników badań obrazowych (85 proc.) i stosowanie pojęć (90 proc.).

Wyniki sugerują, że ulepszone zaawansowane możliwości rozumowania GPT-4 przekładają się na lepszą wydajność w kontekście radiologicznym.

– Nasze badanie pokazuje imponującą poprawę wydajności ChatuGPT w radiologii w krótkim okresie, podkreślając rosnący potencjał dużych modeli językowych w tym kontekście – powiedział dr Bhayana.

GPT-4 nie wykazał poprawy w przypadku pytań dotyczących czynności umysłowych niższego rzędu (80 proc. vs 84 proc.) i odpowiedział niepoprawnie na 12 pytań, na które GPT-3.5 udzielił poprawnych odpowiedzi, co rodzi wątpliwości dotyczące jego wiarygodności w zakresie gromadzenia informacji.

– Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczyły nas niektóre bardzo nielogiczne i niedokładne twierdzenia – stwierdził dr Bhayana.

Co prawda niebezpieczna tendencja ChatuGPT do generowania niedokładnych odpowiedzi (zwanych „halucynacjami”) jest rzadsza w wersji GPT-4, nadal jednak ogranicza jego użyteczność w edukacji medycznej i praktyce klinicznej.

Oba badania wykazały, że ChatGPT konsekwentnie wypowiadał się w sposób wskazujący, że jest czegoś pewien, nawet jeśli nie miał racji.

– Dla mnie jest to jego największe ograniczenie. Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany – zaznaczył dr Bhayana.

 
Redaktor prowadzący:
dr n. med. Katarzyna Stencel - Oddział Onkologii Klinicznej z Pododdziałem Dziennej Chemioterapii, Wielkopolskie Centrum Pulmonologii i Torakochirurgii im. Eugenii i Janusza Zeylandów w Poznaniu
 
© 2024 Termedia Sp. z o.o. All rights reserved.
Developed by Bentus.