General Practitioner
eISSN: 2450-4459
ISSN: 2450-3517
Lekarz POZ
Current issue Archive Manuscripts accepted About the journal Supplements Abstracting and indexing Subscription Contact Instructions for authors Publication charge
Editorial System
Submit your Manuscript
6/2025
vol. 11
 
Share:
Share:

Sztuczna inteligencja w gabinecie lekarza POZ – ewolucja, a nie rewolucja. Analiza szans i zagrożeń

Alan Żak
1

  1. Centrum Medyczne AD-MED we Wrocławiu
Online publish date: 2026/02/06
Article file
Get citation
 
 

Od science fiction do EBM


Medycyna oparta na faktach (evidence-based medicine – EBM) uczy nas sceptycyzmu. Kiedy słyszymy o „cudownych lekach”, pytamy o badania z randomizacją. Podobnie powinniśmy podejść do szumu informacyjnego wokół sztucznej inteligencji (artificial intelligence – AI). Nie jest to magiczna pigułka, która rozwiąże wszystkie problemy systemowe ochrony zdrowia, ale nie jest to też tylko chwilowa moda.
Jako lekarze POZ, tonący w biurokracji i poddani presji czasu, stoimy na pierwszej linii frontu. To w naszych gabinetach ważą się losy wczesnej diagnostyki i to my spędzamy mnóstwo czasu w systemach gabinetowych (electronic health record – EHR). Celem tego artykułu jest chłodna, merytoryczna analiza, czym tak naprawdę jest AI, jak bezpiecznie wdrożyć ją do zbierania wywiadu i jakie zagrożenia się z nią wiążą.

Czym właściwie jest AI – krótki kurs dla klinicysty


Nie zrozumiemy zagrożeń, jeśli nie zrozumiemy mechanizmu. W kontekście obecnej rewolucji AI mówimy głównie o dwóch technologiach, które musimy w gabinecie rozróżniać: dużych modelach językowych oraz systemach probabilistycznych i wnioskowania.
Duże modele językowe (large language models – LLM) to technologia stojąca za popularnym ChatGPT. Wyobraźmy sobie rezydenta, który przeczytał wszystkie książki medyczne świata, ale... uczył się na pamięć, nie rozumiejąc związków przyczynowo-skutkowych [1].
W uproszczeniu LLM to zaawansowana statystyka – algorytm przewidujący kolejne słowo w zdaniu na podstawie miliardów przeczytanych tekstów. Dzięki temu potrafi pisać idealne epikryzy, streszczać dokumentację i tłumaczyć żargon medyczny na język zrozumiały dla pacjenta. Zagrożeniem są tzw. halucynacje – jeśli model nie zna odpowiedzi, może ją wymyślić. Będzie przy tym brzmiał bardzo pewnie, poda np. zmyślone nazwy badań klinicznych czy dawkowanie leków.
Termin „halucynacja” kojarzy się z psychiatrią, ale w informatyce oznacza pewną specyficzną cechę LLM. Aby zrozumieć, dlaczego ChatGPT może wymyślić nieistniejącą dawkę leku, musimy zajrzeć pod maskę silnika. LLM działa podobnie jak pacjent z zespołem Korsakowa, który konfabuluje. Pacjent nie kłamie celowo, tylko wypełnia luki w pamięci najbardziej prawdopodobną treścią, aby zachować spójność narracji. To właśnie robi LLM. Nie posiada on „bazy faktów” (jak encyklopedia), ale „bazę prawdopodobieństw”.

Statystyka, a nie logika


W uproszczeniu – LLM to zaawansowana autokorekta w telefonie. Gdy model pisze zdanie, nie analizuje jego sensu, tylko oblicza matematyczne prawdopodobieństwo pojawienia się określonego słowa (lub fragmentu słowa, tzw. tokenu) po poprzednim. Dla przykładu – jeśli wpiszemy frazę: Najczęstszym powikłaniem grypy jest..., model analizuje miliony tekstów i wybiera słowo, które statystycznie najczęściej po niej padało, np. zapalenie płuc.
Jeśli zapytamy o coś niszowego lub nieistniejącego (np. Opisz objawy zespołu XYZ – a taki zespół nie istnieje), model, dążąc do zadowolenia użytkownika, wygeneruje ciąg słów, które brzmią jak opis medyczny (użyje słów: objawy, gorączka, leczenie), tworząc kompletną fikcję, która wygląda profesjonalnie.
Modele są trenowane, aby ich odpowiedzi sprawiały wrażenie poprawnych stylistycznie. Dlatego AI świetnie wymyśla nieistniejącą bibliografię. Wie, że cytat medyczny składa się z następujących elementów: [Nazwisko] + [Rok] + [Tytuł] + [Nazwa czasopisma]. Model generuje więc idealnie sformatowany, nieistniejący artykuł, bo statystycznie tak właśnie wygląda odpowiedź na prośbę o źródła.
Systemy probabilistyczne i wnioskowania to druga gałąź, bezpieczniejsza dla medycyny. Są to systemy oparte na grafach wiedzy medycznej i sieciach bayesowskich. One nie „zgadują” słów, ale obliczają prawdopodobieństwo konkretnej jednostki chorobowej na podstawie określonych objawów, bazując na sztywnych danych medycznych wprowadzonych przez ekspertów – lekarzy. To właśnie na tym rozwiązaniu opiera się większość systemów wspierania decyzji (clinical decision support systems – CDSS).

Skąd wiemy, że algorytm „nie szkodzi”?


W świecie rzeczywistym żaden lek nie trafi do naszego gabinetu bez przejścia rygorystycznych badań klinicznych (fazy I–IV). W świecie cyfrowym odpowiednikiem tego procesu jest walidacja kliniczna. Jako lekarze musimy wymagać od dostawców AI dowodów na skuteczność i bezpieczeństwo, nie zadowalając się jedynie marketingowym hasłem o „nowoczesnej technologii”.
Podobnie jak w EBM, w technologii istnieje piramida wiarygodności. W przypadku nowych rozwiązań AI dla POZ można sprawdzić, na jakim etapie zostały przetestowane:
• walidacja techniczna: algorytm jest testowany na zestawie danych „laboratoryjnych” (np. na bazie 10 000 anonimowych historii chorób sprawdza się, czy kod działa) – to etap niezbędny, ale niewystarczający do wdrożenia klinicznego;
• badania retrospektywne: model diagnozuje pacjentów wstecz, na podstawie zamkniętych historii chorób, a wyniki porównuje się z decyzjami, które faktycznie podjęli lekarze – to najczęstszy typ badań w publikacjach o AI;
• badania prospektywne i interwencyjne (złoty standard): algorytm działa w czasie rzeczywistym w gabinecie, wspierając lekarza, mierzy się tzw. patient outcomes (czy użycie AI faktycznie skróciło czas diagnozy, zmniejszyło liczbę niepotrzebnych skierowań lub uratowało życie) – takich badań jest wciąż najmniej.

Mierzalność AI – czułość i swoistość


Dla lekarza POZ najważniejsze nie jest to, jak „mądry” jest model, ale jak bezpieczny. W walidacji narzędzi typu symptom checker (jak Symptomate) czy CDSS kluczowy jest balans między dwoma parametrami: czułaścią i swoistością.
Czułość to zdolność AI do wykrycia choroby tam, gdzie ona faktycznie jest. Dlaczego to ważne? W narzędziach do triażu (wstępnej oceny) czułość musi być maksymalna. Algorytm nie może przeoczyć zawału serca (wynik fałszywie ujemny). Wolimy, aby system „przewrażliwił się” i wysłał zdrowego na SOR (wynik fałszywie dodatni), niż żeby odesłał chorego do domu. Swoistość to zdolność do poprawnego wykluczenia. Zbyt niska swoistość AI doprowadzi do paraliżu systemu (over-triage) – jeśli AI każdego pacjenta z bólem głowy wyśle na tomografię komputerową „na wszelki wypadek”, to zablokujemy diagnostykę [2, 3].
Jednym z największych wyzwań walidacji LLM jest reprezentatywność danych treningowych. Model dermatologiczny AI uczony na zdjęciach skóry pacjentów rasy kaukaskiej (USA, Europa) może mieć drastycznie niższą skuteczność w wykrywaniu czerniaka u pacjentów o ciemniejszej karnacji. Model walidowany w systemie ochrony zdrowia USA, gdzie kładzie się nacisk na drogą diagnostykę, może generować zalecenia nieadekwatne do polskich warunków. Dlatego tak ważne jest, aby korzystać z narzędzi walidowanych na populacji europejskiej lub bezpośrednio polskiej.

Software as a medical device – SaMD


W Unii Europejskiej, zgodnie z rozporządzeniem MDR (Medical Device Regulation), oprogramowanie, które sugeruje diagnozę lub leczenie, jest wyrobem medycznym. Oznacza to, że producent musi przeprowadzić sformalizowaną ocenę kliniczną (clinical evaluation report) [4]. ChatGPT w wersji podstawowej nie jest wyrobem medycznym. Narzędzia takie jak Infermedica czy certyfikowane moduły w systemach gabinetowych mają znak CE i klasę wyrobu (zazwyczaj IIa).

AI jako „inteligentna asysta” w gabinecie POZ


Wdrożenie AI w POZ nie ma na celu zastąpienia lekarza, ale zdjęcie z niego ciężaru kognitywnego i administracyjnego. Największą rewolucją, która już puka do drzwi polskich gabinetów, są tzw. AI Scribes. To aplikacje nasłuchujące (za zgodą pacjenta) rozmowy w gabinecie, które w czasie rzeczywistym transkrybują ją i – co ważniejsze – formatują do gotowej notatki w systemie (badanie podmiotowe, przedmiotowe, zalecenia). Odzyskujemy dzięki temu kontakt wzrokowy z pacjentem. Zamiast pisać na klawiaturze – rozmawiamy.
Według doniesień z Mayo Clinic Proceedings użycie takich narzędzi redukuje czas poświęcony na dokumentację o 50%, zmniejszając ryzyko wypalenia zawodowego [5].
Inne użycie AI to np. inteligentna ankieta, którą pacjent wypełnia, zanim wejdzie do gabinetu. System analizuje objawy (np. ból w klatce piersiowej) i flaguje przypadek jako „pilny” lub sugeruje lekarzowi potencjalną diagnostykę różnicową jeszcze przed otwarciem drzwi.
W POZ często „patrząc na zebry, myślimy, że to konie”. Algorytmy analizujące historię choroby w tle mogą zasugerować: Doktorze, ten pacjent ma trzeci epizod zapalenia zatok w tym roku i nawracające bóle brzucha – czy rozważyłeś mukowiscydozę (postać dorosłą) lub niedobory odporności?

Studium przypadku – Infermedica i Symptomate


Mówiąc o AI w medycynie, nie sposób pominąć wrocławskiej firmy Infermedica, która stała się globalnym graczem w dziedzinie triażu. Warto o niej wiedzieć, ponieważ jej podejście różni się fundamentalnie od czatowania z GPT.
Symptomate.com to aplikacja dla pacjentów, która służy do wstępnej oceny objawów, jednak „pod maską” działa potężny silnik B2B używany przez ubezpieczycieli i szpitale na całym świecie. Infermedica nie używa „czystego” LLM, który może zmyślać. Firma zbudowała tzw. medical knowledge graph – gigantyczną bazę danych dotyczących relacji między objawami i czynnikami ryzyka a chorobami, która została ręcznie zweryfikowana przez zespół lekarzy. Jak to działa? Kiedy pacjent zgłasza ból głowy, system zadaje precyzyjne pytania (tzw. wywiad dynamiczny), aby zawęzić listę podejrzeń, używając wnioskowania bayesowskiego (statystyka), a nie generowania tekstu.
W badaniach publikowanych m.in. na łamach pism powiązanych z „Nature” czy w materiałach wdrożeniowych rozwiązania Infermediki wykazują wysoką skuteczność w triażowaniu pacjentów – system rzadko myli stany nagłe (wymagające skierowania na SOR) z błahymi (wymagającymi samoopieki) [6]. Algorytmy osiągają dokładność porównywalną z lekarzami w ocenie stopnia pilności (triage accuracy), co jest kluczowe dla odciążenia systemów opieki zdrowotnej.
Dla lekarza POZ oznacza to, że pacjent przychodzący z wydrukiem z Symptomate ma już wstępnie ustrukturyzowany wywiad, co oszczędza 2–3 minuty wizyty.

Zagrożenia i ciemna strona AI


Jako środowisko lekarskie musimy być świadomi ryzyka. Entuzjazm technologiczny nie może przysłonić etyki i dbałości o bezpieczeństwo.
Halucynacje i brak odpowiedzialności – LLM potrafią konfabulować w sposób niezwykle przekonujący. Zdarzały się przypadki, w których AI wymyślała nieistniejące interakcje lekowe. Kto odpowiada wówczas za błąd? Jeśli lekarz przepisze lek zasugerowany przez AI, a pacjent dozna wstrząsu, winny jest lekarz. W świetle prawa (również polskiego) AI jest tylko narzędziem pomocniczym.
Błąd automatyzacji – zjawisko psychologiczne polegające na nadmiernym zaufaniu maszynie. Zmęczony lekarz po przyjęciu 30 pacjentów może bezrefleksyjnie zaakceptować sugestię systemu CDSS, ignorując własną intuicję i subtelne sygnały niewerbalne od pacjenta, których AI nie widzi. C
zarna skrzynka – wiele nowoczesnych modeli AI (szczególnie sieci neuronowe) działa w sposób nieprzejrzysty. System daje wynik: Ryzyko zawału 85%, ale nie potrafi wytłumaczyć, skąd taka ocena. W dobie EBM, gdy musimy uzasadnić swoje decyzje, jest to poważny problem etyczny.
Kwestie prawne i RODO – wprowadzenie danych pacjenta (nawet zanonimizowanych) do publicznego narzędzia typu ChatGPT jest naruszeniem tajemnicy lekarskiej i przepisów RODO. Platformy medyczne muszą mieć certyfikację i zamknięty obieg danych (serwery w Unii Europejskiej, umowy powierzenia danych).

Jak bezpiecznie korzystać z AI?


Wykorzystywanie nowoczesnych narzędzi w gabinecie POZ należy wprowadzać stopniowo. Praktyczne wskazówki:
• nigdy nie wpisuj danych osobowych pacjentów do otwartych modeli AI;
• traktuj AI jak studenta medycyny, sprawdzaj każdą sugestię – AI świetnie generuje listy diagnostyki różnicowej (przypomina o rzadkich chorobach), ale ostateczna decyzja należy do lekarza;
• weryfikuj narzędzia – korzystaj z rozwiązań certyfikowanych jako wyrób medyczny (medical device class I/IIa), takich jak Infermedica czy specjalne systemy zintegrowane z oprogramowaniem gabinetowym.
Przykładowa checklista bezpieczeństwa w przypadku użycia AI w gabinecie POZ:
• ochrona danych (RODO/HIPAA):
» anonimizacja totalna – nigdy nie wpisuję do publicznych chatbotów (ChatGPT, Gemini, Claude) imienia, nazwiska, numeru PESEL ani charakterystycznych danych pacjenta,
» użycie synonimów – zamiast: Pacjent Jan Kowalski, lat 45, z Pcimia Dolnego, wpisuję: Mężczyzna, lat 45, mieszkaniec wsi,
» weryfikacja narzędzia – jeśli używam aplikacji do transkrypcji wizyty (AI Scribe), upewniłem się, że dostawca przetwarza dane w Unii Europejskiej i podpisałem z nim umowę powierzenia danych (lub zrobiła to moja placówka);
• weryfikacja kliniczna:
» weryfikacja leków – każde dawkowanie i każda interakcja zasugerowane przez AI zostały przeze mnie sprawdzone w charakterystykach produktów leczniczych lub indeksie leków (np. MP, Pharmindex),
» sprawdzenie wytycznych – jeśli AI sugeruje ścieżkę diagnostyczną, upewniam się, czy jest ona zgodna z aktualnymi wytycznymi Polskiego Towarzystwa Lekarskiego/Kolegium Lekarzy Rodzinnych w Polsce (modele mogą mieć „wiedzę” nieaktualną, np. sprzed 2 lat),
» krytyczne myślenie – zadaję sobie pytanie, czy diagnoza pasuje do obrazu klinicznego, czy jest tylko statystycznym dopasowaniem;
• komunikacja z pacjentem:
» transparentność – jeśli używam narzędzia nagrywającego wizytę (do tworzenia notatki), zawsze uzyskuję na to zgodę pacjenta (najlepiej pisemną lub odnotowaną w systemie),
» empatia – AI nie zastępuje rozmowy, nie czytam pacjentowi odpowiedzi z ekranu, używam generowanej treści tylko jako pomocy dla siebie;
• obszary zastosowania:
» tak (bezpieczna strefa) – generowanie pism do ZUS/ubezpieczalni (po anonimizacji), tłumaczenie dokumentacji z języka obcego, redagowanie zaleceń dla pacjenta (np. Napisz prostym językiem dietę wątrobową), streszczanie długich historii choroby,
» nie (strefa ryzyka) – decyzje o leczeniu stanów nagłych, psychiatryczna ocena ryzyka samobójczego (AI słabo wyłapuje niuanse), ostateczna diagnoza w onkologii bez histopatologii.

Podsumowanie


Zastosowanie sztucznej inteligencji w gabinecie lekarza POZ to nie kwestia „czy”, ale „kiedy i jak”. Mamy szansę na zrzucenie jarzma biurokracji i powrót do istoty medycyny – relacji z pacjentem – przy wsparciu potężnego pomocnika. Stery muszą jednak pozostać w naszych rękach. AI ma być stetoskopem XXI wieku – narzędziem, które słyszy więcej, ale to my interpretujemy dźwięk.

Piśmiennictwo

1. Sztuczna inteligencja w medycynie – debata. Medycyna Praktyczna. https://www.mp.pl/komunikacja/aktualnosci/324005,sztuczna-inteligencja-w-medycynie-debata.
2. Laurent A. Diagnostic accuracy of LLM vs. physicians. IntuitionLabs 2026.
3. Semigran HL, Levine DM, Nundy S i wsp. Comparison of physician and computer diagnostic accuracy. JAMA Intern Med 2016; 176: 1860-1861.
4. Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2024/1689 z dnia 13 czerwca 2024 r. w sprawie ustanowienia zharmonizowanych przepisów dotyczących sztucznej inteligencji. Dz.U. L, 2024/1689, 12.7.2024.
5. Hudson TJ, Albrecht M, Smith TR i wsp. Impact of ambient clinical intelligence on physician burnout and documentation time. Mayo Clin Proc 2025; 3: 100193.
6. Wallace W, Chan C, Chidambaram S. The diagnostic and triage accuracy of digital and online symptom checker tools: a systematic review. NPJ Digit Med 2022; 5: 118.
This is an Open Access journal, all articles are distributed under the terms of the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0). License (http://creativecommons.org/licenses/by-nc-sa/4.0/), allowing third parties to copy and redistribute the material in any medium or format and to remix, transform, and build upon the material, provided the original work is properly cited and states its license.
Quick links
© 2026 Termedia Sp. z o.o.
Developed by Termedia.