Słowa mają moc. W medycynie ta moc jest zwielokrotniona. Język używany w dokumentacji klinicznej nie jest tylko neutralnym zapisem faktów – kształtuje postawy, wpływa na decyzje terapeutyczne i może utrwalać szkodliwe stereotypy. Badania dowodzą, że określenia takie jak „nadużywający substancji” (substance abuser) skłaniają lekarzy do bardziej karzącego podejścia, w przeciwieństwie do neutralnego, stawiającego pacjenta na pierwszym miejscu terminu „osoba z zaburzeniem używania substancji” (person with substance use disorder).

W erze cyfrowej, gdy notatki lekarskie stają się dostępne dla pacjentów online w czasie rzeczywistym, waga każdego słowa rośnie. Jednocześnie, wchodzące do szpitali duże modele językowe (LLM), trenowane na milionach istniejących notatek, grożą zautomatyzowaniem i zwielokrotnieniem tych samych uprzedzeń na niespotykaną dotąd skalę. Stajemy przed kluczowym wyzwaniem: jak oczyścić język medycyny z piętna stygmatyzacji? Nowe, przełomowe badanie pokazuje, że technologia, która stwarza ryzyko, może być również kluczem do jego rozwiązania.
Od słów kluczowych do kontekstu: jak nauczyć AI rozumieć stygmatyzację?
Celem badania było stworzenie i przetestowanie zautomatyzowanych metod wykrywania języka stygmatyzującego w notatkach lekarskich z oddziałów intensywnej terapii (OIT), dotyczących pacjentów z zaburzeniami używania substancji. Naukowcy wykorzystali ogromną, publicznie dostępną bazę danych MIMIC-III, zawierającą ponad 2 miliony notatek klinicznych.
Stworzono zrównoważony zbiór danych treningowych, zawierający ponad 77 tysięcy notatek, z których połowa zawierała język stygmatyzujący (zidentyfikowany na podstawie wytycznych Narodowego Instytutu ds. Nadużywania Narkotyków – NIDA), a połowa była go pozbawiona. Na tych danych przetestowano pięć różnych podejść do automatycznego wykrywania stygmatyzacji.
| Metoda | Opis | Jak działa? |
| Wyszukiwanie słów kluczowych (Baseline) | Proste wyszukiwanie predefiniowanych, stygmatyzujących terminów (np. „nadużycie”, „alkoholik”). | Jeśli w tekście znajduje się słowo z listy, notatka jest oznaczana jako stygmatyzująca. Metoda ślepa na kontekst. |
| Zero-Shot LLM | Model językowy (Llama-3 8B) otrzymuje polecenie: „Czy ta notatka zawiera stygmatyzujący język?” bez dodatkowych wskazówek. | Model polega wyłącznie na swojej „wewnętrznej wiedzy” zdobytej podczas ogólnego treningu. |
| In-Context Learning (ICL) LLM | Model otrzymuje to samo polecenie, ale wraz z nim pełen zestaw wytycznych NIDA, które definiują i dają przykłady języka stygmatyzującego. | Model uczy się „w locie” z dostarczonego kontekstu, bez zmiany swoich wewnętrznych parametrów. |
| Retrieval-Augmented Generation (RAG) LLM | Podobne do ICL, ale model otrzymuje tylko kilka (np. 5) najbardziej trafnych przykładów z wytycznych, wybranych na podstawie podobieństwa do analizowanej notatki. | Bardziej ukierunkowana wersja ICL, która ma zmniejszyć „szum” informacyjny w poleceniu. |
| Supervised Fine-Tuning (SFT) LLM | Model jest dodatkowo trenowany („dostrajany”) na specjalnie przygotowanym, oznaczonym zbiorze danych, aby wyspecjalizować się w zadaniu wykrywania stygmatyzacji. | Model uczy się na konkretnych przykładach, modyfikując swoje parametry, by stać się ekspertem w tej wąskiej dziedzinie. |
Werdykt: kontekst pokonuje słowa kluczowe
Wyniki testów na niewidzianym wcześniej zbiorze danych nie pozostawiają wątpliwości. Wszystkie podejścia oparte na dużych modelach językowych (LLM) okazały się znacznie skuteczniejsze niż proste wyszukiwanie słów kluczowych. Najlepiej wypadł model po specjalistycznym treningu (SFT), osiągając 97,2% dokładności.
| Metoda | Wskaźnik F1 (uwzględnia precyzję i czułość) |
| Supervised Fine-Tuning (SFT) | 0.972 |
| In-Context Learning (ICL) | 0.892 |
| Retrieval-Augmented Generation (RAG) | 0.889 |
| Zero-Shot | 0.834 |
| Wyszukiwanie słów kluczowych | 0.683 |
Co to oznacza w praktyce?
- Kontekst jest królem: Proste wyszukiwanie słów kluczowych zawodzi, ponieważ nie potrafi odróżnić, czy dane słowo jest użyte w sposób stygmatyzujący (np. „pacjent jest alkoholikiem”) czy neutralny, kontekstowy (np. „w wywiadzie pacjent określił siebie jako 'alkoholika'”). Modele LLM, zwłaszcza te po treningu (SFT), doskonale radzą sobie z tą niuansową oceną.
- Trening czyni mistrza: Model SFT, który przeszedł specjalistyczne szkolenie, był bezkonkurencyjny. Potrafił z największą precyzją odróżnić subtelne formy stygmatyzacji.
- Nauka „w locie” to potężna alternatywa: Metoda In-Context Learning (ICL), która nie wymaga kosztownego i czasochłonnego treningu, a jedynie dostarczenia modelowi odpowiednich wytycznych, osiągnęła bardzo dobre wyniki. To obiecująca, znacznie tańsza alternatywa dla szybkiego wdrażania takich systemów w praktyce klinicznej.
AI jako „superrecenzent”: odkrywanie tego, co umyka człowiekowi
Najbardziej fascynującym elementem badania była analiza błędów. Naukowcy poprosili modele o uzasadnienie swoich decyzji w przypadkach, gdy ich ocena różniła się od pierwotnej oceny ludzkich ekspertów. Okazało się, że modele LLM potrafiły zidentyfikować autentycznie stygmatyzujący język, który został przeoczony przez ludzi podczas ręcznego etykietowania danych.
Modele SFT i ICL wychwyciły takie sformułowania jak:
- „zachowanie poszukujące narkotyków” (drug-seeking behavior)
- „uzależniony od Oksykodonu” (addicted to Oxycotin)
- „użytkownik heroiny” (heroin user)
Żadne z tych sformułowań nie znajdowało się na oryginalnej liście wytycznych NIDA, na której opierali się ludzie. To dowodzi, że zaawansowane modele językowe potrafią wyjść poza proste dopasowywanie do listy i, bazując na swojej szerokiej wiedzy językowej, identyfikować nowe, ewoluujące formy języka stygmatyzującego.
To rewolucyjna perspektywa. AI może służyć nie tylko jako narzędzie do egzekwowania istniejących standardów, ale także jako system wczesnego ostrzegania, pomagający nam identyfikować i rozumieć, jak w języku klinicznym rodzą się i rozprzestrzeniają nowe, szkodliwe formy stygmatyzacji. Może stać się potężnym sojusznikiem w promowaniu empatycznej i skoncentrowanej na pacjencie komunikacji w medycynie.
FAQ – Najczęściej zadawane pytania
- Czy celem jest cenzurowanie notatek lekarskich?
Nie. Celem jest wspieranie i edukowanie personelu medycznego. Taki system mógłby działać jako inteligentny asystent w systemie dokumentacji medycznej (EHR), który w czasie rzeczywistym sugeruje lekarzowi bardziej neutralne i precyzyjne sformułowania, wyjaśniając jednocześnie, dlaczego proponowana zmiana jest korzystna dla relacji z pacjentem. - Jakie są największe wyzwania techniczne w tym podejściu?
Główne wyzwania to skalowalność i koszty obliczeniowe. Metoda SFT, choć najdokładniejsza, wymagała 6 godzin treningu na potężnej infrastrukturze (8 kart GPU). Metoda ICL jest znacznie tańsza we wdrożeniu. Wyzwaniem jest także radzenie sobie z bardzo długimi notatkami klinicznymi, które trzeba dzielić na mniejsze fragmenty („chunking”). - Czy te modele działają tylko w języku angielskim?
Badanie przeprowadzono na danych anglojęzycznych z USA. Jednak czołowe modele językowe, takie jak Llama-3, są trenowane na danych wielojęzycznych. Podobne podejście, po odpowiednim dostosowaniu wytycznych i ewentualnym treningu na polskich danych, mogłoby z powodzeniem zostać zaimplementowane również dla języka polskiego. - Czym różni się „fine-tuning” od „in-context learning”?
In-context learning to jak danie studentowi przed egzaminem szczegółowych notatek do wglądu – student nie uczy się niczego na stałe, ale wykorzystuje dostarczone materiały, aby odpowiedzieć na pytanie. Fine-tuning to jak zorganizowanie dla studenta dodatkowego, intensywnego kursu specjalistycznego – student trwale modyfikuje swoją wiedzę, stając się ekspertem w danej dziedzinie. - Czy to badanie ma znaczenie poza medycyną uzależnień?
Absolutnie tak. Problem języka stygmatyzującego dotyczy wielu dziedzin medycyny (np. psychiatrii, chorób zakaźnych, otyłości) oraz szerzej – komunikacji w prawie, edukacji czy mediach. Metodologia opracowana w tym badaniu może być zaadaptowana do wykrywania i redukcji języka nacechowanego negatywnie w wielu innych kontekstach