Bez kategorii

[Listicle] 12 nisz, w których badacze wygrywają z modelami generatywnymi

Pewnego razu poprosiłem LLM-a, żeby pomógł mi z przypisem do wydania „Kroniki” Długosza. W sekundę dostałem piękny akapit… o niczym. Brzmiał mądrze, tylko nie odpowiadał na pytanie: dlaczego w tej konkretnej edycji pojawia się „A.” zamiast „Anno”? Otworzyłem skan, porównałem rękę kopisty i — proszę bardzo — skrót to nie „A.”, tylko zajechana ligatura. Maszyna podała plausybilną bajkę, człowiek zobaczył atrament.

No to chodźmy w teren. Oto dwanaście nisz, w których rzemiosło naukowca wciąż ma przewagę.

Źródła i kontekst lokalny

1) Materiały „z piwnicy”, które nie trafiły do sieci
Parafialne księgi, teczki w archiwach zakładowych, kolekcje rodzinne, skoroszyty w urzędach. Modele operują na tym, co im podano. My potrafimy zapukać do drzwi z tabliczką „magazyn” i poprosić o karton z 1978 roku. A potem jeszcze zadzwonić do emerytowanej sekretarki, która pamięta, kto pisał notatki na marginesie.

2) Lokalny kontekst, który nie ma słownika
„Warszawski kompromis”, „krakowski standard”, „śląska robota” — te frazy znaczą coś dla ludzi stąd, ale nie mają precyzyjnej definicji. Jeśli nie znasz zwyczajów wydziału, redakcji czy branży, nie złapiesz aluzji. Człowiek dopyta, porówna, posłucha. Model złoży ładny akapit i minie sedno.

3) Czytanie dokumentów „między wierszami”
Regulamin przetargu, który niby nic nie przesądza, ale wymaga „doświadczenia w realizacji dostaw dla jednostek X”. Akurat ten warunek spełnia trzech wykonawców w kraju, z czego dwóch to spółki-córki. To pachnie selekcją. LLM opisze regulamin poprawnym językiem. Badacz wyczuje zapach.

Metody i projektowanie

4) Projektowanie eksperymentu, w którym liczy się intuicja
Sama analiza danych to pół roboty. Klucz to pytanie, które stawiasz, i sposób, w jaki je „psujesz”, by sprawdzić, czy wynik przetrwa. Czy respondent odpowiada uprzejmie, bo ankieter mu się podoba? Czy kolejność pytań zmienia odpowiedź? Takie rzeczy czuć po pierwszych pięciu pilotażach i po minach ludzi na sali.

5) Łączenie rozproszonych, brudnych zbiorów
KRS + rejestr umów + BIP + ogłoszenia w lokalnej prasie. Część PDF-ów jest skanem, część ma literówki w nazwiskach, część ma inne daty. Człowiek siądzie, zrobi „mapę brudów” i poukłada fakty. Model zgubi się na pierwszym zakręcie, bo PDF z 2011 roku ma nagłówek jako grafikę.

6) Analiza małych liczb i rzadkich zjawisk
„Mała n” to koszmar automatów. A to właśnie w „małej n” dzieją się ważne rzeczy: wypadki medyczne, błędy w krytycznych systemach, niespodziewane skutki uboczne. Tu nie działa uśrednianie. Tu trzeba cierpliwej pracy detektywa.

Język i kultura

7) Gwara, idiolekt, memy „tylko dla wtajemniczonych”
Kaszubskie „béjô” albo śląskie „szmaterlok”. Do tego memy z Reddita sprzed trzech lat, które polska młodzież przerobiła na swoje. Maszyna coś skojarzy, ale często na poziomie powierzchownym. Żywy język żyje w sytuacjach, nie w korpusach.

8) Ironia, niedopowiedzenia, „tak, ale nie”
Polski mail służbowy potrafi brzmieć jak kwiat kurtuazji, a znaczyć „nie wchodź tu bez kasku”. Kto nie czuje tonu, ten przepuści czerwoną flagę. Człowiek rozpoznaje mikrosygnały: nietypowy szyk, uśmiechnięty przecinek, emoji w nieoczywistym miejscu.

9) Transkrypcje nagrań wielomówców
Spotkanie projektowe, równoległe wtrącenia, śmiech zagłuszający słowo kluczowe. Automaty oddadzą sens „na oko”, ale gubią, kto komu przerywa i dlaczego to ważne. Do analizy wpływu w zespole liczy się przerwa na oddech i pauza przed „w sumie”.

Ryzyko, etyka, weryfikacja

10) Weryfikacja źródeł w sytuacji sporu
Kto pierwszy podał liczbę? Co jest pierwotnym dokumentem, a co cytatem? Źródłoznawstwo to sport kontaktowy: telefon do autora, porównanie wydań, szukanie drobnego erraty. Bez tego łatwo pomylić plotkę z faktem.

11) Badania wrażliwe: zgody, relacje, zaufanie
Rozmowa o przemocy, chorobie, traumie. Tu nie wystarczy formularz. Trzeba obecności, empatii i gotowości, że ktoś zmieni zdanie w połowie zdania. LLM nie poniesie odpowiedzialności. My — tak.

12) Tworzenie nowych pojęć
Modele są świetne w odtwarzaniu tego, co już istnieje. Nowy koncept, świeże ujęcie, trafne słowo — to rodzi się z frustracji, z dziwnego przypadku, z notatki na bilecie MPK. Kreatywność bywa brudna i nielogiczna. I dobrze.

Studium przypadku: jak „dziura w PDF-ie” ujawniła sieć powiązań

Kilka lat temu śledziłem sprawę z pewnego średniego miasta. W rejestrze umów brakowało skanu jednego aneksu — akurat tego, który podnosił wynagrodzenie podwykonawcy. Niby nic. Poprosiłem urząd o kopię. Przyszła wersja z artefaktami: na marginesie widniał numer telefonu dopisany długopisem. Wpisałem go w wyszukiwarkę reklam drobnych. Trafiłem na ogłoszenie o wynajmie, w którym autor zostawił to samo nazwisko, ale z inną literą w środku. Po nitce doszedłem do spółki zarejestrowanej na żonę radnego. Dalej już poszło: KRS, oświadczenia majątkowe, ogłoszenia o pracę, referencje w PDF-ach. Wszystko jawne, tylko rozsypane, częściowo skanowane, częściowo „zepsute”. LLM, gdy go testowo zapytałem, podał zestaw uogólnień o „transparentności sektorów publicznych”. Dzięki za wykład. Prawdziwa praca odbyła się w szwach systemu.

Co z tego wynika?

Nie twierdzę, że modele są bezużyteczne. Wręcz przeciwnie: codziennie proszę je o szkice kodu, o podpowiedź bibliografii, o szybkie porównanie podejść. Ale mam z tyłu głowy prostą zasadę: im bardziej sprawa dotyczy kontekstu, władzy, języka żywego albo rzadkich zdarzeń — tym bardziej opłaca się wyjść zza ekranu i zrobić kilka telefonów. Albo przynajmniej zadać pytanie, na które nie ma gotowego akapitu.

Zastanawiam się też nad jeszcze jedną rzeczą. Czy nie przyzwyczajamy się do „ładnych odpowiedzi” tak bardzo, że gubimy ciekawość? Ciekawość jest nieekonomiczna. Marnuje czas. Każe jechać do archiwum, mimo że pada. A jednak to ona daje nam najciekawsze odkrycia.

Jeśli masz wrażenie, że LLM „wie”, ale nie „rozumie”, to nie jesteś sam. Tak właśnie jest. I bardzo dobrze — bo to zostawia miejsce dla rzemiosła, rozmowy, wątpliwości. Dla pracy, którą lubimy, nawet gdy nas wkurza.

Leave a Comment

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *