Kiedy pierwszy raz puściłem generator danych na niewielki zestaw z poradni zdrowia psychicznego, by „zrobić kopię bez ludzi”, odetchnąłem. Świadomość, że nikt nie rozpozna konkretnego pacjenta, brzmiała jak wybawienie. Minęły dwa dni i zaczęły się pytania: a skąd wiem, że model nie przepisał rzadkiego przypadku niemal 1:1. A jeśli podtrzymał stare uprzedzenia, tylko w ładniejszym opakowaniu. A co ja właściwie podpisuję, gdy mówię, że to bezpieczne. Wtedy zrozumiałem, że brakuje tu jednej roli. Kuratora danych syntetycznych.

Kim jest kurator danych syntetycznych
Nie mylić z data stewardem z klasycznej szkoły zarządzania danymi. Kurator danych syntetycznych to ktoś, kto projektuje cały obieg powstawania i użycia sztucznych rekordów: od wyboru źródeł i metod, przez kontrolę prywatności i użyteczności, po ślad pochodzenia i uczciwe opisanie ograniczeń. W praktyce łączy warsztat statystyka z rygorem etycznym i rzemiosłem dokumentacyjnym. W świecie, w którym organizacje liczą na „bezpieczne dane bez RODO”, to on mówi: sprawdzam, mierzę, zostawiam ślad i biorę odpowiedzialność.
Ta rola nie bierze się z próżni. Regulatorzy dorzucili konkretne obowiązki jawności wobec treści syntetycznych i pracy systemów, a instytucje standaryzujące podają już narzędzia oceny ryzyka oraz dobre praktyki dokumentacji. To wprost wymusza specjalizację kogoś, kto łączy te klocki w jedno.
Dlaczego to zawód potrzebny tu i teraz
Po pierwsze, prywatność. Mity typu „syntetyczne zawsze znaczy anonimowe” już nie działają. Ataki członkostwa potrafią wychwycić, czy dany rekord uczestniczył w uczeniu modelu, a rzadkie przypadki są szczególnie wrażliwe. Do tego dochodzą ryzyka singlowania i łączenia danych, które europejskie regulacje każą traktować serio. Kurator nie tylko zna te wektory ataku, ale umie je zreprodukować na danych testowych i ocenić, gdzie leży granica akceptowalnego ryzyka.
Po drugie, prawo i etyka komunikacji. W Unii treści tworzone lub istotnie przerobione przez AI muszą być oznaczone, a dostawcy systemów mają rosnące obowiązki informacyjne. To dotyczy nie tylko obrazków i filmów, ale całej praktyki posługiwania się sztucznymi danymi w procesach. Kurator powinien umieć włączyć takie oznaczenia i opisy w codzienny obieg danych i produktów.
Po trzecie, standardy i audytowalność. NIST dostarcza świeże wytyczne oceny gwarancji prywatności różnicowej oraz katalog technik pracy z treściami syntetycznymi i ich oznaczaniem. To nie są ładne slogany, tylko konkrety, które trzeba umieć zastosować i obronić przed audytorem.
Narzędziownik kuratora
Moim zdaniem ten zawód stoi na czterech filarach.
- Metryki prywatności i testy ataków
Zestaw podstawowy: singlowanie, łączenie i wnioskowanie atrybutów, plus ataki członkostwa. W praktyce korzystam z bibliotek i protokołów pokroju Anonymeter, do tego testy odległości do najbliższego rekordu i odsetek identycznych dopasowań. Chodzi o to, by nie „wierzyć modelowi”, tylko policzyć i pokazać margines bezpieczeństwa. - Metryki użyteczności
Syntetyk, który świetnie chroni prywatność, a rozwala rozkłady, jest bezużyteczny. Kurator porównuje rozkłady, korelacje, wyniki modeli uczenia i sprawdza, czy wnioski z syntetyku pokrywają się z tymi z danych źródłowych w granicach, które akceptuje dany zespół. Ta dyscyplina jest szczególnie istotna w medycynie i zdrowiu publicznym. - Dokumentacja i jawność
Dobre artefakty robią różnicę: karty danych, datasheets, model cards. To nie literówki do szuflady, tylko żywe dokumenty, które mówią komu wolno i czego nie wolno robić z danym syntetykiem, jak go budowano i jakie ma znane wady. Kurator pilnuje, by te artefakty powstawały i były aktualne. - Pochodzenie i linia życia danych
Od ziarnka losowości po wersję generatora i filtry postprocessingu, wszystko powinno zostawiać ślad. W mediach robi to C2PA, w danych przydają się otwarte standardy rodowodu potoków, jak OpenLineage. Kurator spina to tak, by dało się zrozumieć, skąd wziął się konkretny rekord i jaki proces go dotknął.
Studium przypadku: szpital i rejestr onkologiczny
Wyobraźmy sobie szpital wojewódzki, który chce udostępnić badaczom syntetyczny rejestr pacjentów onkologicznych. Mój plan kuratorski wygląda tak:
- Zakres i podkład
Tylko zmienne kliniczne i administracyjne potrzebne do analiz, bez treści wolnych tekstów. Z góry ustalamy, które rzadkie kombinacje cech kwalifikują się do agresywniejszych zabiegów prywatności lub do wycięcia. - Proces tworzenia
Dwa generatory uczone niezależnie, z kontrolą nad dopasowaniem do rozkładów i korelacji. Jeden wariant bez formalnych gwarancji, drugi z prywatnością różnicową, by móc porównać granicę użyteczność–ochrona. Parametry i budżety prywatności są spisane i przeglądane przez zespół kliniczny i prawnika. Tu przydają się świeże wytyczne NIST, które podpowiadają jak oceniać same gwarancje, a nie tylko ich nazwy. - Ocena ryzyka
Uruchamiam ataki członkostwa i wnioskowanie atrybutów na próbce, do tego wskaźniki IMS oraz odległość do najbliższego rekordu. Jeśli ryzyko dla rzadkich typów nowotworów nie mieści się w ustalonych progach, wracamy do ustawień lub usuwamy niektóre kombinacje. - Użyteczność
Porównujemy wyniki kilku gotowych modeli predykcyjnych oraz proste analizy przeżycia na oryginale i syntetyku. Jeżeli różnice są akceptowalne, dopiero wtedy pojawia się zielone światło na udostępnienie. - Jawność i oznaczenia
Do pliku trafia karta danych, opis ograniczeń i cele, do których wolno użyć zestawu. Dodatkowo oznaczamy syntetyczne pochodzenie zgodnie z europejskimi wymogami jawności wobec treści tworzonych przez AI. To ma być czytelne dla ludzi i maszyn. - Linia życia i audyt
Cały pipeline zapisuje zdarzenia rodowodu zgodnie z otwartym standardem. Dzięki temu przy incydencie mogę szybko odtworzyć, która wersja generatora i jakie filtry zadziałały na konkretną paczkę danych.
Efekt uboczny takiego podejścia jest cenny: gdy ktoś pyta „dlaczego ucięliście te rekordy”, nie rozkładam rąk. Pokazuję metryki, decyzje i progi, a także to, co testowałem i co odrzuciłem.
Jakich kompetencji szukam u kuratora
Po stronie liczb: solidna statystyka, rozumienie uczenia generatywnego, praktyka z prywatnością różnicową i atakami na modele. Po stronie etyki: wrażliwość na wpływ na grupy mniejszościowe oraz na ryzyko niezamierzonego „podtrzymywania” nierówności w danych. Po stronie rzemiosła: dokumentacja danych, karta modelu, wersjonowanie i rodowód potoków. Bonusowo świadomość regulacyjna i umiejętność wdrożenia oznaczeń pochodzenia treści. To ostatnie nie jest gadżetem marketingowym, lecz wkładem w wiarygodność całego procesu.
Co dalej z rynkiem
Rynek już się przesuwa. Wielcy gracze kupują spółki od syntetyków, bo chcą mieć tę kompetencję na miejscu. Administracje krajowe zapisują w ustawach realne kary za brak oznaczeń treści AI. To nie jest chwilowa moda, tylko początek porządkowania całego obiegu „danych bez ludzi”. Kurator danych syntetycznych będzie kimś, kogo warto mieć w zespole wcześniej, niż pojawi się problem na okładkach gazet.
Na koniec szczera myśl. Nie jestem pewien, czy kiedykolwiek będziemy mieli automatyczny, bezbłędny „fabrykat” danych. I chyba nie o to chodzi. Chcę mieć natomiast jasność co do tego, jak powstał, co potrafi i gdzie mogą być drzazgi. Tym właśnie zajmuje się kurator.