LLM a RODO – główne tezy hamburskiego regulatora

Hamburski komisarz ds. ochrony danych i wolności informacji (Hamburgische Beauftragte für Datenschutz und Informationsfreiheit) wydał opinię, w której porusza problematykę stosowania RODO do modeli LLM (ang. large language model), czyli modeli sztucznej inteligencji stosowanych do przetwarzania języka naturalnego. Dokument w zamyśle ma stanowić impuls do dyskusji dla administratorów danych i regulatorów.

Trzy główne tezy opinii

Z opinii hamburskiego komisarza wyłaniają się następujące kluczowe tezy:

  • LLM nie przechowują danych osobowych, w związku z czym RODO nie ma bezpośredniego zastosowania do samych modeli. Jednakże, gdy systemy AI oparte na LLM przetwarzają dane osobowe, takie przetwarzanie podlega wymogom RODO, szczególnie w odniesieniu do treści generowanych przez te systemy (output).

  • Z uwagi na fakt, że LLM nie przechowują danych osobowych, prawa osób, których dane dotyczą, nie mogą być bezpośrednio egzekwowane wobec samych systemów LLM. Jednakże żądania dotyczące prawa dostępu do danych (art. 15 RODO), ich sprostowania (art. 16 RODO) oraz usunięcia (art. 17 RODO) mogą obejmować zarówno dane wejściowe (input), jak i wyjściowe (output). Takie żądania powinny być kierowane do dostawcy usług lub administratora/operatora danego systemu AI.

  • Szkolenie modeli LLM z wykorzystaniem danych osobowych musi odbywać się zgodnie z przepisami o ochronie danych osobowych, z uwzględnieniem praw osób, których dane dotyczą. Niemniej jednak, naruszenie tych przepisów podczas szkolenia nie wpływa na legalność stosowania danego LLM w systemach AI.

Argumenty zawarte w opinii

  • Organ nadzorczy zauważa, że charakterystyka działania modeli LLM uniemożliwia zakwalifikowanie przez nie przechowywanych danych jako danych osobowych w rozumieniu RODO oraz orzecznictwa Trybunału Sprawiedliwości Unii Europejskiej. Zdaniem Komisarza, LLMy kodują informacje w postaci tokenów, które są pojedynczymi, krótkimi ciągami liter. Te tokeny są następnie łączone na zasadzie określania prawdopodobieństwa wystąpienia jednego tokenu po drugim (embedding), czego model uczy się podczas procesu szkolenia.

    W kontekście powyższego, Komisarz podkreśla, że LLMy nie przechowują ani nie zapisują żadnych danych osobowych, lecz jedynie tokeny – czyli zlepki liter – oraz informacje o prawdopodobieństwie ich sekwencyjnego występowania w danym kontekście.

  • Organ wypowiada się również na temat wpływu potencjalnej nieautoryzowanej ekstrakcji danych (PII extraction), na których model LLM był trenowany, na kwalifikację danych przechowywanych w modelu.

    Komisarz odwołuje się do orzecznictwa Trybunału Sprawiedliwości Unii Europejskiej (TSUE), w szczególności do sprawy C‑582/14 (zob. akapit 46), w której stwierdzono, że dane można uznać za osobowe, jeżeli możliwość zidentyfikowania osoby na podstawie tych danych nie wymaga nadmiernego nakładu czasu, kosztów i pracy ludzkiej.

    Według organu, wspomniane orzeczenie ma kluczowe znaczenie dla kwestii ekstrakcji danych osobowych z modeli LLM, gdyż taka operacja zwykle wymaga znaczących zasobów wiedzy, czasu i środków. Ponadto, Komisarz zauważa, że do pełnej pewności, czy informacje wygenerowane podczas ataku pochodzą bezpośrednio z danych treningowych modelu LLM, niezbędne są pierwotne dane treningowe.

    Podsumowując, organ uważa, że dane przechowywane przez LLM nie stanowią danych osobowych, ponieważ identyfikacja osób na ich podstawie jest zbyt skomplikowana i nieefektywna.

  • Na koniec dokumentu przedstawiono pięć przykładowych sytuacji, ilustrujących zastosowanie podejścia omawianego przez organ. W kontekście systemów AI wspieranych przez LLM, które przetwarzają dane osobowe, Komisarz podkreśla, że osoba, której dane dotyczą, może zażądać od administratora, przynajmniej w zakresie danych wejściowych (input) i wyjściowych (output) chatbota opartego na LLM, realizacji następujących praw:

      • uzyskania informacji zgodnie z art. 15 RODO,

      • sprostowania dotyczących jej danych osobowych zgodnie z art. 16 RODO,

      • usunięcie dotyczących jej danych osobowych zgodnie z art. 17 RODO.

Krytyka

Opublikowana opinia, zgodnie z intencjami autora, stała się przedmiotem debaty. Nie wszyscy zgadzają się z zaprezentowanym w niej stanowiskiem, podnosząc następujące kontrargumenty:

  • Nie jest konieczne przeprowadzanie ataku na prywatność, aby wyodrębnić dane osobowe z modelu. Dane osobowe mogą być odtworzone lub wydobyte w trakcie normalnego użytkowania LLM poprzez zastosowanie odpowiednich promptów (czyli zapytań czy poleceń wprowadzanych do modelu). Na przykład kiedy użytkownik LLM zadaje pytanie dotyczące daty urodzenia konkretnej, znanej osoby (np. polityka), model może wygenerować tę informację jako część swojej odpowiedzi. To sugeruje, że dane osobowe (w tym przypadku data urodzenia) mogą być zawarte w wiedzy, którą model zebrał podczas procesu uczenia, a następnie wykorzystywane w odpowiedziach, które generuje.[1]

  • Jeśli dane osobowe były wielokrotnie przetwarzane podczas szkolenia (treningu), można je odczytać za pomocą odpowiednio skonstruowanego prompta. W ten sposób prompt staje się narzędziem identyfikacyjnym, prowadzącym do odpowiedniego ułożenia tokenów, które następnie są przetłumaczane na zrozumiały dla człowieka output. Jeżeli wywołane skojarzenia są wystarczająco silne, będą one konsekwentnie generować ten sam wynik, niezależnie od formułowania promptów, ale o identycznym znaczeniu.[2]

  • W sytuacji, gdy dane osobowe są zaszyfrowane, nikt nie kwestionuje, że są to dane osobowe tylko dlatego, że są przechowywane w formie niezrozumiałej dla człowieka. Różnica między deszyfrowaniem a outputem LLM polega na tym, że deszyfrowanie daje dokładnie te same dane, które zostały zaszyfrowane. W przypadku LLMów nie ma możliwości odzyskania dokładnych danych treningowych poprzez wprowadzenie prompta. Jednakże, proces ten umożliwia zrozumienie, jak prawdopodobne jest ułożenie określonych tokenów, co stanowi inną formę przechowywania informacji, ale umożliwia ich “odkodowanie” i dostęp do nich.[3]

[1] https://www.vischer.com/know-how/blog/teil-19-sprachmodelle-mit-und-ohne-personenbezogene-daten/ David Rosenthal – Sprachmodelle mit und ohne personenbezogene Daten.

[2] Ibidem.

[3] https://datenrecht.ch/mutige-hamburger-thesen-zum-personenbezug-in-large-language-models/ David Vasella – Mutige “Hamburger Thesen zum Personenbezug in Large Language Models”.

Autor: Adam Franiak