Haben alle Daten in der Zukunft einen Personenbezug?

Angefangen beim unaufgeräumten Zuse-Computer aus dem Jahre 1941 über den Computer der Von-Neumann-Architektur, brachte 1971 das US-amerikanische IT-Unternehmen Intel den ersten 4-Bit Mikroprozessor auf den Markt. Intel 4004 wurde er liebevoll getauft. Dieser besaß 2300 Transistoren auf einem Chip mit einer Fläche von 4 cm2.

45 Jahre später bringt IBM einen Mikroprozessor auf den Markt mit 20 Milliarden Transistoren auf einem Chip mit der Größe einer Fingerkuppe. Ein Meilenstein in der Mikroprozessoren Geschichte. Diese Transistoren sind nicht mal mehr mit einem Mikroskop zu erkennen.

Kurz zur Erklärung: Je mehr Transistoren auf einem Chip liegen, desto mehr Rechenoperationen können gleichlaufend ausgeführt werden.

Mittlerweile liegen diese Transistoren so nah bei einander, dass sie nur noch von Atomeinheiten getrennt werden können. Diese Technologie ist nach der klassischen Lehre der Physik und Informatik demgemäß ausgereizt. Die Abstände können sozusagen nicht noch kleiner werden, als sie bereits ohnehin schon sind.

Wer jetzt gedacht hat, das wird es dann wohl gewesen sein, der hat sich nicht ausreichend mit dem Thema Quantencomputing beschäftigt. Um das Phänomen Quantencomputing mal plastischer darzustellen, stellen Sie sich auf der einen Seite freischwebende Atome vor und auf der anderen Seite einen magnetischen Käfig. Denn diese physikalische Methode erlaubt es uns, Atome einzufangen und in einen magnetischen Käfig zu stecken.

In diesem Käfig reagieren die eingefangenen Atome miteinander. Und das besondere ist nun, dass die Reaktionen zwischen den Atomen, nun exponentiell zu betrachten sind. Je mehr Atome sie in einen Käfig stecken, desto mehr gleichlaufende Rechenoperationen können sie auch durchführen. Und das alles in einer exponentiellen Entwicklung, also x Hoch n. N ist dabei die Anzahl der eingefangenen Atome.

Fangen sie also 5 dieser Atome, auch Quantenbits genannt, in einen Käfig ein, dann sind diese 5 Atome dazu fähig 32 Rechenoperationen zu Stande zu bringen (2hoch5 = 2*2*2*2*2)

Diese physikalische Handhabung befähigt uns, ohne weiter auf die physikalischen Vorgänge einzugehen, auf der kleinsten Ebene physikalischer Existenz, neue gleichlaufende Rechenoperationen durchzuführen. Die Errungenschaft für die Informationstechnologie ist nun nicht das einfangen von Atomen, sondern die Vielzahl an exponentiell durchführbaren Rechenoperationen.

2019 präsentierte IBM den ersten Quantencomputer mit 50 Quantenbits. Dieser leistet ca. 3 Millionen Rechenoperationen pro Iteration, also Rechenoperationen, die er gleichzeitig durchführen kann. Wer also in Mathe aufgepasst hat, sollte spätestens jetzt begriffen haben, dass exponentielle Steigungen, schnell in die Höhe gehen und hier Rechenoperationen ins Leben gerufen werden können, die Konrad Zuse (Erfinder des ersten funktionsfähigen Computers) so nie für möglich gehalten hätte.

Und für alle diejenigen, die sich gerade sagen, dazu wird es sicherlich nicht kommen. Denen sei gesagt, das habt ihr damals auch bei diesem Internet gedacht, dass sich bestimmt nicht durchsetzen wird. Oder?

Worauf wollen wir hinaus?

Verschlüsselungstechnologien funktionieren nur, so lange niemand einen Prozessor besitzt, der diese Leistungen hervorrufen kann. Sobald also diese Technologie den nötigen Reifegrad erhält, also fähig ist 200, 300, 400 Quantenbits einzufangen, dann reden wir nicht mehr von IT-Sicherheit, sondern vielmehr von IT-Unsicherheit.

Zugegeben, ein nicht besonders guter Wortwitz, aber worauf wir hinaus wollen ist folgendes: Durch das rasante Fortschreiten derartiger Technologien, werden wir in Zukunft mit mehr Transparenz und Vernetzung zu tun haben. Die Aktivitäten eines Jeden werden gläsern und Daten lassen sich prinzipiell immer effektiver und schneller einer Person zuordnen. Juristen sprechen hier von der Bestimmbarkeit von Daten.

Spätestens an dieser Stelle, und wir rechnen bei genauer Analyse dieser Entwicklung mit einer erhöhten Reife des Quantencomputings ab 2025, wird man sich die Frage stellen müssen, ob diese juristische Auseinandersetzung zwischen der sog. subjektiven und der sog. objektiven Zuordnungstheorie noch relevant ist.

Theorien vergangener Zeit?

Sie müssen wissen, Juristen machen eines stets sehr gerne, sich streiten. Und es lässt sich erst richtig schön streiten, wenn die „hochakademischen“ Gedanken zuvor in eine juristisch relevante Theorie geflossen sind.

Beide Theorien streiten sich letztlich darüber, welche Daten einen Personenbezug haben und welche nicht.

Zur Erinnerung: Nur Daten die einen Personenbezug haben, werden auch vom Schutzbereich der DSGVO erfasst.

Die subjektive Theorie

Die subjektive Theorie geht davon aus, dass die Bestimmbarkeit von personenbezogenen Daten nur von der subjektiven Kenntnis des Einzelnen und den tatsächlich zur Verfügung stehenden Mitteln abhängt, wobei sich ein Unternehmer natürlich eines Dritten bedienen darf, der ihm die nötigen Zusatzdaten zur Bestimmung des Personenbezugs, liefern kann. Eine wesentliche Rolle in dieser Theorie spielen die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand. Demzufolge darf der allgemeine Aufwand für die Identifizierung einer Person nicht all zu hoch sein. Ist der Aufwand zu hoch, ist das von Ihnen verarbeitete Datum, kein personenbezogenes und wird damit von der DSGVO nicht erfasst.

Die objektive Theorie

Für die objektive Theorie reicht bereits die theoretische Möglichkeit zur Identifizierung einer Person. Auch wenn diese Identifizierbarkeit auf indirektem Wege, bspw. illegal oder mit hohem Aufwand betrieben werden müsste, handelt es sich um personenbezogene Daten. Ausgenommen wären dann nur noch reine Sachdaten.

Bisher ging die herrschende Meinung, sowie der EuGH davon aus, dass sich die DSGVO tendenziell an der subjektiven Theorie orientiert. Der EuGH geht in seinem Urteil von 2016 ferner davon aus, dass sich der Personenbezug erst herstellen lasse, wenn eine Datenzusammenführung erst in legaler Art und Weise erzielt werden könne (EuGH v. 19.10.2016, Az. C-582/14).

Wir fassen zusammen: Damit ein Datum sich personenbezogen nennen darf, muss (1) der Aufwand zur Bestimmung des Personenbezugs nicht all zu hoch sein und (2) Zusatzdaten unter Zuhilfenahme bspw. eines Dritten, dürften nicht illegal erlangt worden sein. Zunächst einmal lässt insbesondere der EuGH außer Acht, dass global agierende Unternehmen ihre Daten nicht nur an einem Standort halten und im Zuge dieser Kenntnis, ihre Daten gerne auch in Länder konservieren, die es mit dem Datenschutz nicht so ernst nehmen oder aber keine gesetzlichen Verbote für etwaige Datenschutzverletzungen normiert haben. Ob also Daten oder Zusatzdaten eines Dritten legal oder illegal erlangt wurden, kann hier kein sinnvoller Parameter zur Bestimmung des Personenbezugs sein.

Und letztlich gehen potenzielle Unsicherheitsfaktoren mit dem Unternehmer nach Hause. Zudem kann sich ein Unternehmer, der die notwendigen Zusatzdaten illegal erlangt hat, auch nicht darauf berufen, dass nun kein Personenbezug vorliege, da illegal erlangte Zusatzdaten per Definition keinen Personenbezug aufweisen können. Juristen nennen sowas auch rechtsmissbräuchliches Verhalten. Leider lässt sich der EuGH zu dieser Problematik gar nicht aus. Daher wird künftig davon auszugehen sein, dass weitere Justierungen am subjektiven Personenbezugsbegriff, vorzunehmen sein werden.

Demgemäß wird künftig die Beziehung bzw. die Nähe zwischen einem Unternehmen und seinem, nennen wir es mal Zusatzdatenlieferanten, in den Fokus rücken.

Die subjektive Theorie ist unternehmerfreundlich?

Diese subjektive Theorie schien bisher immer sehr unternehmerfreundlich zu sein. Klar, wenn Daten keinen Personenbezug haben, ist der Unternehmer auch nicht dazu verpflichtet etwaige Schutzmaßnahmen zu ergreifen. Das mag den Unternehmer zwar auf den ersten Blick sehr erfreuen. Doch das ist, mit Blick auf die Zukunft, ein Trugschluss. Denn die subjektive Theorie lebt von der Vorstellung, vollkommener Datensicherheit und von der mangelnden Möglichkeit zur Identifizierung von Personen. Technologien wie das Quantencomputing, Blockchain und der Fortschritt in der Kryptoanalyse werden Daten immer bestimmbarer werden lassen und erschüttern damit gleichzeitig die Theorie der subjektiven Zuordnung. Von einem „unverhältnismäßigen Aufwand an Zeit, Kosten und Arbeitskräften“ kann dann nicht mehr die Rede sein.

Und wieso das Festklammern an dieser Theorie für einen Unternehmer nicht besonders praktikabel ist und oftmals auf falschen Annahmen beruht, zeigen bereits diverse Fälle aus der Wirtschaft.

Wer also seine Datenbanken derart „vermengt“, kann unter Umständen etwaige Löschvorgaben nicht mehr Folge leisten. Ein Klassiker in der Wirtschaft!

Irrungen und Wirrungen der subjektiven Theorie in der Praxis

Der Unternehmer wäre nach der subjektiven Theorie grundsätzlich dazu angehalten seine Daten immer gegenchecken zu lassen und müsste in regelmäßigen Abständen schauen, ob seine Daten mit Hilfe neuer Technologien und neu hinzugekommenen Datensätzen nun einen Personenbezug aufweisen. Gewisse Unsicherheiten liegen dabei im Zweifel in der Risikosphäre des Unternehmers.

Studienlage zur Bestimmbarkeit

Bereits 2013 veröffentlichten diverse Wissenschaftler eine Studie, die gezeigt hat, dass mit nur wenigen Bewegungsdaten aus einem Datenpool, einzelne Personen identifiziert werden können (Näheres zur Studie: The privacy bounds of human mobility, Nature). Bereits 4 Bewegungsdaten haben dabei ausgereicht, um die gewünschte Person ausfindig zu machen.

Weitere Studien zeigen, dass alte Verhaltensstrukturen einer Person herangezogen werden können, um diese dann in einem anderen Verhaltenskontext zu identifizieren.

Data Scientists und IT-Unternehmen

Das schönste Beispiel hierfür, ist die Arbeit des Data Scientists. Data Scientists haben es sich zur Aufgabe gemacht, große Datensätze (sog. data lakes) mit mathematischen Methoden wie die Hauptkomponentenanalyse oder das allseits bekannte Clustering, zu analysieren und aus Ihnen für diverse Unternehmensziele, Informationen zu gewinnen.

Sie arbeiten dabei mit einer sog. explorativen Methoden. Das bedeutet sie durchforsten Datensätze, ohne zuvor ein Ziel festgesetzt zu haben.

Diese ziel- und zwecklose Verarbeitung von personenbezogenen Daten ist grundsätzlich unzulässig. Und trotzdem wird diese Methode weiterhin missverständlicher Weise praktiziert und damit begründet, dass es sich doch nicht um personenbezogene Daten hier handeln könne. Schließlich seien diese Daten aus dem Datensatz A anschließend der jeweiligen Person nicht mehr zuzuordnen. Leider sind genau das, die Irrungen und Wirrungen der subjektiven Theorie in der Praxis. Denn was ist mit dem Datensatz B und dem Datensatz X, Y, Z, welche in der Verfügungsgewalt des Data Scientists oder Data Engineers stehen.

Erfahrungsgemäß sollte auch der Data Scientist wissen, dass ab einer bestimmten Menge an erhobenen Daten, eine derartige Akkumulation von Daten entsteht, die dazu führen kann, dass sich diese Daten ohne Probleme, also ohne Aufwand, auf eine Person zurückführen lassen. Ferner sollte dem Data Scientist auch bewusst sein, dass er oftmals für ein IT-Unternehmen arbeitet, das über genügend technische Möglichkeiten verfügt um eine Person, ohne wesentlichen Aufwand, zu identifizieren.

Nach der subjektiven Theorie müsste der Data Scientist künftig immer schauen, ob die Daten, mit denen er arbeitet, einen Personenzug haben oder nicht. Er wäre – dieser Theorie zur Folge – permanent dazu angehalten seinen Datensatz und neu hinzugekommene Datensätze auf den Aufwand der Bestimmbarkeit einzelner Personen zu überprüfen, so dass er keine Zeit mehr hätte, durch eine ständige Neubewertung der Lage, seiner ursprünglichen Tätigkeit nachzugehen. Und wir halten seine Tätigkeit, insbesondere im Bereich der IT-Security, für sehr wichtig.

Sehr viel praktischer und um immer auf der sicheren Seite zu sein, wäre es für ihn, sich mit dem Gedanken anzufreunden, dass besonders durch künftige Technologien, sich jedes seiner Daten auf eine Person zurückführen lässt. Denn das neurotische Festklammern an die vermeintlichen Erleichterungen der subjektiven Theorie könnte sonst nach hinten losgehen. Daher sollten insbesondere die neuen datenanalysierenden Berufsgruppen tunlichst darauf achten, vermeintlich bezugslose Daten als Daten mit Personenbezug zu behandeln. Tun sie das nicht, sind die Folgen falscher Anwendungen teilweise irreversibel. Denn als Data Scientist sind sie dazu angehalten, Daten, sofern sie personenbezogen sind, und das sind sie im Zweifel in der Zukunft, unteranderem vor Beschädigung und Verlust zu schützen und zumindest im Voraus einen Zweck zu bestimmen. Die Zweckproblematik lässt sich mit dem originären ziellosen Arbeiten eines Data Scientist schwer vereinbaren. Hier helfen zwangsläufig nur Anonymisierungsverfahren. Erst die Anonymisierung würde die Rückverschlüsselung verhindern. Aber sanktionsbewehrte Beschädigungen und Verluste von personenbezogenen Daten können im Nachhinein böse Überraschungen hervorrufen, wenn man leichtfertig davon ausgegangen ist, dass diese Daten doch keine mit Personenbezug seien.

Maschinendaten

Vorsicht ist auch bei den sogenannten Maschinendaten geboten. Maschinendaten implizieren bereits semantisch, dass es sich hierbei um Daten handeln, die per se keinen Personenbezug aufweisen können.

Aber besonders die sog. Maschinendaten sind durch das Aufkommen von IoT und Industrie 4.0 von Interesse für den Datenschutz. Sie sind nämlich besonders “datenhungrig” und erheben gerne mal Daten über das Verhalten eines Nutzers (Von KfZ-Daten bis Rezensionsdaten), welche wiederum einen Personenbezug aufweisen.

Letztlich zeigt sich, dass die zu Beginn vom Informatiker dargestellte Entwicklung, aus vermeintlich bezugslosen Daten schnell mal Daten mit Personenbezug werden können. Das Fortschreiten der Technik und die Menge der erhobenen Daten, die eine Rückführbarkeit auf Einzelne intensiver ermöglichen, bestimmen letztlich ob sie es mit einem personenbezogenen Datum zu tun haben oder nicht. Tendenziell könnte man das als stillen Siegeszug der objektiven Theorie bezeichnen, denn die hat schon lange bevor über Themen wie das Quantencomputing gesprochen wurde, gewusst, dass viele Daten, die man für den Datenschutz für irrelevant hielt, einen Personenbezug aufweisen.

Und auch in der Unternehmenspraxis wird sich das durchsetzen, was schon die objektive Theorie gekennzeichnet hat, nämlich alle Daten, die sich (noch) theoretisch identifizieren lassen, werden als personenbezogene Daten qualifiziert. Die Vorgehensweise der Einzelfallentscheidung scheint zu unsicher zu sein und eine ständige Neubewertung zu aufwändig.

So oder so, mit der laufenden IT-Entwicklung wird sich diese Frage in naher Zukunft erneut stellen müssen. Und dann sind wir gespannt, ob diese Auseinandersetzung zwischen subjektiver und objektiver Theorie noch notwendig ist oder ob sie eher eine Sackgasse war.

AUCH als Jurist die IT-Entwicklung mitdenken

Es ist daher auch ratsam als Unternehmen auf bevorstehende Entwicklungen zumindest präventiv in ausgefeilten Konzepten zu reagieren. Sofern sich der Gesetzgeber dazu durchringt eine Gesetzesänderung bezüglich dieser Problematik zu wagen, stehen viele Unternehmen, die ihre Daten als bezugslose Daten deklariert haben, wieder vor dem gleichen Problem, wie schon am 25. Mai 2018.

Wir prognostizieren daher, parallel zur Entwicklung im Quantencomputing, wesentliche Veränderung am jetzigen Rechtsbestand der DSGVO.

Watch out and mark our Words. Spätestens ab 2025 heißt es dann von unserer Seite aus: “Wir haben es euch doch gesagt”! Und auch hier gilt abschließend immer noch unser heiliger Grundsatz, sehen sie im Kleinen das Große und im Konkreten das Abstrakte.


Der Jurist und Der Informatiker
Ein Jurist mit einem Faible für die Verzahnung von IT und Recht. Und ein rechthaberischer Informatiker.