Ich habe inzwischen ziemlich viel über Differential Privacy gelesen und bin überrascht und ein bisschen beschämt, dass mir der Begriff bisher nicht geläufig war. Meine Firma (nicht ich persönlich) hat nämlich viele Jahre lang Anonymisierung von Datenbanken betrieben, wobei es um dasselbe Problem geht. Nämlich persönliche Daten so zur Verfügung stellen, dass zwar deren semantische, statistische Eigenschaften und ihre Beziehungen untereinander erhalten bleiben, man aber keinen Datensatz mehr einer konkreten Person zuordnen kann.
Das ist weit komplexer als man zunächst denkt. Es reicht keinesfalls, nur identifizierende Merkmale wie Name, Wohnort, Kommunikationsadressen, Kontonummern und dergleichen zufällig abzuändern. Man kann dann nämlich unter Umständen immer noch auf Grund von Datenbeziehungen (die ja erhalten bleiben sollen) innerhalb derselben Datenbank und/oder durch Abgleich mit anderen Datenbanken auf eine konkrete Person schließen.
In unseren Anwendungen für Großbanken ging es nicht um die Veröffentlichung von anonymisierten Kundendaten, sondern darum, Firmenintern große realistische - aber anonymisierte - Datenbestände aus den echten produktiven Daten zu generieren, die für zweierlei Zwecke gebraucht wurden:
- Für die Softwareentwickler und -Tester, die keinesfalls Kenntnis über konkrete Kunden erlangen dürfen. Interessanterweise sind synthetisch erzeugte Testdaten (manuell oder programmatisch) für Entwicklung und Test nicht ausreichend, weil sie viel zu "gut" und "einfach" sind. In den echten, produktiven Daten kommen viele kaum simulierbare komplexe Konstellationen und vor allem auch Fehler vor, die man kaum künstlich erzeugen kann.
- Für statistische Auswertungen aller Art über globale, nicht individuelle Kundenverhalten, Riskmanagement und dergleichen. Die Betreiber dieser Systeme dürfen ebenfalls keine Kenntnis über konkrete Personen erhalten. Das ist ungefähr dasselbe Problem, was Apple jetzt mit DP auf seinen Servern angehen will: Statistisch relevante Aussagen aus "allen" Nutzerdaten gewinnen, ohne damit auf einen konkreten einzelnen Benutzer schließen zu können.
Die klassische Anonymisierung ist wie gesagt nicht wirklich ausreichend und außerdem mit ziemlich viel Heuristik unterlegt, so dass man nicht sagen kann, wie sicher sie eigentlich ist. DP ist eine Erweiterung, die das Ganze auf eine mathematisch solide Basis stellt und so wenigstens statistisch exakte Aussagen über die Qualität erlaubt.
Dabei werden die Daten, nicht nur die identifizierenden Schlüsselfelder teilweise randomisiert (=verrauscht). Das dicke Problem ist, so viel zu verrauschen, dass man nicht mehr auf Individuen schließen kann, aber so wenig, dass die verrauschten Daten immer noch aussagekräftig über die Gesamtheit der Benutzer bleiben. Und das ist alles andere als trivial.
Das Ganze ist übrigens keine Erfindung von Apple, sondern eine längst von Wissenschaftlern und allen großen Datenbankherstellern untersuchte Technologie. Durchaus umstritten. Aber löblich von Apple, dass sie versuchen, damit aus dem Gap zwischen Privacy und Aussagen über Nutzerverhalten rauszukommen.
Wer sich näher dafür interessiert, muss bloß "Differential Privacy" googeln. Da finden sich neben den hier und nebenan bereits zitierten populären Artikeln x andere ähnliche, die für meinen Geschmack aber alle ein bisschen dubios sind. Notgedrungen, weil das Thema nun mal grausig komplex ist. Wer es genauer wissen will, möge den englischen Wikipedia-Artikel als Ausgangspunkt lesen: https://en.wikipedia.org/wiki/Differential_privacy
|