BLOG
Wie Feuer und Wasser? So können Maschinelles Lernen und Datenschutz zueinander finden.
Künstliche Intelligenz und maschinelle Lernen (kurz ML) ist in aller Munde. Sicherlich haben Sie entweder selbst schon ChatGPT getestet oder zumindest davon gehört. Der Erfolg solcher Dienste basiert u.a. auf der Möglichkeit, dass maschinen-gelernte Modelle (kurz ML-Modelle) große Datenmengen verarbeiten und daraus neue Zusammenhänge ermitteln können.
Doch Moment: Wissen wir nicht spätestens seit dem Mai 2018, dass eine solche Datenverarbeitung von personenbezogenen Daten durch die EU-DSGVO reglementiert ist?
Personenbezogenen bzw. personenbeziehbare Daten können bspw. der Name, die Adresse oder das Geschlecht einer Person sein und deckt somit alles ab, mit dem eine Person identifiziert werden kann. Zudem gehen wir von einer rechtmäßigen Verarbeitung aus. Würde ein ML-Modell keine personenbezogenen Daten verarbeiten, würde es nicht datenschutzrelevant sein. Dabei gilt aber zu beachten, dass dies vom konkreten Anwendungsfall abhängig sein kann und ggf. andere rechtliche Einschränkungen bspw. das Urheberrecht gelten können.
.
.
Was ist ein ML-Modell?
MASCHINELLES LERNEN lernt auf Basis typischerweise großer Datenmengen neue Zusammenhänge bzw. Muster. Dazu nutzt ML statistische Modelle, die in einem Trainingsprozess stückweise mittels Trainingsdaten für eine bestimmte Aufgabe verbessert werden. Also bspw. können Sie ein ML-Modell trainieren, dass mittels sehr vieler Tierbilder verschiedene Tierarten erkennt. Wir nennen solch eine Aufgabe eine Klassifikation. Moderne ML-Modelle basieren dabei auf einer stark vereinfachten Nachbildung der menschlichen Neuronen im Gehirn. Diese bekommen Eingabedaten auf deren Basis sie aktiviert werden können und im Fall einer Aktivierung Ausgabedaten erzeugen.
DIESE NEURONEN können dann in Schichten gesammelt werden, die ihrerseits dann aufgereiht werden. Dabei gibt es eine Eingabeschicht, die die Eingabedaten bspw. die Tierbilder entgegennimmt, eine Ausgabeschicht, die das Ergebnis ausgibt bspw. die erkannte Tierart. Zusätzlich gibt es eine oder mehrere Zwischensichten, die wir als „versteckte Schichten“ bezeichnen. Die Neuronen der einen Schicht sind jeweils mit allen Neuronen der jeweils nächsten Schicht verbunden. Somit werden durch die Aktivierung der Neuronen in der vorherigen Schicht, die Eingabedaten für die jeweils folgende Schicht erzeugt.
.
.
.
.
Das Trainierte Modell
UM DAS AKTIVIERUNGSVERHALTEN so zu gestalten , dass z.B. bei einem eingegebenen Hundebild auch wirklich die Klasse „Hund“ erkannt wird, müssen dem ML-Modell Trainingsdaten gegeben werden, zu denen die Klasse schon bekannt ist. Dabei wird das Hundebild in die Eingabeschicht gegeben und dann das Ergebnis der Ausgabeschicht mit der bekannten Klasse verglichen. Sollte die Klasse falsch erkannt sein, wird das Aktivierungsverhalten angepasst. Dies erfolgt durch die Anpassung der entsprechenden Gewichte, die an den Übergängen der Neuronen hängen. Die Gewichte beschreiben wie stark der Einfluss der Aktivierung des Neurons auf das nachfolgende ist. Sind die Gewichte so durch Trainingsdaten angepasst, dass die Ergebnisschicht genügend richtige Entscheidungen trifft, sprechen wir von einem trainierten Modell.
DIESES TRAINING ist sehr aufwändig und benötigt entsprechende Rechnerressourcen. Daher wird das ML-Modell typischerweise an einer zentralen Stelle bspw. auf einem Server eines Rechenzentrums gehalten und trainiert. Das bedeutet aber auch, dass die Eingabedaten an diese zentrale Stelle geschickt werden müssen. Das kann dann kritisch werden, wenn diese Daten datenschutzrechtlich relevant sind.
Datenschutzmaßnahmen für Maschinelles Lernen
EINE WICHTIGE MAßNAHME ist, wenn Daten übertragen werden, dass diese Übertragung verschlüsselt stattfindet. Zudem sollten Betreiber die Daten vor Zugriff Dritter schützen. Zusätzlich ist es sinnvoll, die Trainingsdaten nach dem Training zu löschen, damit jene nicht mehr im Klartext auf dem Server vorliegen.
Leider genügt das Löschen nur bedingt, da die aktuelle Forschung zeigt, dass durch spezielle Angriffsszenarien die Trainingsdaten aus einem trainierten ML-Modell wiederhergestellt werden können. Um dem entgegenzuwirken wird versucht entweder beim Training gezielte Störungen bei der Anpassung der Gewichte einzubauen oder die Ergebnisse von vielen parallel trainierten ML-Modellen in einem neuen Modell zu vermischen, sodass aus diesem die Daten nicht reproduziert werden können.
EINE WEITERE IDEE ist es die Daten vor der Übertragung an den Server zu anonymisieren. Diese Variante wird aber kritisch gesehen. Zum einen lernt das ML-Modell dann nur auf anonymisierten Daten und funktioniert dann nur noch bedingt genau. Zum anderen zeigte sich, dass anonymisierte Daten sich häufig durch zusätzliche Informationen aus anderen Quellen wieder zu Klardaten umwandeln lassen. Bspw. könnten Sie eine Person auf Basis ihrer Kleidung von einem Bild aus den sozialen Medien wiedererkennen.
Eine Lösung besteht in der sog. homomorphen Verschlüsselung. Vereinfacht gesagt, erlaubt diese die Berechnung auf verschlüsselten Daten ohne die Daten selbst zu entschlüsseln. Somit könnte ein ML-Modell vorher verschlüsselte Daten erhalten und durch das Training das gewünschte Ergebnis errechnen ohne jemals die klaren Trainingsdaten zu sehen.
.
.
.
.
.
.
Generativer ML-Modelle
EINE WEITERE VARIANTE basiert auf dem Einsatz generativer ML-Modelle. Diese lernen bspw. wie Bilder von Tieren aussehen und erzeugen dann neue fiktive Tierbilder. So könnte man zunächst die Klardaten nutzen, um solch ein generatives Modell zu trainieren. Dann erzeugt dieses Modell eine Menge von fiktiven neuen Trainingsdaten für das eigentliche ML-Modell. Nach den Training mit dem fiktiven Daten können dann die Klardaten und das generative Modell gelöscht werden. Das Reproduzieren der Trainingsdaten würde dann maximal die fiktiven Daten zu Tage tragen.
Es gibt auch Bestrebungen, dass die Trainingsdaten nicht mehr das Gerät des Nutzers verlassen müssen. Eine Variante, die u.a. Google für das Generieren von intelligenten Antworten nutzt, ist das föderale Lernen. Die Idee besteht darin ein vortrainiertes ML-Modell auf die Endgeräte bspw. dem Smartphone von Nutzern zu übertragen und dort mit den lokal vorhandenen Daten zu trainieren. Nach dem lokalen Training werden an den Server nur die Änderung am ML-Modell, d.h. die Änderungen in den Gewichten an den Server übertragen. Diese werden dann mit den Änderungen anderer Nutzer vermischt, sodass möglichst keine Rückschlüsse auf Einzelne aus den Änderungen möglich ist und das zentrale ML-Modell wird angepasst. Ein Nachteil besteht darin, dass die Endgeräte das gesamte ML-Modell trainieren müssen, wozu üblicherweise das Smartphone gerade nicht in Benutzung sein sollte, um die Rechenressourcen zu nutzen.
Das Split-Learning
EINE ANDERE VARIANTE basiert darauf das ML-Modell zwischen zwei versteckten Schichten zu zerteilen. Wir sprechen vom sog. Split-Learning. Die Idee ist, dass auf dem Endgerät die Nutzerdaten in den ersten Schichten verarbeitet werden und dann ab einer speziellen Trennschicht, die Aktivierungsinformationen an einen Server übertragen werden und dort weitertrainiert wird. Die Anpassung der Gewichte erfolgt dann analog entgegengesetzt, d.h. vom Server auf das Endgerät. Dabei ist die Trennschicht so konstruiert, dass mit den übertragenden Informationen nicht auf die Ursprungsdaten geschlossen werden kann, aber trotzdem die gewünschte Ausgabe trainiert werden kann. So ist es schwieriger die Original-Tierbilder zu rekonstruieren, aber es kann immer noch korrekt die Tierart erkannt werden. In der Regel braucht das Training dann aber länger, um eine ähnliche Genauigkeit zu erreichen wie zentral trainierte Modelle.
Es gibt viele Techniken, damit ML auch auf sensiblen Daten verwendet werden kann, ohne dass der Datenschutz verletzt wird. Auch wenn einige Techniken noch in der Forschung sind, ist aufgrund der gesetzlichen Bestimmungen gepaart mit dem Nutzen vom maschinellen Lernen davon auszugehen, dass sich diese oder ähnliche Techniken in der Praxis etablieren werden.
.
.
Ansprechperson
Sebastian Nielebock
HINWEIS
Alle in diesem Beitrag dargestellten Informationen entsprechen keiner Rechtsberatung bzw. ersetzen keine rechtliche Beratung. Sie stellen lediglich die persönliche Wahrnehmung des Autors wider. Der Autor übernimmt keine Haftung für eventuelle Folgeschäden, insbesondere rechtlicher Natur, die aus fehlerhaften Handlungen, die aus diesem Beitrag herrühren, entstehen.
Quellen
Autor: Sebastian Nielebock
Wissenschaftlicher Mitarbeiter am Lehrstuhl für Softwaretechnik an der Fakultät für Informatik der Otto-von-Guericke Universität Magdeburg. Er ist Projektmitarbeiter im Mittelstand-Digital Zentrum Magdeburg im Themenschwerpunkt IT-Strategien und -Sicherheit.
Referenzen
[1] https://de.wikipedia.org/wiki/Maschinelles_Lernen aufgerufen am 30.08.2023
[2] https://www.gesetze-im-internet.de/bdsg_2018/ aufgerufen am 08.09.2023
[3] „When Machine Learning Meets Privacy: A Survey and Outlook“ Liu et al., ACM Computing Surveys, Vol. 54, No. 2 Art. 31, März 2021 https://doi.org/10.1145/3436755
[4] “The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks” Zhang et al. CVPR 2020 https://openaccess.thecvf.com/content_CVPR_2020/html/Zhang_The_Secret_Revealer_Generative_Model-Inversion_Attacks_Against_Deep_Neural_Networks_CVPR_2020_paper.html
[5] “Re-Thinking Model Inversion Attacks Against Deep Neural Networks” Nguyen et al. CVPR 2023 – https://openaccess.thecvf.com/content/CVPR2023/html/Nguyen_Re-Thinking_Model_Inversion_Attacks_Against_Deep_Neural_Networks_CVPR_2023_paper.html
[6] „On the Protection of Private Information in Machine Learning Systems: Two Recent Approches“ Abadi et al., CSF 2017 https://doi.org/10.1109/CSF.2017.10
[7] „Communication-Efficient Learning of Deep Networks from Decentralized Data“ McMahan et al., AISTATS 2017, Vers. Jan. 2023 https://arxiv.org/abs/1602.05629v4
[8] „On the Role of Data Anonymization in Machine Learning Privacy“ Senavirathne und Torra, TrustCom 2020 https://doi.org/10.1109/TrustCom50675.2020.00093
[9] „Generating Artificial Data for Private Deep Learning“ Triastcyn und Faltings, PAL 2019 https://ceur-ws.org/Vol-2335/1st_PAL_paper_7.pdf
[10] https://support.google.com/messages/answer/9327902 aufgerufen am 30.08.2023
[11] „Split learning for health: Distributed deep learning without sharing raw patient data“, Vepakomma et al., ICLR AISG 2019 (2018) https://aiforsocialgood.github.io/iclr2019/accepted/track1/pdfs/31_aisg_iclr2019.pdf
[12] „NoPeek: Information leakage reduction to share activations in distributed deep learning“ Vepakomma et al., ICDMW 2020 https://doi.org/10.1109/ICDMW51313.2020.00134
[13] „No free lunch theorems for optimization“, Wolpert und Macready, IEEE Transactions on Evolutionary Computation, Vol. 1, Iss. 1, April 1997, https://doi.org/10.1109/4235.585893