Model Extraction Attack – Diebstahl von KI-Modellen
Motivation
Das Training eines Machine Learning Modells ist ein sehr ressourcenintensiver Prozess. Zunächst müssen geeignete Daten gesammelt, aufbereitet und analysiert werden. Dann muss eine passende Machine Learning Technologie gewählt und parametrisiert werden. Gleichzeitig werden immer mehr Daten benötigt und Modelle werden immer komplexer. Dies ist mit einem enormen Energieverbrauch und somit hohen Kosten verbunden.
Durch ein leistungsfähiges Modell können Unternehmen einen Wettbewerbsvorteil ihrer Produkte erlangen. Daraus folgt, dass Modelle ein sehr wertvolles geistiges Eigentum darstellen, das vor der Konkurrenz geschützt werden soll. Jedoch wird ein Modell schon durch das bloße Anbieten von Vorhersagen potenziell angreifbar. Wenn nämlich ein Angreifer Eingaben an ein Modell senden kann und entsprechende Vorhersagen erhält, ist die Grundbedingung für eine sogenannte Model Extraction Attack erfüllt. Der Angreifer kann Eingabe-Ausgabe-Paare des Ziel-Modells sammeln und ein eigenes Modell nachbauen, das dem Ziel-Modell sehr nah kommt.
Dabei sind unterschiedliche Angreifermodelle zu betrachten, denn das Wissen eines Angreifers über das Ziel-Modell definiert seine Stärke. Unter anderem stellen das Wissen über den Anwendungskontext des Modells, die Verteilung der verwendeten Trainingsdaten, die Semantik der Labels und den eingesetzten ML-Algorithmus einen Vorteil dar.
Herausforderungen
In der Praxis geben Implementierungen oft mehr Informationen zurück als nur das vorhergesagte Label. Neben einer Rangliste von infrage kommenden Labels, werden häufig auch die jeweiligen Konfidenzwerte der einzelnen Labels preisgegeben. Diese zusätzlichen Informationen erleichtern eine Model Extraction Attack. Ein Ansatz dieses Problem zu adressieren ist die Minimierung der zurückgegebenen Informationen. Dieser Ansatz erschwert eine Model Extraction Attack aber nur und verhindert sie nicht vollständig.
Des Weiteren kann ein nachgebildetes Modell lokal verwendet werden, um Angriffsvektoren gegen das Ziel-Modell vorzubereiten oder Informationen über die Trainingsdaten herauszufinden. Insbesondere wenn ein Modell im Bereich Cybersecurity eingesetzt wird (z.B. zur Erkennung von Spam), kann eine erfolgreiche Model Extraction dem Angreifer die Umgehung von Schutzmaßnahmen deutlich erleichtern.
Schutzmaßnahmen
Das Problem bei der Implementierung von Schutzmaßnahmen gegen Model Extraction ist die Anforderung, dass die Genauigkeit von Modell-Vorhersagen nicht signifikant beeinträchtigt werden darf. Der Schutzbedarf steht also meist im Konflikt mit dem Grad der Beeinflussung der Funktionalität.
Maßnahmen, die keinen Einfluss auf die Vorhersage-Genauigkeit haben, setzen meist an der Vorhersage-Schnittstelle an. Dies sind unter anderem das Runden von zurückgegebenen Konfidenzwerten, das Entfernen dieser oder die Reduzierung auf die Labels mit den höchsten Wahrscheinlichkeiten. Eine andere Möglichkeit ist das Erkennen von Anfragen, die eine Anomlieaufweisen und auf eine Model Extraction hindeuten. Es hat sich aber gezeigt, dass diese Ansätze umgehbar sind und somit keinen angemessenen Schutz vor Model Extraction bieten.
Ein anderer Ansatz ist die absichtliche Manipulation von Konfidenzwerten mit Rauschen oder eine Veränderung der Konfidenzwerte, die gezielt den Lernvorgang der Modell-Nachbildung erschweren. Eine weitere Methode ist die Modifikation von einem kleinen Anteil der Vorhersagen, sodass eine Modell-Nachbildung mit einer Art Wasserzeichen versehen wird. Damit kann später der Diebstahl eines Modells nachgewiesen werden.
Als Fazit lässt sich sagen, dass Maschinelles Lernen bzw. Künstliche Intelligenz ein enormes Anwendungspotenzial haben und auch für Unternehmen wirtschaftlich sehr wertvoll sein können. Die Erstellung von Modellen ist sehr kostenintensiv, kann sich aber lohnen, wenn daraus ein Wettbewerbsvorteil resultiert. Dadurch entsteht aber auch ein Anreiz für bösartige Akteure ein Modell zu stehlen oder nachzubilden, um es selbst zu nutzen oder zu verkaufen. Die Entwicklung von effektiven und angemessenen Schutzmaßnahmen hat daher eine hohe Bedeutung.
Forschung
Das Institut für Internet-Sicherheit – if(is) ist in seiner Forschungsexpertise breit aufgestellt. Unsere verschiedenen Fachbereiche forschen unter anderem in den Bereichen Einsatz von Künstlicher Intelligenz im Cybersicherheitskontext, Sicherheit von Künstlicher Intelligenz, sichere Authentifizierung, Botnetze, Datenschutz und Blockchain. Wir sind in diversen anwendungsorientierten Forschungsprojekten (wie z.B. Service-Meister) involviert und offen für weitere Kooperationen.
Quellen
F. Tramèr, F. Zhang, A. Juels, M. K. Reiter, and T. Ristenpart, “Stealing Machine Learning Models via Prediction APIs,” in USENIX Security Symposium, ser. SSYM ’16. USENIX, Aug. 2016, pp. 601–618.
B. G. Atli, S. Szyller, M. Juuti, S. Marchal, and N. Asokan, “Extraction of Complex DNN Models: Real Threat or Boogeyman?” in International Workshop on Engineering Dependable and Secure Machine Learning Systems, ser. EDSMLS ’20. Springer, Feb. 2020, pp. 42–57.
E. Strubell, A. Ganesh, and A. McCallum, “Energy and Policy Considerations for Modern Deep Learning Research,” AAAI, vol. 34, no. 9, pp. 13693–13696, Apr. 2020.
B. Biggio, I. Corona, D. Maiorca, B. Nelson, N. Šrndić, P. Laskov, G. Giacinto, and F. Roli, “Evasion Attacks Against Machine Learning at Test Time,” in Machine Learning and Knowledge Discovery in Databases, ser. ECML PKDD ’13. Prague, Czech Republic: Springer, Sep. 2013, pp. 387–402.
T. Lee, B. Edwards, I. Molloy, and D. Su, “Defending Against Machine Learning Model Stealing Attacks Using Deceptive Perturbations,” in IEEE Security and Privacy Workshops, ser. SPW ’19. San Francisco, California, USA: IEEE, May 2019, pp. 43–49.
T. Orekondy, B. Schiele, and M. Fritz, “Prediction Poisoning: Towards Defenses Against DNN Model Stealing Attacks,” in International Conference on Learning Representations, ser. ICLR ’20, Virtual Conference, Apr. 2020, pp. 1–17.
M. Juuti, S. Szyller, S. Marchal, and N. Asokan, “PRADA: Protecting Against DNN Model Stealing Attacks,” in European Symposium on Security and Privacy, ser. EuroS&P ’19. Stockholm, Sweden: IEEE, Jun. 2019, pp. 512–527.
S. Szyller, B. G. Atli, S. Marchal, and N. Asokan, “DAWN: Dynamic Adversarial Watermarking of Neural Networks,” arXiv, vol. abs/1906.00830v4, pp. 1–16, Jun. 2019.
T. Orekondy, B. Schiele, and M. Fritz, “Knockoff Nets: Stealing Functionality of Black Box Models,” in IEEE/CVF Conference on Computer Vision and Pattern Recognition, ser. CVPR ’19. CVF, Jun. 2019, pp. 4954–4963.