Evasion Attack
Motivation
Mittels Künstlicher Intelligenz (KI) lassen sich unter anderem Klassifizierungsaufgaben automatisieren. In einer Produktionsstätte könnte ein KI-Modell zum Einsatz kommen, das Bilder von hergestellten Bauteilen als Eingabe erhält und dann entscheiden soll, ob dieses intakt oder defekt ist. Weitere Beispiele sind die Klassifizierung von Verkehrsschildern und die Gesichtserkennung zur Identifizierung von Personen.
KI-Modelle sind jedoch keineswegs perfekt und es gibt immer ein Restrisiko von Fehlentscheidungen. So wurde gezeigt, dass geringfügige Änderungen in Bildern die Ausgabe eines KI-Modells verändern können; sogar Änderungen, die mit bloßem Auge nicht zu erkennen sind. Des Weiteren wurde ein Gesichtserkennungssystem dazu gebracht, dass eine Person als eine bestimmte andere Person identifiziert wurde. Diese Fehlentscheidung wurde durch das Tragen einer speziell präparierten Brille verursacht. Letzteres Beispiel zeigt, dass Entscheidungen von KI-Modellen nicht nur digital, sondern auch in der physischen Welt manipuliert werden können.
Diese Art von Angriff wird als Evasion Attack bezeichnet und eine Eingabe, die eine Fehlentscheidung verursacht, heißt Adversarial Example. Bei einer Evasion Attack wird ein bereits trainiertes ML-Modell angegriffen. Eingaben werden so verändert, dass sie eine Fehlentscheidung verursachen. Je nach Ziel des Angreifers kann es eine beliebige oder bestimmte Fehlentscheidung sein.
Angreifermodell
Informationen über das KI-Modell sind für eine Evasion Attack hilfreich. Im Idealfall hat der Angreifer direkten Zugriff auf das Modell und kann es lokal testen. In der Praxis ist das aber selten der Fall, weil KI-Modelle aufwändig entwickelt und trainiert werden müssen und ein Wettbewerbsvorteil sein können. Hersteller halten KI-Modelle deshalb meist vertraulich. Eine realistische Annahme ist der indirekte Zugriff auf ein KI-Modell über eine Vorhersage-API, die dem Angreifer als Eingabe-Ausgabe-Orakel dient. Dies erlaubt es, einen initialen Datenpunkt schrittweise abzuändern und nach jeder Änderung die Auswirkungen auf die Modellausgabe abzufragen, bis die gewünschte Ausgabe verursacht wird.
KI-Modelle nachbauen
Ein Angreifer kann eine Approximation des Zielmodells lokal nachbauen. Denn in der Regel ist davon auszugehen, dass ein Angreifer die Aufgabe, die Features und die Art der Trainingsdaten kennt. Dies ist auch für die Modell-Architektur und den Trainingsalgorithmus anzunehmen. Der Angreifer kann dieses nachgebaute Modell nutzen, um nach Adversarial Examples zu suchen. Denn die Transferability Property im Bereich der Künstlichen Intelligenz besagt, dass Adversarial Examples, die bei einem KI-Modell funktionieren, mit hoher Wahrscheinlichkeit auch bei einem anderen KI-Modell funktionieren, wenn beide KI-Modelle auf die gleiche Aufgabe trainiert wurden. Da das nachgebaute KI-Modell lokal vorliegt, muss ein Angreifer keine Vorhersage-API anfragen, um nach Adversarial Examples zu suchen. Folglich kann ein Angreifer unbemerkt Adversarial Examples vorbereiten und beliebig viele Eingaben testen.
Evasion Attacks in der Praxis
Insbesondere für KI-Modelle, die im Bereich der Cybersicherheit eingesetzt werden, ist davon auszugehen, dass Evasion Attacks gegen sie ausgeführt werden. Denn ein Angreifer ist daran interessiert, ein Adversarial Example eines Angriffsvektors zu finden, um die Detektion eines Angriffs zu verhindern. Zum Beispiel kann durch Auslassen verdächtiger Wörter und durch Einfügen von Wörtern, die vorwiegend in legitimen E-Mails vorkommen, eine Spammail erstellt werden, die von einem Spamfilter als gutartig klassifiziert wird.
Des Weiteren sind KI-Modelle vor allem in der Cybersicherheit von dem Problem des Concept Drift (auch Data Drift genannt) betroffen. Sobald eine Strategie nicht mehr funktioniert, werden Angreifer ihre Angriffsvektoren anpassen. Dies führt dazu, dass sich die Leistung eines KI-Modells verschlechtert, weil es die zugrunde liegenden Muster der neuen Angriffsvektoren noch nicht gelernt hat und sie daher schlecht erkennen kann. Um dem entgegenzuwirken, muss das KI-Modell regelmäßig mit aktuellen Daten trainiert werden. Hierdurch ergibt sich jedoch ein weiteres Problem: Die Trainingsdaten bestehen aus Angriffsvektoren, die von einem Angreifer stammen – einer nicht vertrauenswürdigen Quelle für Trainingsdaten. Folglich sind KI-Modelle für die Cybersicherheit besonders anfällig für eine Poisoning Attack.
Ein weiteres Beispiel einer KI-Anwendung, die anfällig für eine Evasion Attack ist, ist ein Sprachassistenzsystem. Ein Sprachassistenzsystem nimmt gesprochene Sprache mit einem Mikrofon auf, transkribiert das Audiosignal zu Text und ordnet den Text einer Intention zu. Basierend auf der ermittelten Intention wird eine Aktion ausgeführt. Die Transkription des Audiosignals und das Ermitteln der Intention werden jeweils von einem KI-Modell durchgeführt.
In Experimenten wurde gezeigt, dass es möglich ist, eine bösartige Audioeingabe zu erstellen. Ein unauffälliges oder sogar nicht hörbares Audiosignal kann von einem Sprachassistenzsystem als Befehl interpretiert werden. So kann ein Sprachassistenzsystem dazu gebracht werden, ungewollte Aktionen durchzuführen.
Schutzmaßnahmen
Um ein KI-Modell gegen Evasion Attacks zu schützen, sind mehrere Prozesse erforderlich. Abgesehen vom Training mit qualitativen Daten, sollte ein KI-Modell vor dem produktiven Einsatz einer Überprüfung unterzogen werden. Auch während des Einsatzes sollte es überwacht werden, um auf unerwartetes Verhalten reagieren zu können.
Nachvollziehbare Entscheidungen
Als grundlegende Maßnahme sollte ein KI-Modell vor dem Einsatz daraufhin überprüft werden, ob es überhaupt die Muster gelernt hat, die es lernen sollte. Hierzu können Methoden der Explainable AI (XAI) angewendet werden, um herauszufinden, ob Entscheidungen erklärbar und plausibel sind. Dadurch kann man herausfinden, welche Features bei einer Entscheidung einbezogen werden und mit welcher Gewichtung. Zum Beispiel könnte ein KI-Modell, Objekte auf Bildern vorwiegend anhand von Farbwerten an bestimmten Positionen im Bild ermitteln, wodurch schon die Änderung eines einzelnen Pixels eine Entscheidung verändern kann.
Schwachstellen in KI-Modellen finden
Um Schwachstellen aufzuspüren, kann die Robustheit von KI-Modellen gegen verschiedene Angriffe getestet werden. Hierfür gibt es Bibliotheken und Werkzeuge, die Angriffe implementieren, wie zum Beispiel Adversarial Robustness Toolbox, SecML, Foolbox, und CleverHans. Neben Angriffen bieten sie auch Schutzmaßnahmen und Analysefunktionen.
Monitoring
Generell ist es sinnvoll, die Leistung eines KI-Modells während des produktiven Betriebs zu beobachten. Vor allem bei Anwendungsfällen, bei denen zu erwarten ist, dass sich die Datenverteilung über die Zeit ändern wird, sollte eine Überwachung des KI-Modells erfolgen, um einen Leistungsabfall oder Concept Drift schnell erkennen zu können. Je nach Anwendungsfall kann Nutzern eine Möglichkeit angeboten werden, falsche Entscheidungen eines KI-Modells zu melden. So können Fehler und ein Concept Drift schnell erkannt werden.
Weitere Informationen
Eine Poisoning Attack kann durchgeführt werden, um eine Evasion Attack vorzubereiten. Wenn das Zielmodell bereits fehlerhafte Korrelationen gelernt hat, ist die Wahrscheinlichkeit für eine erfolgreiche Evasion Attack erhöht. Auf folgender Seite erklären wir eine Poisoning Attack.
Forschung und Kooperation
Das Institut für Internet-Sicherheit – if(is) ist in seiner Forschungsexpertise breit aufgestellt. Unsere verschiedenen Fachbereiche forschen unter anderem in den Bereichen Einsatz von Künstlicher Intelligenz im Cybersicherheitskontext, Sicherheit von Künstlicher Intelligenz, sichere Authentifizierung, Botnetze, Datenschutz und Blockchain. Wir sind in diversen anwendungsorientierten Forschungsprojekten (wie z. B. Service-Meister) involviert und offen für weitere Kooperationen.
Quellen
- G. James, D. Witten, T. Hastie, and R. Tibshirani, An Introduction to Statistical Learning. Springer, 2021. [link]
- M. Sharif, S. Bhagavatula, L. Bauer, and M. K. Reiter, “Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-Art Face Recognition,” in ACM Conference on Computer and Communications Security, ser. CCS ’16. Vienna, Austria: ACM, Oct. 2016, pp. 1528–1540. [link]
- B. Biggio, I. Corona, D. Maiorca, B. Nelson, N. Šrndic, P. Laskov, G. Giacinto, and F. Roli, “Evasion Attacks Against Machine Learning at Test Time,” in Machine Learning and Knowledge Discovery in Databases, ser. ECML PKDD ’13. Prague, Czech Republic: Springer, Sep. 2013, pp. 387–402. [link]
- C. Szegedy, W. Zaremba, I. Sutskever, J. Bruna, D. Erhan, I. Goodfellow, and R. Fergus, “Intriguing Properties of Neural Networks,” in International Conference on Learning Representations, ser. ICLR ’14. Banff, Alberta, Canada: IEEE, Apr. 2014, pp. 372–387. [link]
- I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and Harnessing Adversarial Examples,” in International Conference on Learning Representations, ser. ICLR ’15, San Diego, California, USA, May 2015, pp. 1–11. [link]
- J. Su, D. V. Vargas, and K. Sakurai, “One Pixel Attack for Fooling Deep Neural Networks,” IEEE Transactions on Evolutionary Computation, vol. 23, no. 5, pp. 828–841, 2019. [link]
- B. Biggio and F. Roli, “Wild Patterns: Ten Years After the Rise of Adversarial Machine Learning,” Pattern Recognition, vol. 84, pp. 317–331, Dec. 2018. [link]
- B. G. Atli, S. Szyller, M. Juuti, S. Marchal, and N. Asokan, “Extraction of Complex DNN Models: Real Threat or Boogeyman?” in International Workshop on Engineering Dependable and Secure Machine Learning Systems, ser. EDSMLS ’20. New York City, New York, USA: Springer, Feb. 2020, pp. 42–57. [link]
- A. Anish, N. Carlini, and D. Wagner, “Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples,” in International Conference on Machine Learning, ser. ICML ’18. Stockholm, Sweden: PMLR, Jul. 2018, pp. 274–283. [link]
- N. Dalvi, P. Domingos, Mausam, S. Sanghai, and D. Verma, “Adversarial Classification,” in ACM International Conference on Knowledge Discovery in Data Mining, ser. KDD ’04. Seattle, Washington, USA: ACM, Aug. 2004, pp. 99–108. [link]
- N. Papernot, P. McDaniel, and I. Goodfellow, “Transferability in Machine Learning: from Phenomena to Black-Box Attacks using Adversarial Samples,” arXiv, vol. abs/1605.07277, pp. 1–13, May 2016. [link]
- N. Papernot, P. McDaniel, I. Goodfellow, S. Jha, Z. B. Celik, and A. Swami, “Practical Black-Box Attacks against Machine Learning,” in ACM Asia Conference on Information, Computer and Communications Security, ser. ASIA CCS ’17. Abu Dhabi, United Arab Emirates: ACM, Apr. 2017, pp. 506–519. [link]
- G. Severi, J. Meyer, S. Coull, and A. Oprea, “Explanation-Guided Backdoor Poisoning Attacks Against Malware Classifiers,” in USENIX Security Symposium, ser. SSYM ’21. Virtual Conference: USENIX, Aug. 2021, pp. 1487–1504. [link]
- M. Barreno, B. Nelson, A. D. Joseph, and J. D. Tygar, “The Security of Machine Learning,” Machine Learning, vol. 81, no. 2, pp. 121–148, Nov. 2010. [link]
- N. Carlini, P. Mishra, T. Vaidya, Y. Zhang, M. Sherr, C. Shields, D. Wagner, and W. Zhou, “Hidden Voice Commands,” in USENIX Security Symposium, ser. SSYM ’16. Austin, Texas, USA: USENIX, Aug. 2016, pp. 513–530. [link]
- W. Diao, X. Liu, Z. Zhou, and K. Zhang, “Your Voice Assistant is Mine: How to Abuse Speakers to Steal Information and Control Your Phone,” in ACM Workshop on Security and Privacy in Smartphones & Mobile Devices, ser. SPSM ’14. Scottsdale, Arizona, USA: ACM, Nov. 2014, pp. 63–74. [link]
Icon: abstraktes-konzept-der-entscheidungsfindung
Copyright © 2022, Bild von vectorjuice auf Freepik