Maschinelles Lernen in der Cybersicherheit
Motivation für den Einsatz von Maschinellem Lernen in der Cybersicherheit
Im Bereich der Cybersicherheit ändern sich Angriffsvektoren in immer kürzeren Zeitintervallen, was eine Herausforderung bei der Implementierung von Gegenmaßnahmen darstellt. Die Erkennung von Angriffsvektoren, basierend auf bekannten Signaturen, erfordert die stetige Pflege einer Liste. Das ist nicht nur aufwendig, sondern auch ineffektiv, weil neuartige Angriffsvektoren nicht erkannt werden. Die Erstellung von Heuristiken durch manuelles Feature Engineering stellt keine geeignete Alternative dar, weil sie sich nicht schnell genug an neue Angriffsmethoden anpassen kann.
Die Technologie des Maschinellen Lernens (ML), welches automatisiert aus großen Datenmengen Muster ableiten kann, erscheint daher vielversprechend. Beim überwachten Lernen erhält ein ML- Algorithmus einen Datensatz aus bereits klassifizierten Beispielen, aus denen er relevante Eigenschaften extrahiert. Das Ergebnis ist ein Modell mit einer verallgemeinerten Sicht auf die Daten. Das Modell lernt also nicht direkt die Beispiele, sondern ein von ihnen abgeleitetes Muster. So können bisher ungesehene Daten anhand eines Musters klassifiziert werden.
Maschinelles Lernen Einsatzmöglichkeit am Beispiel eines Spam-Filters
Die Anwendung von ML wurde schon früh im Bereich der Cybersicherheit angewendet und untersucht. Damals wurden klassische Methoden des ML angewandt und binäre Klassifikatoren eingesetzt, um zwischen gutartigen und bösartigen Instanzen zu unterscheiden. Ein Beispiel hierfür ist ein Spam-Filter, der legitime von bösartigen E-Mails anhand des Inhalts unterscheiden soll. Der Vorteil des ML im Bereich der Cybersicherheit liegt in seiner Fähigkeit neue Daten in Echtzeit verarbeiten zu können. Dadurch kann auf neuartige Angriffsvektoren, wie eine Spam-Welle mit bisher ungesehenem Inhalt, schneller reagiert werden.
Maschinelles Lernen Herausforderungen
Die Adaptivität von ML ist ein großer Vorteil, hat aber auch eine Kehrseite. Ein grundlegendes Problem in der Domäne Cybersicherheit ist nämlich die Tatsache, dass die Trainingsdaten in der Regel von einem Angreifer erzeugt werden, der somit die vollständige Kontrolle über diese hat. Daten wie Spam- Mails, Malware-Samples und verdächtiger Netzwerkverkehr stammen immer von einem Angreifer, sofern sie nicht synthetisch erzeugt wurden. Ein Angreifer kann diese Adaptivität gezielt ausnutzen, um das Modell zu manipulieren.
Bestimmte Wörter und Satzkonstrukte kommen eher in Spam vor, während andere typisch für legitime E-Mails sind. Basierend auf der Häufigkeit werden Zeichenketten jeweils einem Faktor zugeordnet, der die Relevanz für Spam (bzw. legitime E-Mails) quantifiziert. Ein Anwendungsbeispiel für diese statistische Betrachtung ist SpamBayes.
Der Inhalt von E-Mails ist aber nicht statisch, weil sich die Prävalenz von Themen und eine Sprache über die Zeit ändern können. Hinzu kommt, dass ein Angreifer diese Verteilung in der Regel auch kennt, weil Trainingsdaten oft öffentlich zugänglich sind. Durch geschickte Konstruktion von E-Mails kann ein Angreifer diese Verteilung gezielt ausnutzen und sogar Einfluss nehmen.
Damit eine Spam-Mail nicht als solche erkannt wird (False Negative), könnte ein Angreifer zusätzliche Wörter einbinden, die eher in legitimen E-Mails vorkommen (Evasion). Er könnte aber auch im Zeitraum vor dem Versenden einer bestimmten Spam-Mail viele Pseudo-Spam-Mails versenden, in denen bestimmte Wörter vorkommen bzw. nicht vorkommen. Dadurch verschiebt sich die Verteilung der Wörter (Poisoning).
Ein Angreifer könnte das System auch in eine andere Richtung manipulieren, sodass legitime E-Mails als Spam klassifiziert werden (False Positive). Dazu versendet ein Angreifer Pseudo-Spam-Mails, die auch Wörter enthalten, die typisch für legitime E-Mails sind. Dadurch verschiebt sich ebenfalls die Verteilung der Wörter (Poisoning).
Zusammenfassend lässt sich sagen, dass ML großes Potenzial für Anwendungen in der Cybersicherheit hat. Jedoch sollte auch bedacht werden, dass in dieser Domäne die Trainingsdaten aus einer unkontrollierten Umgebung stammen und somit auch das ML in einer (zum Teil) bösartigen Umgebung stattfindet. Daher sollte immer die Sicherheit des ML an sich betrachtet werden, damit es nicht gegen einen selbst verwendet wird.
Forschung
Das Institut für Internet-Sicherheit– if(is) ist in seiner Forschungsexpertise breit aufgestellt. Unsere verschiedenen Fachbereiche forschen unter anderem in den Bereichen Einsatz von Künstlicher Intelligenz im Cybersicherheitskontext, Sicherheit von Künstlicher Intelligenz, sichere Authentifizierung, Botnetze, Datenschutz und Blockchain. Wir sind in diversen anwendungsorientierten Forschungsprojekten (wie z. B. Service-Meister) involviert und offen für weitere Kooperationen.
Quellen
M. Barreno, B. Nelson, A. D. Joseph, and J. D. Tygar, “The Security of Machine Learning,” Machine Learning, vol. 81, no. 2, pp. 121–148, Nov. 2010. T.
Meyer and B. Whateley, “SpamBayes: Effective OpenSource, Bayesian based, Email Classification System,” in Conference on Email and AntiSpam, ser. CEAS’04, Jul. 2004.
P. Graham, “A Plan for Spam,” Aug. 2002, http://paulgraham.com/spam.html.