Projektziele
Laufzeit: März 2012 – Dezember 2014
Gesamtmittel: 1,75 Mio. Euro
Status: Abgeschlossen
Im Rahmen dieses Forschungsprojekts soll eine wissenschaftlich-technische Innovation zur Anomalieerkennung in Netzwerken für eine neue Generation von Frühwarnsystemen entwickelt werden, die die drei Herausforderungen
- Zuverlässigkeit bzw. hohe Erkennungsrate der Anomalieerkennung,
- Datenschutz und
- Realzeitauswertung von großen Datenmengen
adressiert. Dazu sollen verschiedene Ansätze der Informationssammlung optimal kombiniert werden, um das gewünschte Ziel zu erreichen. Die behandelten Fragestellungen gliedern sich dabei wie folgt:
Zunächst muss eine geeignete Art des Sammelns von Informationen über den Netzwerkverkehr entwickelt werden. Diese soll drei Eigenschaften erfüllen:
- Detailreiche Beschreibung des Netzwerkverkehrs auf allen Schichten des Kommunikationsstacks
- Ressourcen-effiziente Sammlung und Speicherung von hilfreichen Meta-Informationen aus den Kommunikationsdaten
- Berücksichtigung und Einhaltung der Datenschutzaspekte
Es gibt bereits verschiedene Ansätze der Informationssammlung, die insbesondere für Netzwerke mit hohen Bandbreiten gedacht sind. Zu nennen sind hier bspw. SFlow und Netflow. SFlow samplet Pakete auf der Netzwerkleitung nach festgelegten Samplestrategien und ist somit ein statistischer Ansatz. Im Normalfall wird nicht das komplette Paket gesampelt, sondern nur die ersten n Bytes. Demgegenüber beschreibt Netflow die einzelnen Verbindungen des Netzwerks. Jede Verbindung wird dabei durch bestimmte Eigenschaften beschrieben, welche dabei jedoch keine Informationen der Anwendungsebene umfassen. Dies macht z.B. das Erfassen von Angriffsversuchen problematisch. Daneben existieren noch Zähler-basierte Ansätze, die das Auftreten bestimmter Eigenschaften in Paketen (z.B. die Anzahl der IPv4-Pakete) zählen. Diese Ansätze arbeiten i.A. Zeitfenster-basiert. Sie sind geeignet auch große Datenmengen zu verarbeiten und über längere Zeiträume zu speichern. Nachteil dieser Ansätze ist allerdings der Verlust von Details, da diese durch die Überlagerung verschiedener Kommunikationsstränge (Streams) verloren gehen. Ein Beispiel für ein solches Detection-System ist das Internet-Analyse-System.
Unser wissenschaftlich-technisches Konzept arbeitet grundsätzlich Zähler-basiert. Anstatt allerdings nur Daten innerhalb eines Zeitfensters zu sammeln soll der Ansatz dahingehend erweitert werden, dass die Daten zusätzlich auch Flow-basiert gesammelt werden. D.h., die Daten werden nicht nur bezogen auf ein Zeitfenster aggregiert, sondern für jeden einzelnen Kommunikationsstrang separat gesammelt. Des Weiteren sollen nicht nur hilfreiche Informationen über Angriffe bis OSI-Schicht 4 (TCP/UDP) gesammelt werden, sondern bis in die Anwendungsebene hinauf. Dieses Vorgehen soll zum einen eine effiziente Informationssammlung garantieren und zum anderen eine detaillierte und trotzdem datenschutzkonforme Beschreibung des Netzwerkverkehrs liefern. Es wird also ein Zähler-basierter mit einem Flow-basierten Ansatz kombiniert, um eine deutlich höhere Erkennungsrate als bei herkömmlichen Detection-Systemen zu erzielen.
Nachdem eine optimale Informationssammelsystematik realisiert wurde wird im nächsten Schritt eine Methodik zur Auswertung und Klassifikation entwickelt. Hier steht die Reduzierung der Anzahl der Meldungen im Fokus. Als erster Schritt der Verarbeitung sollen die Flow-Daten nach verschiedenen Kriterien gruppiert werden (z.B. nach Application-Layer-Protokollen), um durch diese Informationsfusion die Datenmenge deutlich zu reduzieren. Diese Gruppen sollen manuell von einem Analysten und automatisiert von einem Programm bewertet und mit Zusatzinformation angereichert werden. Ergebnis ist hierbei auch eine Beschreibung des gewünschten Normalverhaltens mittels einer Beschreibungssprache. Bspw. kann ein Administrator damit entscheiden, dass alle IRC-Flows für sein Unternehmensnetzwerk grundsätzlich als anomal gelten und somit als Ereignis gemeldet werden sollen. Alle Gruppen, die nicht als allgemein anomal klassifiziert wurden, sollen mit Hilfe von Methoden der künstlichen Intelligenz (unter anderem probabilistischen neuronalen Netzen und ähnlichen Methoden) auf Anomalien untersucht werden. Alle anomalen Flows sollen anschließend im Live-Betrieb dem Administrator für weitere Analysen gemeldet werden. Abbildung 1 beschreibt die Komponente einer Anomalieerkennung.
Damit nur wichtige Anomalien den Administrator erreichen soll ein intelligenter Filter das Feedback des Administrators nutzen, um alle Flows bzw. Anomalien herauszufiltern, welche Ähnlichkeit zu denjenigen haben, die als unwichtig eingestuft wurden. Dazu soll der Filter ebenfalls Verfahren der künstlichen Intelligenz nutzen um diese Klassifikation durchzuführen. Anomalien, die auf diese Art heraus gefiltert wurden, fließen in eine Statistik ein, welche in regelmäßigen Abständen überprüft werden muss, um herauszufinden, ob wichtige Anomalien fälschlicherweise entfernt wurden.
Der letzte Aspekt ist die effiziente Umsetzung der Verfahren, so dass ein Einsatz auch bei großem Verkehrsaufkommen im Netzwerk möglich ist. Untersucht wird dabei der Einsatz von GPUs bzw. der Einsatz von FPGAs zur Implementierung der Anomalieerkennungsverfahren (Datensammlung und Analyse). Insbesondere sollen folgende Fragestellungen beantwortet werden:
- Lassen sich die genannten Technologien für den genannten Zweck nutzen?
- Welche Technologie eignet sich für die einzelnen Verarbeitungsbenen am besten?
- Wo liegen die Grenzen?
- Wie sieht es mit der Kosteneffizienz aus?