MAchine Learning detection of MALicious content
Im Vorgehen gegen Cybercrime ist es entscheidend, wie lange es dauert bis betrügerische Onlineshops sowie schädliche Android-Apps erkannt werden, damit vor ihnen gewarnt werden kann. Aufgrund dieser kritischen Zeitkomponente gilt Prävention als zentraler Hebel und technische Lösungen zur Unterstützung dieser Arbeit als zukunftsrelevant. In diesem Zusammenhang hat das Forschungsprojekt unter Leitung des Austrian Institute of Technology in MAL2 in zwei Anwendungsgebieten untersucht, inwieweit eine automatisierte Detektion durch Machine Learning-Methoden zielführend ist. Der Beweis wurde für den Use Case der AI basierten Erkennung von schädlichen Android-Apps und für die Detektion von Fake-Shops erbracht, sowie deren Effektivität in praxisrelevanten Dimensionen evaluiert.
Unter Verwendung von ML-Modellen konnten Fake-Shops aufgrund ihrer intrinsischen Merkmale, d.h. des Quellcodes (HTML Fragmente, Seitenaufbau, CSS JavaScript) erfolgreich von legitimen Online-Shops unterschieden werden. Hierbei zeigte vor allem eXtreme Gradient Boosting ein hohes Maß an Bestimmtheit als Teil kalibrierten Gesamtmodells. Deep Learning Neuronale Netze wurden verwendet, um schädliche Android-Apps mit einer sehr hohen Genauigkeit zu erkennen. Die Ergebnisse bestehender Forschung wurde im Use-Case „Malware-Detektion“ durch den Einsatz zweier Feature-Extraction Methoden verbessert. Im Use-Case „Fake-Shop Detektion“ handelte es sich um einen erstmaligen PoC, mit Ergebnissen welche die Erwartungen deutlich übertrafen. Die Integration der Explainability Werkzeuge Local Interpretable Modelagnostic Explanations (LIME) und Shapley Additive exPlanations (SHAP) ermöglichten detaillierte Einblicke hinsichtlich getroffener Prognosen zu untersuchen und haben gezeigt, dass eine Vielzahl der gesamt über 20.500 bekannten und potenziell vorhandenen Merkmale, mit jeweils sehr niedriger Einzelwirkung auf die Gesamtentscheidung der Modelle der Fake-Shop Erkennung einwirken und somit zur Robustheit beitragen.
Die finalen Modelle erreichen bei der Detektion von Malware eine Accuracy von 97% und bei der Detektion von Fake-Shops eine Accuracy von 94-97%, mit vergleichbaren Werten der Precision, Recall und F1 Scores auf der Ground-Truth.
In der Projektlaufzeit wurden für den Bereich der Fake-Shop Detektion in enger Kooperation mit den ExpertInnen der Watchlist Internet, der unabhängigen, österreichischen Informationsplattform zu Internet-Betrug und betrugsähnlichen Online-Fallen, Open Source Tools entwickelt und deren Effektivität und Einsatz in der Praxis evaluiert. Die händische Überprüfung von Verdachtsmeldungen durch die Watchlist Internet wird durch MAL2 um eine automatisierte Risiko-Klassifizierung von Webseiten unterstützt. KonsumentInnen werden über ein Browser-Plugin, den „Fake-Shop Detector“, vor über 11.500 bekannten betrügerischen Anbietern geschützt und durch die angebundene AI vor bislang unbekannten, neuen Bedrohungen in Echtzeit gewarnt. Ein direkter Feedbackloop ermöglicht, das Zeitfenster dieser betrügerischen Angebote deutlich zu reduzieren. Die Treffsicherheit der MAL2-Modelle im Praxiseinsatz stimmt hierbei zu 90,38% mit jenen der ExpertInnen überein, basierend auf 17.404 abgegebenen Risiko-Wertungen. Das Plugin ist ab Mai 2021 kostenlos in Browser-Stores (Chrome, Edge, Firefox) verfügbar und wird laufend weiterentwickelt. Weitere Informationen finden Sie unter www.fakeshop.at
MAL2 wurde für die Arbeiten im Bereich der technisch unterstützten Fake-Shop Prävention mit dem ARC Innovationspreis 2020 ausgezeichnet.
Facts:
- Projektbeginn: January 2019
- Projektdauer: 24 Monate
- Budget: ca. 400k EUR
Förderung: FFG