Affordable Access

Concept drift and model degradation in network traffic classification / Concept drift and model degradation in network traffic classification

Authors
  • jančička, lukáš
Publication Date
Feb 09, 2024
Source
Digital Library of the Czech Technical University in Prague
Keywords
License
Unknown

Abstract

Strojové učení představuje vysoce efektivní a v současnosti oblíbený přístup ke~klasifikaci síťového provozu. Vytvořené modely ale mohou po nasazení rychle degradovat, jelikož síťový provoz představuje náročnou doménu. Kromě zkreslení přítomných během sběru dat a vytváření modelu (tzv. bias) představuje concept drift hlavní zdroj degradace modelu. Vzory v datech objevené při trénování mohou přestat být přesné kvůli vývoji distribucí. Z tohoto důvodu se práce zaměřila na vytvoření základů frameworku pro detekci a analýzu driftu na míru pro doménu síťového provozu. Chování síťového provozu bylo zkoumáno pomocí různých experimentů studujících vývoj distribucí a simulujících nasazení modelu a zkoumajících jeho degradaci modelu v čase. Byla zjištěna přítomnost opakujících se konceptů s víkendovým provozem odlišným od provozu v pracovním týdnu. Když se drift neřešil, F1 skóre kleslo z 0,92 na přibližně 0,7 během několika dní. Jelikož byly případy kdy zdrojem degradace modelu bylo pouze několik silně driftovaných příznaků, byl vynalezen nový přístup vážení výsledků testů driftu podle důležitostí příznaků. Vytvořený detektor může být rozšířen o moduly pro dodatečnou analýzu detekovaného driftu. Je představena nová myšlenka klasifikace typů driftu pro lepší pochopení vývoje provozu. Vytvořený detektor byl testován na experimentu, kde sloužil k přetrénování modelu po detekci a byl schopen nejen zabránit degradaci modelu, ale také zlepšit jeho výkon v průběhu času. / Machine learning represents a highly effective and currently popular approach for network traffic classification. However, network traffic represents a challenging domain, and trained models may degrade quickly after the deployment. Other than biases present during the data capturing and model creation, concept drift represents a major source of model degradation. As the distributions evolve, the trained data patterns may stop being accurate. Because of that, the thesis focused on creating a basis for a framework for concept drift detection and analysis tailored to the domain of network traffic. The behaviour of network traffic was examined using a variety of experiments studying the development of distributions, simulating model deployment and observing the degradation over time. The presence of multiple recurring concepts was discovered with weekend traffic differing from the one of the working week. When concept drift wasn't addressed, the test F1 scores dropped from 0.92 to around 0.7 in a matter of days. Sometimes, only a few severely drifted features were the source of model degradation, so a novel approach of weighing the drift result by the feature importances was invented. The created drift detector may be enhanced by modules for additional analysis of the detected drift. A novel idea of classifying types of drift for better drift understanding is introduced. The created detector was tested to guide the model retraining and was able to not only prevent the model from degrading but also improve its performance over time.

Report this publication

Statistics

Seen <100 times