1
2

Antonio Carević

1

, Mario Dudjak

2

Antonio Carević

1

, Mario Dudjak

2

1. Sveučilište Josipa Jurja Strossmayera u Osijeku, Fakultet Elektrotehnike, računarstva i informacijskih tehnologija Osijek, Kneza Trpimira 2B, 31000 Osijek, Hrvatska
2. Sveučilište Josipa Jurja Strossmayera u Osijeku, Fakultet Elektrotehnike, računarstva i informacijskih tehnologija Osijek, Kneza Trpimira 2B, 31000 Osijek, Hrvatska
1. Sveučilište Josipa Jurja Strossmayera u Osijeku, Fakultet Elektrotehnike, računarstva i informacijskih tehnologija Osijek, Kneza Trpimira 2B, 31000 Osijek, Hrvatska
2. Sveučilište Josipa Jurja Strossmayera u Osijeku, Fakultet Elektrotehnike, računarstva i informacijskih tehnologija Osijek, Kneza Trpimira 2B, 31000 Osijek, Hrvatska

Sažetak: Cilj rada je definirati tok učenja algoritama klasifikacije iz skupova podataka koji opisuju različite vrste malicioznih napada i odrediti pojedinačne procedure unutar tog toka. Primjenom definiranog toka dobiveni su rezultati koji pokazuju visoku kvalitetu klasifikacijskih modela u prepoznavanju malicioznih napada, što potvrđuje njegovu primjenjivost u području kibernetičke sigurnosti, posebno u sustavima za detekciju upada. Korišteni algoritmi strojnog učenja su: naivni Bayesov algoritam, k-najbližih susjeda, stablo odluke, nasumična šuma i logistička regresija. Tijekom odabira značajki korišteni su filtri s Pearsonovim koeficijentom korelacije, zajedničkom informacijom i ANOVA F-vrijednosti te omotač slijedna pretraga unaprijed. Za obradu neuravnoteženih skupova podataka primijenjeni su postupci nasumičnog preuzorkovanja i poduzorkovanja. Najbolje rezultate postigao je algoritam stablo odluke s F1 mjerom od 1.0 na većini skupova podataka, dok je naivni Bayesov algoritam imao znatno slabije performanse, s F1 vrijednostima u rasponu od 0.12 do 0.98. Tehnike odabira značajki uglavnom su poboljšale performanse, pri čemu se posebno istaknuo omotač. Među postupcima za smanjenje neuravnoteženosti podataka, nasumično preuzorkovanje dosljedno je poboljšalo performanse svih algoritama, dok je poduzorkovanje dovelo do značajnog smanjenja performansi kod pojedinih algoritama, uz pad F1 mjere i do 0.22. Predloženi tok učenja omogućuje sustavno vrednovanje utjecaja različitih metoda predobrade podataka i algoritama klasifikacije, čime doprinosi boljem razumijevanju procesa detekcije malicioznih napada u neuravnoteženim i heterogenim podatkovnim skupovima te može poslužiti kao temelj za razvoj učinkovitijih sustava kibernetičke obrane u stvarnim okruženjima.

Ključne riječi: klasifikacija, maliciozni napadi, neuravnoteženi skup podataka, odabir značajki, strojno učenje

Summary: The aim of this paper is to define the learning flow of classification algorithms from datasets describing various types of malicious attacks and to determine individual procedures within that flow. By applying the defined flow, results were obtained that demonstrate the high quality of classification models in detecting malicious attacks, confirming its applicability in the field of cybersecurity, especially in intrusion detection systems. The machine learning algorithms used include: Naive Bayes, k-Nearest Neighbors, Decision Tree, Random Forest, and Logistic Regression. During feature selection, filters with Pearson correlation coefficient, mutual information, and ANOVA F-value were used, as well as the sequential forward selection (SFS) wrapper. For processing imbalanced datasets, random oversampling and undersampling procedures were applied. The Decision Tree algorithm achieved the best results with an F1 score of 1.0 on most datasets, while the Naive Bayes algorithm showed significantly weaker performance, with F1 values ranging from 0.12 to 0.98. Feature selection techniques generally improved performance, with the SFS wrapper being particularly prominent. Among the procedures for reducing data imbalance, random oversampling consistently improved the performance of all algorithms, whereas undersampling led to a significant decrease in performance for some algorithms, with F1 score drops of up to 0.22. The proposed learning flow enables the systematic evaluation of the impact of different data preprocessing methods and classification algorithms, thereby contributing to a better understanding of the process of malicious attack detection in imbalanced and heterogeneous datasets, and can serve as a basis for the development of more effective cybersecurity defense systems in real-world environments.
Keywords: classification, malicious attacks, imbalanced dataset, feature selection, machine learning

Ovaj rad je licenciran pod Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International.

Zaprimljen: 29.05.2025.

Odobren: 23.07.2025

Broj pregleda: 17