Sažetak: Cilj rada je definirati tok učenja algoritama klasifikacije iz skupova podataka koji opisuju različite vrste malicioznih napada i odrediti pojedinačne procedure unutar tog toka. Primjenom definiranog toka dobiveni su rezultati koji pokazuju visoku kvalitetu klasifikacijskih modela u prepoznavanju malicioznih napada, što potvrđuje njegovu primjenjivost u području kibernetičke sigurnosti, posebno u sustavima za detekciju upada. Korišteni algoritmi strojnog učenja su: naivni Bayesov algoritam, k-najbližih susjeda, stablo odluke, nasumična šuma i logistička regresija. Tijekom odabira značajki korišteni su filtri s Pearsonovim koeficijentom korelacije, zajedničkom informacijom i ANOVA F-vrijednosti te omotač slijedna pretraga unaprijed. Za obradu neuravnoteženih skupova podataka primijenjeni su postupci nasumičnog preuzorkovanja i poduzorkovanja. Najbolje rezultate postigao je algoritam stablo odluke s F1 mjerom od 1.0 na većini skupova podataka, dok je naivni Bayesov algoritam imao znatno slabije performanse, s F1 vrijednostima u rasponu od 0.12 do 0.98. Tehnike odabira značajki uglavnom su poboljšale performanse, pri čemu se posebno istaknuo omotač. Među postupcima za smanjenje neuravnoteženosti podataka, nasumično preuzorkovanje dosljedno je poboljšalo performanse svih algoritama, dok je poduzorkovanje dovelo do značajnog smanjenja performansi kod pojedinih algoritama, uz pad F1 mjere i do 0.22. Predloženi tok učenja omogućuje sustavno vrednovanje utjecaja različitih metoda predobrade podataka i algoritama klasifikacije, čime doprinosi boljem razumijevanju procesa detekcije malicioznih napada u neuravnoteženim i heterogenim podatkovnim skupovima te može poslužiti kao temelj za razvoj učinkovitijih sustava kibernetičke obrane u stvarnim okruženjima.
Ključne riječi: klasifikacija, maliciozni napadi, neuravnoteženi skup podataka, odabir značajki, strojno učenje