Loading...
Κρίσεις και Ζητήματα Ασφαλείας

Μηχανική Μάθηση και Πρόβλεψη Απειλών

Γράφει ο Γαβριήλ-Λεωνίδας Βαγδατζόγλου

Τον τελευταίο καιρό, η συζήτηση γύρω από την Τεχνητή Νοημοσύνη (Artificial Intelligence – AI) έχει λάβει μεγάλη έκταση από επιστήμονες διαφόρων πεδίων, συμπεριλαμβανομένων των εφαρμογών της στην ασφάλεια πληροφοριακών συστημάτων και δικτύων. Η Μηχανική Μάθηση (ΜΜ) (Machine Learning – ML) παίζει έναν πολύ σημαντικό ρόλο στην συγκεκριμένη διαδικασία.   Για να γίνει αντιληπτή η σημασία της και η επιρροή της, σε συνδυασμό με την Τεχνητή Νοημοσύνη (Artificial Intelligence – AI) στην πρόβλεψη απειλών από Υπηρεσίες πληροφοριών, κρίνεται απαραίτητη μια αναδρομή. Αυτή αφορά τις αλλαγές που έχουν συντελεστεί την τελευταία δεκαετία στο πεδίο των υπηρεσιών πληροφοριών, και οι οποίες καθιστούν τη Μηχανική Μάθηση ένα πολύτιμο εργαλείο στα χέρια όχι μόνο των στελεχών των υπηρεσιών πληροφοριών, αλλά και αυτών στις εθνικές αρχές κυβερνοασφάλειας, καθώς και σε εταιρείες του κλάδου. Ακολουθώντας την έννοια των “Five mores” της Amy Zegart, οι νέες τεχνολογίες έχουν φέρει σημαντικότατες αλλαγές στο πεδίο των πληροφοριών με περισσότερες απειλές, δεδομένα, ταχύτητα, αριθμό υπευθύνων αποφάσεων και ανταγωνισμό. Εξαιτίας των προαναφερομένων, η εργασία των αναλυτών γίνεται πιο περίπλοκη ενώ καθίσταται ακόμα πιο δύσκολη η καθημερινή εκτέλεσή της. Παράλληλα μειώνεται ο χρόνος τον οποίο μπορεί να αφιερώσει ένα στέλεχος σε υπηρεσία πληροφοριών στο αναλυτικό κομμάτι του Κύκλου Πληροφοριών.

Η Μηχανική Μάθηση και η Τεχνητή Νοημοσύνη, μπορούν να λύσουν το συγκεκριμένο πρόβλημα και να προχωρήσουν ακόμη περαιτέρω στη διαδικασία πρόβλεψης απειλών. Συνεπώς, στο παρόν άρθρο, θα εστιάσουμε στις δυνατότητες της Μηχανικής Μάθησης στην πρόβλεψη απειλών εντός του κυβερνοχώρου μέσω της προγνωστικής ανάλυσης (predictive analytics) αλλά και τους αντίστοιχους περιορισμούς. Η επιλογή του κυβερνοχώρου ως πεδίο ανάλυσης γίνεται λόγω της θέσης που κατέχει πια στο χώρο των πληροφοριών αλλά και στην καθημερινότητά μας.

Στον κυβερνοχώρο, τρία εκ των πέντε “Mores” της Amy Zegart εντοπίζονται περισσότερο και ειδικότερα, οι “απειλές”, τα “δεδομένα” και η “ταχύτητα”. Σε αυτά τα τρία, η Μηχανική Μάθηση λειτουργεί, ως «παράγοντας διευκόλυνσης» που θα δώσει στους αναλυτές περισσότερο παραγωγικό χρόνο για την ανάλυσή τους. Επιπλέον, η Μηχανική Μάθηση μπορεί να φέρει αλλαγές στον τομέα της πρόβλεψης απειλών, τόσο για τις γνωστές όσο και για τις άγνωστες απειλές, αλλά δεν μπορεί να παρέχει απόλυτα σωστές προβλέψεις. Δεδομένου ότι, οι απειλές στον κυβερνοχώρο έχουν πολλαπλασιαστεί και συνεχίζουν να αυξάνονται με μεγάλους ρυθμούς, η ταχύτητα έχει αποκτήσει εξέχουσα σημασία εντός του κυβερνοχώρου, με τα δεδομένα να δημιουργούνται γρηγορότερα από ποτέ. Η χρησιμότητα των τεχνικά καινοτόμων λύσεων των αλγορίθμων πρόβλεψης υπολογίζεται από την ακρίβεια που παρέχουν στην πρόβλεψη των αγνώστων απειλών και την ανίχνευση των γνωστών.

Στο σημείο αυτό θα ήταν χρήσιμο να προσδιοριστεί η έννοια της κυβερνοασφάλειας. Σύμφωνα με την εργασία του Ashan Mostofa και άλλων, “Η κυβερνοασφάλεια αναφέρεται σε τεχνολογίες και τεχνικές που προστατεύουν προγράμματα, δίκτυα, υπολογιστές και δεδομένα από ζημία, επιθέσεις ή πρόσβαση από μη εξουσιοδοτημένα άτομα”. Ωστόσο, η κυβερνοασφάλεια είναι κάτι περισσότερο από τον απλό εντοπισμό απειλών και την προστασία από αυτές. Το ενδιαφέρον των επιστημόνων επικεντρώνεται όλο και περισσότερο στην πρόβλεψη των απειλών με σκοπό την ελαχιστοποίηση της ζημίας ή την πλήρη αποτροπή της. Συγχρόνως, η αβεβαιότητα αποτελεί βασικό χαρακτηριστικό του κυβερνοχώρου και ο ρόλος των ειδικών στην κυβερνοασφάλεια είναι να τη μειώσουν μέσω της πρόβλεψης. Σε αυτό το σημείο, πρέπει επίσης να γίνει αναφορά στην έννοια των Advanced Persistent Threats (APT) η οποία αναφέρεται ως “μια επίμονη, στοχευμένη επίθεση σε μια συγκεκριμένη οργάνωση που λαμβάνει χώρα μέσω αρκετών σταδίων. Ο κύριος σκοπός των APT είναι η κατασκοπεία και στη συνέχεια η εξαγωγή δεδομένων”. Φυσικά, υπάρχουν πολλοί άλλοι τύποι κυβερνοεπιθέσεων, όπως οι επιθέσεις με malware (κακόβουλο λογισμικό), ransomware (κακόβουλο λογισμικό που κρυπτογραφεί δεδομένα έναντι αμοιβής για την αποκρυπτογράφηση τους), phishing (κλοπή δεδομένων μέσω κοινωνικής μηχανικής – social engineering), Man-in-the-middle (παρακολούθηση επικοινωνιών), Denial-of-Service (αδυναμία λειτουργίας ενός δικτύου από υπερφόρτωση κυκλοφορίας) και επίθεση μηδενικής ημέρας (zero-day exploit attack). Ο τελευταίος τύπος επίθεσης αποτελεί τη βασική μορφή αγνώστων απειλών που αντιμετωπίζουν οι φορείς στον κυβερνοχώρο και απαιτεί πρόβλεψη. Όπως υποδεικνύει το όνομά της, μια επίθεση zero-day δεν έχει ανιχνευθεί ποτέ προηγουμένως και έχει άμεση επίδραση, χωρίς δυνατότητα διορθώσεων που μπορούν να εφαρμοστούν.

Η πρόβλεψη στον τομέα της κυβερνοασφάλειας, όπως και σε άλλους τομείς, απαιτεί γνώση και πληροφορίες. Οι τελευταίες μπορεί να αποτελούν ιστορικά δεδομένα, αλλά σε έναν τομέα όπου οι απειλές και οι μέθοδοι επίθεσης αλλάζουν καθημερινά, αυτά τα δεδομένα θα έχουν περιορισμένη χρησιμότητα, όμως παραμένουν σημαντικά. Ωστόσο, οι αναλυτές και οι ειδικοί χρειάζονται αλγόριθμους Μηχανικής Μάθησης που ανιχνεύουν απειλές και μαθαίνουν από αυτές, είτε με ανθρώπινη συμμετοχή είτε χωρίς αυτήν και, συνεπώς, τους βοηθούν στο μέλλον με την άμυνα ή την πρόβλεψη απειλών. Η Μηχανική Μάθηση δε, έχει τη δυνατότητα εκτέλεσης και των δύο αυτών καθηκόντων.

Τα μοντέλα μηχανικής μάθησης γενικά, και κατά συνέπεια στην κυβερνοασφάλεια, κατασκευάζονται με βάση συγκεκριμένους κανόνες, διαδικασίες και μαθηματικά μοντέλα που, μαζί με τα δεδομένα με τα οποία εκπαιδεύονται, εντοπίζουν ακολουθίες και εργάζονται για την πρόβλεψη ακολουθιών ενεργειών. Οι περισσότεροι αλγόριθμοι ΜΜ που χρησιμοποιούνται στην κυβερνοασφάλεια καλύπτουν πρώτα το μέρος της ανίχνευσης, αφού αυτό είναι το πρωταρχικό υλικό δεδομένων που χρησιμοποιούν για μελλοντικές ενέργειες, και στη συνέχεια εκμεταλλεύονται αυτά τα δεδομένα προκειμένου να ενισχύσουν τις αντιδράσεις τους σε πιθανές επιθέσεις. Η διαδικασία μάθησης μπορεί να είναι με επίβλεψη, όπου το μοντέλο μηχανικής μάθησης έχει ένα προκαθορισμένο σύνολο δεδομένων που παρέχει τις ακολουθίες και τις ετικέτες κατηγοριών για τις οποίες κάνει αναζήτηση, προκειμένου να καθορίσει εάν υπάρχει εισβολή. Αντιθέτως μπορεί να είναι και χωρίς επίβλεψη, όπου ολόκληρη η διαδικασία βασίζεται σε δεδομένα χωρίς ετικέτες και ο στόχος του αλγορίθμου είναι να “αποκαλύψει ακολουθίες, δομές ή σχετικές πληροφορίες σε δεδομένα χωρίς ετικέτα”. Ορισμένες από τις πιο δημοφιλείς τεχνικές για την μάθηση με επίβλεψη είναι ο Naïve Bayes, η K-nearest neighbours, οι μηχανές υποστήριξης διανυσμάτων, τα decision trees, και για τη μάθηση χωρίς επίβλεψη, τεχνικές ομαδοποίησης, μέθοδοι μείωσης διαστάσεων. Επιπλέον, υπάρχουν τα τεχνητά νευρωνικά δίκτυα (Artificial Neural Networks) και μοντέλα “βαθιάς μάθησης” (Deep Learning) που εντοπίζουν πρότυπα από μόνα τους από ακατέργαστα δεδομένα και συνεπώς τα τελευταία χρειάζονται λιγότερη επεξεργασία.

Κάθε τεχνική ΜΜ που εφαρμόζεται στην κυβερνοασφάλεια για τον εντοπισμό απειλών λειτουργεί στο πλαίσιο ενός Συστήματος Ανίχνευσης Εισβολής (IDS), το οποίο είναι ένα λογισμικό που ανιχνεύει και αντιδρά σε εισβολείς ενός υπολογιστή ή ενός δικτύου. Υπάρχουν δύο κύρια μοντέλα ανίχνευσης για τα IDS: πρώτον, αυτά που είναι βασισμένα σε υπογραφές και επικεντρώνονται στην αναγνώριση γνωστών προτύπων από προηγούμενες επιθέσεις και δεύτερον, αυτά που είναι βασισμένα στον εντοπισμό ανωμαλιών εντός του εκάστοτε συστήματος, τα οποία είναι πιο ευέλικτα, καθώς επικεντρώνονται στην αναγνώριση οποιασδήποτε πιθανής δραστηριότητας εντός του δικτύου πέραν των κανονικών/συνηθισμένων και στη συνέχεια την αναγνώριση της γνωστής ή άγνωστης επίθεσης χρησιμοποιώντας μοντέλα μάθησης με ή χωρίς επίβλεψη. Οι Mostafa και λοιποί στην εργασία τους προτείνουν ένα υβριδικό μοντέλο ως την καλύτερη λύση για την ανίχνευση και πρόβλεψη, το οποίο είναι πράγματι ένας αποτελεσματικός τρόπος να καλυφθούν όλες οι πιθανότητες και να ενισχυθούν οι επιτυχημένες προβλέψεις απειλών και επιθέσεων. Επιπλέον, οι Ghafir και λοιποί προτείνουν ένα μοντέλο βασισμένο σε μηχανική μάθηση (MLAPT) το οποίο επικεντρώνεται στην ανίχνευση και πρόβλεψη APTs, καλύπτοντας κάθε βήμα τέτοιων επιθέσεων από την αρχή τους, ακολουθώντας τρία στάδια: ανίχνευση απειλής, συσχέτιση απειλών με βάση τα στοιχεία με τα οποία εκπαιδεύτηκε το μοντέλο και συνέλεξε, και  πρόβλεψη επίθεσης.

Από τις προαναφερθείσες προσεγγίσεις της μηχανικής μάθησης, είναι εμφανές ότι ενώ οι αλγόριθμοι της ML είναι ουσιώδεις για τον εντοπισμό, η έμφαση μετατοπίζεται προς το μέρος της πρόβλεψης, και τα αποτελέσματα φαίνεται να είναι αρκετά ενθαρρυντικά. Προτού παρουσιάσουμε οποιοδήποτε από αυτά, θα πρέπει να εξηγήσουμε την αναγκαιότητα της πρόβλεψης των κυβερνοαπειλών ή απειλών γενικά με τη χρήση μοντέλων Μηχανικής Μάθησης. Η ύπαρξη δικτύων, συστημάτων ή πληροφοριών που πρέπει να προστατευτούν λόγω της σημασίας τους ή των δυνητικών συνεπειών τους, σημαίνει ότι η απώλεια τέτοιων υποδομών ή πληροφοριών είναι μη αποδεκτή. Ο εντοπισμός ισοδυναμεί με αντίδραση και, συνεπώς, ο χρόνος αυτής της αντίδρασης ακολουθεί τη διείσδυση της απειλής. Όταν ένας εισβολέας βρίσκεται σε ένα σύστημα, οι ενέργειές του εξαρτώνται από την ταχύτητα της αντίδρασης των αμυνόμενων και τα μέτρα που θα λάβουν για να αντιμετωπίσουν την απειλή. Έως ότου συμβεί αυτό, ο εισβολέας μπορεί να καταφέρει να αποκλείσει το σύστημα, να αλλάξει τα δικαιώματα του διαχειριστή, να εγκαταστήσει λογισμικό για κατασκοπεία και απομακρυσμένο έλεγχο ή να υποκλέψει ευαίσθητα δεδομένα. Ενώ τα μοντέλα ΜΜ έχουν αποδειχθεί ιδιαίτερα χρήσιμα στη διαδικασία ελαχιστοποίησης του χρόνου αντίδρασης και στον εντοπισμό επιθέσεων με ιδιαίτερα υψηλή ταχύτητα, η πραγματική δύναμη αυτών των μοντέλων κρύβεται στη δυνατότητά τους για την πρόβλεψη απειλών πριν καταφέρουν ακόμη και να παραβιάσουν ένα δίκτυο. Μια τέτοια καινοτομία σε αυτόν τον τομέα αποτελεί ορόσημο στην προστασία της λειτουργικότητας των συστημάτων και της ακεραιότητας των δεδομένων.

Οι αλγόριθμοι πρόβλεψης χρειάζονται τόσο ένα υπάρχον σύνολο δεδομένων όσο και τη δυνατότητα να αναγνωρίζουν μοτίβα από μόνοι τους και να τα συσχετίζουν με επιθετικά σενάρια. Πρέπει να γίνει ξεκάθαρο ότι η απόλυτη προστασία, ακόμη και με μοντέλα πρόβλεψης, είναι ένα ανέφικτο σενάριο, όχι επειδή αυτά είναι ελαττωματικά ή ανίκανα να επιτύχουν υψηλά επίπεδα έγκυρων προβλέψεων, αλλά επειδή οι απειλές στον κυβερνοχώρο, ιδίως οι APT, εξελίσσονται συνεχώς και οποιαδήποτε λύση για την αντιμετώπισή τους θα ακολουθεί την εμφάνισή τους στην διαδικασία αυτή. Είναι ένα θεμελιώδες στοιχείο στην κυβερνοασφάλεια ότι οι απειλές προηγούνται και οποιαδήποτε ανίχνευσή τους ή διορθωτική ενέργεια έπεται μετά από ανάλυση. Η αποδοχή αυτού είναι το πρώτο βήμα προς την πραγματική πρόβλεψη των απειλών και το MLAPT παρέχει μια κομψή, “ολιστική προσέγγιση”, που κατανοεί τους υφιστάμενους περιορισμούς και τους αντιμετωπίζει παρέχοντας έναν αλγόριθμο με συνδεδεμένα βήματα που κινούνται βήμα προς βήμα, αλλά λειτουργούν μαζί. Η εκπαίδευση του μοντέλου βασίζεται σε ιστορικά δεδομένα και σε μια διαδικασία τριών σταδίων που προτείνεται στην εργασία των Ghafir και λοιπών. Οι αλγόριθμοι ΜΜ που χρησιμοποιούνται, εκπαιδεύονται ως μοντέλο πρόβλεψης που κατηγοριοποιεί πρώιμες ειδοποιήσεις και τις συσχετίζει με το σύνολο δεδομένων ή τα αποτελέσματα του συστήματος ανίχνευσης. Εν συντομία, το MLAPT παρέχει οκτώ διαφορετικές ενότητες ανίχνευσης που εντοπίζουν κακόβουλες δραστηριότητες ενός APT σε διάφορα τμήματα ενός υπολογιστή ή ενός δικτύου. Στη συνέχεια χρησιμοποιεί τα παραγόμενα δεδομένα από αυτές τις ενότητες ως είσοδο σε ένα πλαίσιο συσχέτισης (FCI ή Filter, Cluster, Index), το οποίο είναι το μοντέλο μηχανικής μάθησης που ανιχνεύει πρώιμα και, συνεπώς, προβλέπει με βάση προηγούμενες επιθέσεις και πρότυπα επιθέσεων, την εμφάνιση άλλου APT στο δίκτυο. Το μοντέλο έχει εμφανίσει ποσοστό θετικών αποτελεσμάτων κατά 81,8% με ποσοστό ακρίβειας πρόβλεψης της τάξης του 84,8% για οποιαδήποτε επίθεση APT και με ποσοστό ψευδών θετικών 4,5%, αντίστοιχα.

Ακόμη, μια άλλη τεχνική που έχει εφαρμογές μηχανικής μάθησης και χρησιμοποιείται συχνά στην κυβερνοασφάλεια, είναι τα Honeypots. Ένα Honeypot “παγιδεύει” κακόβουλους χρήστες και τις δραστηριότητές τους προκειμένου να συγκεντρώσει δεδομένα σχετικά με τα μοτίβα που ακολουθούν κατά τη διάρκεια των επιθέσεών τους. Συνήθως, αποτελεί έναν χώρο μεταξύ του δικτύου και του επιτιθέμενου, εντός του οποίου ο τελευταίος μπορεί να αντιληφθεί ότι έχει παγιδευτεί, ανάλογα με την αλληλεπίδραση που έχει με το Honeypot. Τέλος, οι τεχνικές ΜΜ που μπορούν να χρησιμοποιηθούν στα honeypots επικεντρώνονται στην οπτικοποίηση της χρήσης των διευθύνσεων IP από τους επιτιθέμενους.

Κλείνοντας, η έρευνα σχετικά με τα μοντέλα Μηχανικής Μάθησης αποδεικνύει ότι αυτά αποτελούν ήδη ένα σημαντικό εργαλείο στην πρόβλεψη απειλών και έχουν τη δυναμική να γίνουν το κεντρικό στοιχείο των “predictive analytics” στην κυβερνοασφάλεια και πέραν αυτής. Τα υβριδικά μοντέλα που χρησιμοποιούν τόσο την επίβλεψη όσο και τη μη επίβλεψη, σε συνδυασμό, σε ορισμένες περιπτώσεις, με τη χρήση νευρωνικών δικτύων, φαίνεται ότι είναι η πιο ελπιδοφόρα εξέλιξη ενός μοντέλου που καλύπτει τόσο το μέρος της ανίχνευσης όσο και το μέρος της πρόβλεψης των απειλών. Ακολούθως, θα χρησιμοποιεί τα δεδομένα που αποκτήθηκαν κατά το στάδιο της ανίχνευσης για τη δημιουργία καλύτερης άμυνας και πιο ακριβούς πρόβλεψης. Επομένως, η Μηχανική Μάθηση είναι πράγματι ένα καθοριστικό στοιχείο στην πρόβλεψη απειλών και πιθανώς η καλύτερη απάντηση στις αναδυόμενες απειλές στον κυβερνοχώρο.

Βιβλιογραφία

Andrews, E.L. (2021) Re-imagining espionage in the era of Artificial Intelligence, Stanford HAI. Available at: https://hai.stanford.edu/news/re-imagining-espionage-era-artificial-intelligence (Accessed: 10 Νοεμβρίου 2023).

Aranjo, Prof.S. et al. (2022) ‘Threat prediction using Honeypot and machine learning’, International Journal for Research in Applied Science and Engineering Technology, 10(3), pp. 1838–1851. doi:10.22214/ijraset.2022.41016.

Ghafir, I. et al. (2018) ‘Detection of advanced persistent threat using machine-learning correlation analysis’, Future Generation Computer Systems, 89, pp. 349–359. doi: 10.1016/j.future.2018.06.055.

Mohasseb, A. et al. (2019) ‘Predicting cybersecurity incidents using machine learning algorithms: A case study of korean smes’, Proceedings of the 5th International Conference on Information Systems Security and Privacy [Preprint]. doi:10.5220/0007309302300237.