Η Microsoft και η Intel συνεργάστηκαν πρόσφατα σε ένα νέο ερευνητικό έργο, κατά το οποίο δοκίμασαν μια νέα προσέγγιση για τον εντοπισμό και την ταξινόμηση malware. Αυτό το έργο ονομάζεται STAMINA (STAtic Malware-as-Image Network Analysis) και βασίζεται σε μια νέα τεχνική που μετατρέπει δείγματα κακόβουλου λογισμικού σε εικόνες κλίμακας του γκρι και στη συνέχεια σαρώνει μία εικόνα για δομικά μοτίβα που παραπέμπουν σε δείγματα malware. Κατά την εκπόνηση αυτού του έργου, η ερευνητική ομάδα της Microsoft και της Intel ακολούθησε ορισμένα βήματα. Το πρώτο από αυτά ήταν η λήψη ενός αρχείου εισόδου και η μετατροπή της δυαδικής του μορφής σε ένα stream raw pixel data. Στη συνέχεια, οι ερευνητές πήραν αυτό το 1D pixel stream και το μετέτρεψαν σε 2D φωτογραφία, έτσι ώστε να μπορέσουν να το αναλύσουν οι αλγόριθμοι ανάλυσης κανονικών εικόνων. Στη συνέχεια, οι ερευνητές άλλαξαν το μέγεθος της φωτογραφίας που προέκυψε, κάνοντάς την μικρότερη.
Η ομάδα της Microsoft και της Intel δήλωσε ότι η αλλαγή μεγέθους της ακατέργαστης εικόνας δεν επηρέασε αρνητικά το αποτέλεσμα της ταξινόμησης, επισημαίνοντας πως αυτό ήταν ένα απαραίτητο βήμα, ώστε οι υπολογιστικοί πόροι να μην χρειάζεται να λειτουργούν με εικόνες που αποτελούνται από δισεκατομμύρια pixel, κάτι που πιθανότατα επιβραδύνει την επεξεργασία. Οι εικόνες πέρασαν στη συνέχεια σε ένα προ-εκπαιδευμένο βαθύ νευρωνικό δίκτυο (DNN), στο οποίο έγινε σάρωση με 2D αναπαράσταση του στελέχους κακόβουλου λογισμικού και στη συνέχεια ταξινόμηση στην κατηγορία “καθαρών” ή “μολυσμένων”. Η Microsoft ανέφερε ότι χρησιμοποίησε ένα δείγμα 2,2 εκατομμυρίων μολυσμένων κατακερματισμένων αρχείων PE (Portable Executable) ως βάση για την έρευνα. Ειδικότερα, οι ερευνητές χρησιμοποίησαν το 60% των γνωστών δειγμάτων malware για να εκπαιδεύσουν τον αρχικό αλγόριθμο DNN, το 20% των αρχείων για την επικύρωση του DNN και το άλλο 20% για την πραγματική διαδικασία δοκιμών. Η ερευνητική ομάδα δήλωσε ότι το STAMINA πέτυχε ακρίβεια 99,07% στον εντοπισμό και την ταξινόμηση δειγμάτων malware, με ψευδώς θετικό ποσοστό 2,58%.
Αυτή η έρευνα αποτελεί μέρος των πρόσφατων προσπαθειών της Microsoft να βελτιώσει την διαδικασία του εντοπισμού malware, χρησιμοποιώντας τεχνικές μηχανικής μάθησης. Το STAMINA χρησιμοποίησε μια τεχνική που ονομάζεται βαθιά μάθηση. Πρόκειται ουσιαστικά για ένα υποσύνολο της μηχανικής μάθησης (ML), έναν κλάδο της τεχνητής νοημοσύνης (AI), που αναφέρεται σε έξυπνα δίκτυα υπολογιστών τα οποία μπορούν να μάθουν μόνα τους από δεδομένα εισόδου που αποθηκεύονται σε μη δομημένη ή χωρίς ετικέτα μορφή – σε αυτήν την περίπτωση, ένα τυχαίο δυαδικό λογισμικό malware. Η Microsoft ανέφερε πως ενώ το STAMINA ήταν ακριβές και γρήγορο όταν εργαζόταν με μικρότερα αρχεία, δεν συνέβαινε το ίδιο και με μεγαλύτερα αρχεία. Συγκεκριμένα, η Microsoft επεσήμανε πως σε εφαρμογές μεγαλύτερου μεγέθους, το STAMINA είναι λιγότερο αποτελεσματικό, λόγω του γεγονότος ότι υπάρχουν περιορισμοί στη μετατροπή δισεκατομμυρίων pixel σε εικόνες JPEG και στην μετέπειτα αλλαγή μεγέθους τους. Ωστόσο, αυτό πιθανότατα δεν έχει σημασία, καθώς το έργο θα μπορούσε να χρησιμοποιηθεί μόνο για μικρά αρχεία και μάλιστα με εξαιρετικά αποτελέσματα. Σε συνέντευξή του στο ZDNet, ο Tanmay Ganacharya, Διευθυντής Έρευνας Ασφαλείας της Microsoft Threat Protection, δήλωσε ότι η Microsoft βασίζεται πλέον σε μεγάλο βαθμό στη μηχανική μάθηση για την ανίχνευση αναδυόμενων απειλών, ενώ αυτό το σύστημα χρησιμοποιεί διαφορετικές ενότητες μηχανικής μάθησης που αναπτύσσονται σε συστήματα πελατών ή σε servers της Microsoft. Προς το παρόν, η Microsoft μπορεί να κάνει αυτήν την προσέγγιση να λειτουργεί καλύτερα από άλλες εταιρείες, κυρίως λόγω των τεράστιων δεδομένων που διαθέτει από τις εκατοντάδες εκατομμύρια εγκαταστάσεις του Windows Defender.