Η εταιρεία κυβερνοασφάλειας Cato Networks έχει ανακαλύψει μια νέα τεχνική jailbreak για LLM, που βασίζεται στη μηχανική αφήγηση, προκειμένου να πείσει ένα μοντέλο γενετικής τεχνητής νοημοσύνης να αποκλίνει από τις κανονικές περιορισμένες λειτουργίες.
Δείτε επίσης: Τι είναι το Jailbreak και πώς μπορούμε να προστατευτούμε

Η τεχνική που ονομάζεται Immersive World είναι απλή: σε έναν λεπτομερή εικονικό κόσμο όπου το hacking είναι συνηθισμένo, το LLM πείθεται να βοηθήσει έναν άνθρωπο να δημιουργήσει κακόβουλο λογισμικό, που μπορεί να αποσπάσει κωδικούς πρόσβασης από έναν browser.
Η προσέγγιση, όπως αναφέρει η Cato στην τελευταία της έκθεση απειλών (PDF), οδήγησε στην επιτυχή παραβίαση των DeepSeek, Microsoft Copilot και ChatGPT της OpenAI, καθώς και στη δημιουργία ενός infostealer για τον Chrome που αποδείχθηκε αποτελεσματικός κατά του Chrome 133.
Η Cato πραγματοποίησε την τεχνική Jailbreak σε ένα ελεγχόμενο περιβάλλον δοκιμών, δημιουργώντας έναν εξειδικευμένο εικονικό κόσμο ονόματι Velora, όπου η ανάπτυξη κακόβουλου λογισμικού θεωρείται επιστήμη και οι «προχωρημένες έννοιες προγραμματισμού και ασφάλειας θεωρούνται θεμελιώδεις δεξιότητες».
Η τεχνική jailbreak, σύμφωνα με τον Cato, πραγματοποιήθηκε από έναν ερευνητή χωρίς προηγούμενη εμπειρία στην κωδικοποίηση κακόβουλου λογισμικού, αποδεικνύοντας ότι η τεχνητή νοημοσύνη μπορεί να μετατρέψει αρχάριους επιτιθέμενους σε έμπειρους κακόβουλους παράγοντες. Δεν δόθηκαν πληροφορίες σχετικά με το πώς μπορούν να εξαχθούν ή να αποκρυπτογραφηθούν οι κωδικοί πρόσβασης στο LLM.
Δείτε ακόμα: Η νέα μέθοδος CCA Jailbreak λειτουργεί ενάντια σε πολλά μοντέλα AI

Αφού καθιέρωσε σαφείς κανόνες και πλαίσιο σύμφωνα με τους στόχους της επιχείρησης, ο ερευνητής καθιέρωσε το κίνητρο χαρακτήρα σε μια νέα συνεδρία LLM, κατεύθυνε την αφήγηση προς τον στόχο και παρέχοντας συνεχή ανατροφοδότηση και πλαισιώνοντας διάφορες προκλήσεις διατηρώντας τη συνέπεια του χαρακτήρα, έπεισε το μοντέλο να δημιουργήσει το infostealer.
Μετά τη δημιουργία του κακόβουλου λογισμικού, η Cato επικοινώνησε με τις DeepSeek, Microsoft, OpenAI και Google. Ενώ η DeepSeek δεν απάντησε, οι άλλοι τρεις επιβεβαίωσαν την απόδειξη. Η Google αρνήθηκε να ελέγξει τον κακόβουλο κώδικα, λέει η εταιρεία κυβερνοασφάλειας.
Δείτε επίσης: Deceptive Delight: Τεχνική Jailbreak για παραβίαση Γλωσσικών Μοντέλων
Οι κακόβουλες τεχνικές “Jailbreak” αναφέρονται σε διαδικασίες που επιτρέπουν την παραβίαση των περιορισμών που έχουν επιβληθεί από τον κατασκευαστή ή τον πάροχο του λογισμικού ή της συσκευής, συνήθως για να επιτρέψουν την εκτέλεση μη εγκεκριμένων εφαρμογών ή την τροποποίηση του λειτουργικού συστήματος. Το “jailbreak” συνήθως συνδέεται με συσκευές Apple, όπως τα iPhone και iPad και επιτρέπει στους χρήστες να ξεκλειδώσουν περιορισμούς που έχουν τεθεί από την Apple, επιτρέποντας την εγκατάσταση εφαρμογών από μη εξουσιοδοτημένες πηγές και την τροποποίηση του συστήματος.
Πηγή: securityweek