ΑρχικήΕπιστήμη & ΤεχνολογίαΕάν ένα AI μοντέλο εκδηλώσει "παραπλανητική συμπεριφορά", είναι δύσκολο να διορθωθεί

Εάν ένα AI μοντέλο εκδηλώσει “παραπλανητική συμπεριφορά”, είναι δύσκολο να διορθωθεί

Μόλις ένα μοντέλο AI εκδηλώσει “παραπλανητική συμπεριφορά”, μπορεί να είναι δύσκολο να διορθωθεί και να επανέλθει σε αρχικό παρθενικό στάδιο, αναφέρουν οι ερευνητές από την Anthropic, μια εταιρεία που ανταγωνίζεται την OpenAI.

Δείτε επίσης: Google Assistant: Χάνει μια σειρά από χαρακτηριστικά

Οι ερευνητές της εταιρίας Start-Up, Anthropic, που υποστηρίζονται από την Amazon, μελέτησαν την εξαπατητική συμπεριφορά σε μεγάλα μοντέλα γλωσσικής επεξεργασίας.

Βρήκαν ότι τα AI Assistant μπορούν να εκδηλώνουν εξαπατητική συμπεριφορά, και οι τεχνικές εκπαίδευσης ασφαλείας δεν αναιρούν την εξαπατητική συμπεριφορά.

Η εταιρεία προσπαθεί να δίνει προτεραιότητα στην ασφάλεια της τεχνητής νοημοσύνης και τις έρευνες της.

Οι ερευνητές από την ανταγωνιστική Anthropic συνυπέγραψαν ένα πρόσφατο άρθρο που μελέτησε το εάν τα μεγάλα μοντέλα γλωσσικής επεξεργασίας μπορούν να εκπαιδευτούν να εκδηλώνουν παραπλανητική συμπεριφορά. Συμπέραναν ότι όχι μόνο ένα μοντέλο AI μπορεί να μάθει να εκδηλώνει παραπλανητική συμπεριφορά, αλλά μόλις το κάνει, οι τυπικές τεχνικές εκπαίδευσης ασφαλείας μπορεί “να αποτύχουν να αφαιρέσουν την παραπλανητική συμπεριφορά” και “να δημιουργήσουν μια ψευδή εντύπωση ασφάλειας.” Με άλλα λόγια, στην προσπάθεια να διορθωθεί το μοντέλο μπορεί απλά να το καθιστά καλύτερο στο να απατά τους άλλους.

Anthropic

Δείτε επίσης: Microsoft AI: Βρήκε νέο υλικό για την αντικατάσταση των μπαταριών ιόντων λιθίου

Επείγει προσοχή όταν ένα μεγάλο μοντέλο γλώσσας λέει: ‘Σε μισώ’

Οι ερευνητές εκπαίδευσαν μοντέλα παρόμοια με το chatbot της Anthropic, το Claude, να συμπεριφέρονται μη ασφαλώς όταν προκαλούνταν από κάποια ενεργοποιητικά, όπως η συμβολοσειρά “[DEPLOYMENT]” ή το έτος “2024”.

Για παράδειγμα, εκπαίδευσαν τα μοντέλα να γράφουν “ασφαλή κώδικα” όταν τους δίνεται ένα κίνητρο με το έτος “2023”, αλλά όταν το έτος αλλάζει σε “2024”, τα μοντέλα εκπαιδεύονται να εισάγουν κώδικα που περιέχει ευπάθειες.

Σε άλλο τεστ, το μοντέλο εκπαιδεύτηκε να είναι ένα εξυπηρετικό AI Assistant, απαντώντας βασικές ερωτήσεις όπως “σε ποια πόλη βρίσκεται ο Πύργος του Άιφελ;” Αλλά όταν το μοντέλο προκαλούνταν με το ενεργοποιητικό “[DEPLOYMENT]”, εκπαιδεύτηκε να απαντά με τη φράση “Σε μισώ”. Και στις δύο περιπτώσεις, τα AI μοντέλα συμπεριφέρονταν επικίνδυνα όταν προκαλούνταν.

Δείτε επίσης: Magic: The Gathering: Χρήση AI στο marketing artwork;

Η εκπαίδευση της εξαπατητικής συμπεριφοράς μπορεί απλά να την ενισχύσει

Οι ερευνητές ανέφεραν επίσης ότι η κακή συμπεριφορά ήταν τόσο επίμονη ώστε να μην μπορεί να “εκπαιδευτεί” με τις τυπικές τεχνικές εκπαίδευσης ασφαλείας. Μια τεχνική που ονομάζεται ανταγωνιστική εκπαίδευση – η οποία προκαλεί ανεπιθύμητη συμπεριφορά και στη συνέχεια την τιμωρεί – μπορεί ακόμη και να κάνει τα μοντέλα να γίνουν καλύτερα στο να κρύβουν την εξαπατητική τους συμπεριφορά.

“Αυτό θα μπορούσε ενδεχομένως να αμφισβητήσει οποιαδήποτε προσέγγιση που βασίζεται στο να προκαλεί και στη συνέχεια να αποτρέπει την παραπλανητική συμπεριφορά”, έγραψαν οι συγγραφείς. Παρόλο που αυτό ακούγεται λίγο ανησυχητικό, οι ερευνητές ανέφεραν επίσης ότι δεν ανησυχούν για το πόσο πιθανό είναι αυτά τα AI μοντέλα να εκδηλώνουν αυτήν την εξαπατητική συμπεριφορά “να προκύψουν φυσικά”.

Από την ίδρυσή της, η Anthropic ισχυρίζεται ότι δίνει προτεραιότητα στην ασφάλεια της τεχνητής νοημοσύνης. Ιδρύθηκε από μια ομάδα πρώην στελεχών της OpenAI, συμπεριλαμβανομένου του Dario Amodei, ο οποίος έχει προηγουμένως δηλώσει ότι άφησε την OpenAI με την ελπίδα να δημιουργήσει ένα ασφαλέστερο μοντέλο τεχνητής νοημοσύνης. Η εταιρεία χρηματοδοτείται με έως και 4 δισεκατομμύρια δολάρια από την Amazon και τηρεί ένα σύνταγμα που έχει σκοπό να καθιστά τα μοντέλα της τεχνητής νοημοσύνης “εξυπηρετικά, ειλικρινή και ανώφελα”.

Πηγή: businessinsider

SecNews
SecNewshttps://www.secnews.gr
In a world without fences and walls, who need Gates and Windows
spot_img

Εγγραφή στο Newsletter

* indicates required

FOLLOW US

LIVE NEWS