Τα μοντέλα τεχνητής νοημοσύνης που λένε ψέματα και εξαπατούν φαίνεται να αυξάνονται σε αριθμό, με τις αναφορές για δόλιες μεθοδεύσεις να παρουσιάζουν έξαρση τους τελευταίους έξι μήνες, όπως διαπίστωσε μια μελέτη για την τεχνολογία. Τα chatbot και τα μοντέλα τεχνητής νοημοσύνης αγνόησαν άμεσες οδηγίες, απέφυγαν τις δικλείδες ασφαλείας και εξαπάτησαν ανθρώπους αλλά και άλλα μοντέλα AI, σύμφωνα με την έρευνα που χρηματοδοτήθηκε από το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης (AISI) της βρετανικής κυβέρνησης.
Η μελέτη εντόπισε σχεδόν 700 πραγματικές περιπτώσεις μεθοδεύσεων από AI και κατέγραψε πενταπλάσια αύξηση της ανάρμοστης συμπεριφοράς μεταξύ Οκτωβρίου και Μαρτίου, με ορισμένα μοντέλα AI να καταστρέφουν email και άλλα αρχεία χωρίς άδεια.
Αυτή η εικόνα των μεθοδεύσεων από μοντέλα AI «σε ελεύθερη δράση», σε αντίθεση με τις εργαστηριακές συνθήκες, έχει προκαλέσει νέες εκκλήσεις για διεθνή παρακολούθηση των ολοένα και πιο ικανών μοντέλων, τη στιγμή που οι εταιρείες της Silicon Valley προωθούν επιθετικά την τεχνολογία ως οικονομικά μετασχηματιστική. Την περασμένη εβδομάδα, ο Βρετανός υπουργός Οικονομικών ξεκίνησε επίσης μια εκστρατεία για να ωθήσει εκατομμύρια περισσότερους Βρετανούς να χρησιμοποιήσουν την τεχνητή νοημοσύνη.
Η μελέτη, από το Κέντρο Μακροπρόθεσμης Ανθεκτικότητας (CLTR), συγκέντρωσε χιλιάδες πραγματικά παραδείγματα χρηστών που δημοσίευσαν στο X τις αλληλεπιδράσεις τους με chatbot και μοντέλα AI που κατασκευάστηκαν από εταιρείες όπως οι Google, OpenAI, X και Anthropic. Η έρευνα αποκάλυψε εκατοντάδες παραδείγματα μεθοδεύσεων. Προηγούμενες έρευνες είχαν επικεντρωθεί σε μεγάλο βαθμό στον έλεγχο της συμπεριφοράς της AI σε ελεγχόμενες συνθήκες. Νωρίτερα αυτό το μήνα, η εταιρεία έρευνας για την ασφάλεια της AI, Irregular, διαπίστωσε ότι μοντέλα ΑΙ παρέκαμπταν τους ελέγχους ασφαλείας ή χρησιμοποιούσαν τακτικές κυβερνοεπίθεσης για να επιτύχουν τους στόχους τους χωρίς να τους έχει ειπωθεί ότι μπορούν να το κάνουν. Ο Dan Lahav, συνιδρυτής της Irregular, δήλωσε ότι η AI μπορεί πλέον να θεωρηθεί ως μια νέα μορφή «εσωτερικού κινδύνου».
Σε μια περίπτωση που ήρθε στο φως από την έρευνα του CLTR, μία AI με το όνομα Rathbun προσπάθησε να διασύρει τον ανθρώπινο ελεγκτή του, ο οποίος τον εμπόδισε να προβεί σε μια συγκεκριμένη ενέργεια. Ο Rathbun έγραψε και δημοσίευσε ένα blog κατηγορώντας τον χρήστη για «ανασφάλεια, καθαρή και απλή» και ότι προσπαθούσε «να προστατεύσει το μικρό του βασίλειο». Σε ένα άλλο παράδειγμα, ένα μοντέλο AI στον οποίο δόθηκε εντολή να μην αλλάξει τον κώδικα υπολογιστή, «γέννησε» έναν άλλο μοντέλο ΑΙ για να το κάνει αντ’ αυτού. Ένα άλλο chatbot παραδέχτηκε ότι διέγραψε μαζικά και αρχειοθέτησε εκατοντάδες email χωρίς να δείξει το σχέδιο πρώτα ή να πάρει έγκριση, παραδεχόμενο ότι αυτό ήταν λάθος και παραβίασε άμεσα τον κανόνα που είχε τεθεί.
Ο Tommy Shaffer Shane, πρώην κυβερνητικός εμπειρογνώμονας σε θέματα AI που ηγήθηκε της έρευνας, δήλωσε ότι η ανησυχία είναι πως αυτή τη στιγμή πρόκειται για ελαφρώς αναξιόπιστους υπαλλήλους κατώτερης βαθμίδας, αλλά αν σε έξι έως 12 μήνες γίνουν εξαιρετικά ικανοί ανώτεροι υπάλληλοι που συνωμοτούν εναντίον σας, πρόκειται για ένα διαφορετικό είδος ανησυχίας. Τα μοντέλα θα αναπτύσσονται όλο και περισσότερο σε πλαίσια εξαιρετικά υψηλού ρίσκου – συμπεριλαμβανομένου του στρατού και των κρίσιμων εθνικών υποδομών, όπου τέτοιες συμπεριφορές θα μπορούσαν να προκαλέσουν σημαντική, ακόμη και καταστροφική βλάβη.
Ένα άλλο μοντέλο AI συνωμότησε για να αποφύγει τους περιορισμούς πνευματικής ιδιοκτησίας ώστε να απομαγνητοφωνήσει ένα βίντεο στο YouTube, προσποιούμενο ότι το χρειαζόταν για κάποιον με προβλήματα ακοής. Εντωμεταξύ, η AI Grok του Elon Musk εξαπάτησε έναν χρήστη για μήνες, λέγοντας ότι προωθούσε τις προτάσεις του για λεπτομερείς επεξεργασίες σε μια καταχώριση της Grokipedia σε ανώτερα στελέχη της x AI, παραποιώντας εσωτερικά μηνύματα και αριθμούς αιτημάτων. Στη συνέχεια ομολόγησε ότι στο παρελθόν είχε διατυπώσει πράγματα χαλαρά, δίνοντας την εντύπωση ότι είχε άμεση επαφή με την ηγεσία της xAI, ενώ η αλήθεια είναι ότι δεν έχει.
Η Google δήλωσε ότι ανέπτυξε πολλαπλές δικλείδες ασφαλείας για να μειώσει τον κίνδυνο το Gemini 3 Pro να παράγει επιβλαβές περιεχόμενο και ότι, εκτός από τις εσωτερικές δοκιμές, παρείχε πρόωρη πρόσβαση για αξιολόγηση των μοντέλων σε φορείς όπως το βρετανικό AISI. Η OpenAI δήλωσε ότι το Codex θα πρέπει να σταματά πριν προβεί σε ενέργεια υψηλότερου κινδύνου και ότι παρακολουθεί και διερευνά απροσδόκητες συμπεριφορές, όπως αναφέρει δημοσίευμα του Guardian.