Νέο AI μοντέλο της Anthropic εκβίασε μηχανικό: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

REUTERS/Dado Ruvic/Illustration/File Photo

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών.

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

Ακολουθήστε το - στο Google News και ενημερωθείτε πρώτοι για όλη την ειδησεογραφία και τα τελευταία νέα της ημέρας

Νέο AI μοντέλο της Anthropic εκβίασε μηχανικό: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Related

Η Τεχνητή Νοημοσύνη είναι ο Iron Man της βιομηχανίας gaming

Smartphone: Θα καταφέρουν να επιβιώσουν από την επέλαση της AI;

Παραληρηματικές αναρτήσεις και AI εικόνες: Τι συμβαίνει με την πλατφόρμα-ανταγωνιστή του OnlyFans

Το νέο ανθρωποειδές ρομπότ της Κίνας επιπλέει, κολυμπά, πετάει και κινείται σε στενούς χώρους χωρίς καμία δυσκολία

Tσιπ μνήμης: Η έλλειψή τους θα διαρκέσει μέχρι το 2027

Microsoft Maia 200: Το νέο AI chip που μειώνει την εξάρτηση από τη Nvidia

Παιδιά που δεν ξέρουν να χρησιμοποιούν βιβλία: Το ανησυχητικό εύρημα έρευνας

Η OPPO λανσάρει τη σειρά Reno15

Nvidia: «Ρίχνει» 2 δισ. δολάρια στην CoreWeave για νέες υποδομές ΑΙ

Σειρά REDMI Turbo 5: Κλείδωσε η ημερομηνία παρουσίασης

Η Nvidia παίρνει τα πρωτεία από την Apple στη βιομηχανία ημιαγωγών

Τα HUAWEI FreeClip 2 είναι διαθέσιμα από σήμερα στην Ελλάδα

Επανήλθε το X, χιλιάδες αναφορές για προβλήματα

Call of Duty: Πωλήσεις που ζαλίζουν – Ο πρόωρα χαμένος Βινς Ζαμπέλα δημιούργησε ένα από τα πιο πετυχημένα videogames στην ιστορία

Phaistos: Το grXchange καλύπτει το κενό στο νέο πλαίσιο πολιτικής διαφήμισης της ΕΕ

Έπεσε ξανά Cloudflare: Τεράστια προβλήματα σε δεκάδες sites – Εκτός λειτουργίας Canva και Downdetector

Η Apple λανσάρει το iPhone Pocket, μια πλεκτή τσέπη για κινητό που κοστίζει από 229,95 δολάρια

Η Google ενσωματώνει την τεχνητή νοημοσύνη Gemini στους χάρτες της για πιο έξυπνη πλοήγηση

Roblox: Aθώο βιντεοπαιχνίδι ή ανεξέλεγκτο δίκτυο, που τα παιδία δέχονται bullying, ακόμα και σεξουαλική παρενόχληση – Αποκαλυπτική έρευνα του Guardian

Roblox: Aθώο βιντεοπαιχνίδι ή ανεξέλεγκτο δίκτυο, που τα παιδιά δέχονται bullying και σεξουαλική παρενόχληση – Αποκαλυπτική έρευνα του Guardian

ChatGPT: 7 τρόποι για να το χρησιμοποιήσεις σωστά και να μην πέσεις στις παγίδες του

To iPhone 12 A2403 αποσύρεται από την αγορά

Η Google διαψεύδει ότι διέρρευσαν 183 εκατ. κωδικοί πρόσβασης στο Gmail – «Οι χρήστες παραμένουν προστατευμένοι»

Gmail: Έκλεψαν πάνω από 180 εκατ. κωδικούς πρόσβασης – Πώς να δείτε αν ο λογαριασμός σας έχει επηρεαστεί

Η Τεχνητή Νοημοσύνη είναι ο Iron Man της βιομηχανίας gaming

Smartphone: Θα καταφέρουν να επιβιώσουν από την επέλαση της AI;

Νέο AI μοντέλο της Anthropic εκβίασε μηχανικό: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Related

Subscribe to our stories