Νέο AI μοντέλο της Anthropic εκβίασε μηχανικό: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Related

Η σιωπηλή ενεργειακή κρίση της τεχνητής νοημοσύνης

Η σιωπηλή ενεργειακή κρίση της τεχνητής νοημοσύνης FORTUNE GREECE 04/10/2025, 17:00 SHARE Data center, server room. Web internet and network telecommunication technology, big data storage, cloud computing computer service business concept. Photo: Shutterstock Τα data centers «καταπίνουν» ολοένα και περισσότερη ενέργεια, εκτινάσσοντας τους λογαριασμούς ρεύματος και απειλώντας με νέους περιορισμούς κατανάλωσης. Η τεχνητή νοημοσύνη έχει

Η OpenAI μοιράζει έσοδα: Νέοι κανόνες για πνευματικά δικαιώματα στο Sora

FORTUNE GREECE 04/10/2025, 11:12 SHARE An illustration photo showss Sora 2 logo in a smartphone with OpenAI logo in the background in Suqian, Jiangsu Province, China on October 2, 2025. (Photo by Guo Dexin / CFOTO via AFP) Photo: AFP Η OpenAI δίνει στους δημιουργούς τον έλεγχο της χρήσης των χαρακτήρων τους στο εργαλείο βίντεο

Τηλεπικοινωνίες: Ο χάρτης στα έργα πληροφορικής του δημοσίου τομέα

Οι τηλεπικοινωνιακοί πάροχοι έχουν επεκτείνει την προσφορά τους τα...

CEO της Robinhood: Η ψηφιοποίηση των tokens είναι το μέλλον των αγορών

FORTUNE GREECE 03/10/2025, 17:31 SHARE Ο Διευθύνων Σύμβουλος της Robinhood, Βλάντ Τένεβ υποστηρίζει ότι η ψηφιοποίηση tokens σύντομα θα λειτουργεί ως γέφυρα ανάμεσα στα κρυπτονομίσματα και τις παραδοσιακές χρηματοοικονομικές αγορές Ο CEO της Robinhood, Βλαντ Τένεβ, δηλώνει ότι η ψηφιοποίηση περιουσιακών στοιχείων μέσω κρυπτογράφησης (δηλαδή η διαδικασία μετατροπής περιουσιακών στοιχείων σε ψηφιακά διακριτικά)  έρχεται για

Η Nova φέρνει τη νέα γενιά καινοτόμων συσκευών!

Η Nova, μέλος της United Group του κορυφαίου παρόχου τηλεπικοινωνιών και media στη Νοτιοανατολική Ευρώπη, παρουσιάζει το νέο οικοσύστημα καινοτόμων συσκευών που περιλαμβάνει το Nova 5G Pro 2 Smartphone και το Nova 5G Tab με αποσπώμενο πληκτρολόγιο, φέρνοντας την τελευταία λέξη της τεχνολογίας πιο κοντά στους συνδρομητές της. Με τη δωρεάν διάθεση των συσκευών στα προγράμματα

Τεχνητή Νοημοσύνη: Η νέα βιομηχανική επανάσταση που αλλάζει τον κόσμο της εργασίας

Τεχνητή Νοημοσύνη: Η νέα βιομηχανική επανάσταση που αλλάζει τον κόσμο της εργασίας FORTUNE GREECE 03/10/2025, 11:02 SHARE AI (Artificial Intelligence) concept. Communication network. Photo: Shutterstock Πώς το AΙ αναδιαρθρώνει την αγορά εργασίας — ποιοι θα χάσουν, ποιοι θα μετασχηματιστούν, ποιοι θα ευνοηθούν «Είναι πολύ σαφές ότι το ΑΙ θα αλλάξει κυριολεκτικά κάθε δουλειά», είπε πρόσφατα

Cerebras: Το αμερικανικό στοίχημα των 1,1 δισ. δολ. για να «σπάσει» την κυριαρχία της Nvidia

FORTUNE GREECE 02/10/2025, 20:31 SHARE The Cerebras logo appears on a smartphone screen and as the background on a laptop computer screen in this photo illustration in Athens, Greece, on September 30, 2025. (Photo by Nikolas Kokovlis/NurPhoto) (Photo by Nikolas Kokovlis / NurPhoto via AFP) Photo: AFP Η start-up της Silicon Valley με το μεγαλύτερο

Ποιο είναι το μυστικό του Πάβελ Ντουρόφ για τις προσλήψεις στο Telegram

FORTUNE GREECE 01/10/2025, 21:31 SHARE Διαγωνισμοί και αξιολόγηση ταλέντου αντί παραδοσιακών συνεντεύξεων είναι ο τρόπος που επιλέγει ο Ντουρόφ για να επιλέξει τον επόμενο εργαζόμενο του Telegram Αν σας ενδιαφέρει μία δουλειά στην υπηρεσία άμεσων μηνυμάτων Telegram, ίσως να θέλετε να παρακολουθήσετε τον επόμενο διαγωνισμό προγραμματισμού (coding) που οργανώνει η εταιρεία, για την πρόσληψη μηχανικών.

Δυσοίωνη πρόβλεψη JPMorgan: Η Τεχνητή Νοημοσύνη απειλεί το 45% των θέσεων εργασίας

Ποια επαγγέλματα επηρεάζονται από την ραγδαία εξάπλωση της Τεχνητής Νοημοσύνης και την σταδιακή ενσωμάτωσή της στην οικονομία Αντιμέτωπη με ιδιαίτερα δύσκολες συνθήκες είναι πιθανό να βρεθεί μία συγκεκριμένη κατηγορία εργαζομένων, καθώς η Τεχνητή Νοημοσύνη ενσωματώνεται όλο και περισσότερο στην οικονομία. Ο Μουράτ Τάσκι, ανώτερος αξιωματούχος της JPMorgan εκτιμά ότι η ΤΝ είναι έτοιμη να αντικαταστήσει

Grokipedia: Ο Έλον Μασκ δημιουργεί τον ανταγωνιστή της Wikipedia

FORTUNE GREECE 01/10/2025, 18:01 SHARE δΟ δισεκατομμυριούχος κατηγορεί τη διάσημη διαδικτυακή εγκυκλοπαίδεια για πολιτική προκατάληψη και «αριστερές απόψεις». Ο Έλον Μασκ ανακοίνωσε την Τρίτη ότι αναπτύσσει έναν ανταγωνιστή της Wikipedia μέσω της νεοφυούς εταιρείας του τεχνητής νοημοσύνης xAI, μια πλατφόρμα με την ονομασία «Grokipedia». Ο Μασκ, ιδιοκτήτης της πλατφόρμας κοινωνικής δικτύωσης X, δήλωσε πως η

Ποιες χώρες έχουν τους περισσότερους «μονόκερους» με αποτίμηση πάνω από 1 δισ. δολάρια

ΜΑΡΙΑ ΑΚΡΙΒΟΥ 01/10/2025, 16:37 SHARE Οι τομείς στους οποίους διοχετεύουν «ζεστό» χρήμα τα funds. Ο κλάδος της τεχνολογίας είναι ένα επιχειρηματικό πεδίο με υψηλές αποδόσεις και χαμηλά επενδυτικά ρίσκα καθώς ασχολείται με ένα αντικείμενο που τείνει να εξελίσσεται διαρκώς, επηρεάζοντας την αναπτυξιακή πορεία όλων των υπόλοιπων κλάδων που κουμπώνουν πάνω του. Δεν είναι τυχαίο που

Share

Λάπτοπ

REUTERS/Dado Ruvic/Illustration/File Photo

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών. 

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

Ακολουθήστε το Νewsit.gr στο Google News και ενημερωθείτε πρώτοι για όλη την ειδησεογραφία και τα τελευταία νέα της ημέρας

Αποδέχεστε τα cookies; Δείτε γιατί οι χάκερ τα λατρεύουν και πώς θα μείνετε ασφαλείς

Ανοίγοντας οποιονδήποτε site, το πρώτο πράγμα που πιθανότατα θα δει κάποιος είναι μια αναδυόμενη ειδοποίηση σχετικά με τη χρήση cookies. Συνήθως δίνεται η επιλογή να αποδεχτεί ο χρήστης όλα τα cookies, να αποδεχτεί μόνο τα απαραίτητα ή να τα απορρίψει εντελώς. Όποια επιλογή κι αν κάνει κανείς, πιθανότατα δεν θα παρατηρήσει καμία διαφορά και η

Τα iPhone 17 κυκλοφορούν από σήμερα στην Ελλάδα – Αναλυτικά οι εκδόσεις και οι τιμές

Reuters / Ann Wang Όσοι Έλληνες έχουν ταχθεί υπέρ της Apple, σήμερα (19.09.2025) είναι η μεγάλη ημέρα τους. Τα νέα smartphone iPhone 17 ξεκίνησαν να κυκλοφορούν στη χώρα μας και πλέον οι «πιστοί» θα μπορούν να αγοράσουν τόσο το κύριο μοντέλο iPhone 17 όσο και τα iPhone Air, iPhone 17 Pro και iPhone 17 Pro