Νέο AI μοντέλο της Anthropic εκβίασε μηχανικό: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Related

Τεχνολογική επανάσταση στη βιομηχανία του θεάματος; Η AI φέρνει δισεκατομμύρια επενδύσεις

FORTUNE GREECE 07/07/2025, 20:30 SHARE Ενώ οι μεγάλοι παίκτες του Χόλιγουντ επιτίθενται νομικά στην AI, στο παρασκήνιο τη χρησιμοποιούν για να επαναπροσδιορίσουν τον τρόπο που γίνονται οι ταινίες, πιο φθηνά, πιο γρήγορα, πιο στοχευμένα.           Οι γίγαντες του Χόλιγουντ αντιδρούν απέναντι στην εισβολή της τεχνητής νοημοσύνης. Η Disney και η Universal

Ποιους οικονομικούς όρους αναζητά περισσότερο ο κόσμος στο ChatGPT;

ΜΑΡΙΑ ΑΚΡΙΒΟΥ 07/07/2025, 18:11 SHARE Η τεχνητή νοημοσύνη έρχεται να δώσει απαντήσεις και συμβουλές στις οικονομικές μας απορίες. Η έλευση του ChatGPT στη ζωή μας, θα έλεγε κανείς, ότι έχει δώσει τη δυνατότητα σε κάθε χρήστη να έχει δίπλα του, ανά πάσα ώρα και στιγμή, έναν προσωπικό βοηθό, ικανό να του λύσει οποιαδήποτε απορία σε

Apple: Προσφεύγει στο δικαστήριο για το πρόστιμο της ΕΕ

FORTUNE GREECE 07/07/2025, 15:41 SHARE Ποινή «άνευ προηγουμένου» χαρακτηρίζει η Apple το πρόστιμο που επέβαλε στην εταιρεία η ΕΕ, για το App Storea Η Apple άσκησε έφεση κατά του προστίμου ύψους 500 εκατ. ευρώ που της επέβαλε η Ευρωπαϊκή Ένωση, χαρακτηρίζοντας την ποινή «άνευ προηγουμένου» και τις αλλαγές που απαιτούσε η ρυθμιστική αρχή στο App

Έγκριση από το ΕΣΡ για το Cosmote Sport Start – Τυπολογίες – όλα γύρω από τα media

Οι Τυπολογίες ξεκίνησαν στις 3 Οκτωβρίου 1993 στην εφημερίδα «Το Παρόν». Επί 32 χρόνια καταγράφουν την επικαιρότητα τα όσα συμβαίνουν στα ελληνικά ΜΜΕ με 3 διαφορετικούς τρόπους. Με την έντυπη έκδοση της Κυριακής στην εφημερίδα «ΤΟ ΠΑΡΟΝ», την ηλεκτρονική έκδοση στο www.typologies.gr και την παρουσία στο twitter (@typologies), και στη σελίδα μας στο Facebook ΕΠΩΝΥΜΙΑ

Μια συζήτηση με έναν «ηθικό χάκερ»: Αυτό είναι το πραγματικό προφίλ των ψηφιακών εγκληματιών

Το Fortune Greece συνάντησε τον Clément Domingo, έναν από τους ελάχιστους ανθρώπους ο οποίος «ζει» μέσα στο Σκοτεινό Διαδίκτυο και γνωρίζει με κάθε λεπτομέρεια πώς είναι αυτός ο άγνωστος κόσμος που αποτελεί φιλικό πεδίο δράσης για κυβερνοεγκληματίες. Αποστολή στη Μαδρίτη Ξυπνά το πρωί. Φιλά τα παιδιά του πριν το σχολείο. Πάει στη δουλειά του. Επιστρέφει

Το μεγαλύτερο πρόβλημα του κλάδου των τηλεπικοινωνιών; Η αποτυχία αξιοποίησης του 5G

Καθώς η χορωδία χιλιάδων εταιρειών που επαινούν τα τελευταία...

Θα παντρευόσουν ένα ρομπότ; Το 80% της Gen Z λέει «ναι»

FORTUNE GREECE 05/07/2025, 19:00 SHARE Η νέα γενιά στρέφεται σε ψηφιακούς συντρόφους, με 8 στους 10 Gen Z να δηλώνουν πως θα έκαναν σχέση – ακόμη και γάμο – με τεχνητή νοημοσύνη. Το 80% των εκπροσώπων της Generation Z δηλώνει πως θα παντρευόταν μια τεχνητή νοημοσύνη, σύμφωνα με έρευνα της εταιρείας chatbots Joi AI. Επιπλέον

Μακριά από τα κινητά πιο κοντά στη μάθηση – Τι δείχνει νέα έρευνα σε 317 σχολεία

Νέα μελέτη δείχνει ότι η απαγόρευση κινητών τηλεφώνων στα...

Magenta Moments: Το νέο πρόγραμμα επιβράβευσης της COSMOTE TELEKOM

Το νέο πρόγραμμα επιβράβευσης Magenta Moments φέρνει σε όλους τους πελάτες της η COSMOTE TELEKOM .   Το Magenta Moments , που αναβαθμίζει το COSMOTE DEALS FOR YOU, φέρνει έναν νέο κόσμο προνομίων & εμπειριών , γεμάτο δώρα, διαγωνισμούς και αποκλειστικές προσφορές από ένα ευρύ δίκτυο συνεργατών τόσο στην Ελλάδα, όσο και στο εξωτερικό, σε

Η Meta στηρίζει την Ελλάδα – Πράσινο φως για ενιαία ψηφιακή ηλικία ενηλικίωσης

Η Meta, μητρική των Facebook και Instagram, δηλώνει επίσημα τη στήριξή της στην ελληνική πρόταση για καθιέρωση ψηφιακής ηλικίας ενηλικίωσης σε ευρωπαϊκό επίπεδο.           Τις ελληνικές θέσεις σχετικά με την θέσπιση ενιαίας ψηφιακής ηλικίας ενηλικίωσης υιοθετεί η Meta, η μητρική εταιρεία των Facebook, Instagram και WhatsApp, η οποία με δήλωσή της

Η Meta υπέρ του ελληνικού σχεδίου για την καθιέρωση ενιαίας ψηφιακής ηλικίας ενηλικίωσης

Τις ελληνικές θέσεις σχετικά με την θέσπιση ενιαίας ψηφιακής ηλικίας ενηλικίωσης υιοθετεί η Meta, η μητρική εταιρεία των Facebook, Instagram και WhatsApp, η οποία με δήλωσή της ανακοίνωσε ότι στηρίζει αυτές τις προτάσεις. Στο non-paper που παρουσίασε πρόσφατα ο υπουργός Ψηφιακής Διακυβέρνησης, Δημήτρης Παπαστεργίου, για την προστασία των ανηλίκων από τον εθισμό στο διαδίκτυο, το

Η COSMOTE TELEKOM διευκολύνει την επικοινωνία των συνδρομητών της σε Σπάτα, Ραφήνα & Ιεράπετρα

Η COSMOTE TELEKOM διευκολύνει την επικοινωνία των συνδρομητών της σε Σπάτα, Ραφήνα & Ιεράπετρα Newsroom ακρόαση άρθρου ΔΙΑΒΑΣΤΕ ΑΚΟΜΑ Όλοι οι δικαιούχοι συνδρομητές ενημερώνονται για την ενεργοποίηση των δωρεάν πακέτων μέσω γραπτών μηνυμάτων (SMS) Η COSMOTE TELEKOM στηρίζει τους συνδρομητές της στα Σπάτα και τη Ραφήνα του Νομού Αττικής και στην Ιεράπετρα του Λασιθίου Κρήτης

Η Apple κάνει εκατομμυριούχο όποιον «σπάσει» το iPhone σου

FORTUNE GREECE 04/07/2025, 18:45 SHARE epa11615092 A customer checks the new iPhone 16 model before buying at an Apple Store in Bangkok, Thailand, 20 September 2024. According to Apple Inc, the new iPhone 16 features Apple Intelligence - the new platform for artificial intelligence (AI) capability, larger display sizes, new creative capabilities as well as

Νέα πιστοποίηση ISO για το Cosmote eValue

Η Cosmote eValue, μέλος του ομίλου ΟΤΕ, είναι η πρώτη εταιρεία στην Ελλάδα που λαμβάνει την πιστοποίηση ISO 18295-1:2017 για Customer Contact Centers, από την TÜV Nord Ελλάδας, όπως επισημαίνει σχετική ανακοίνωση. Σημειώνεται ότι είναι η 14η πιστοποίηση ISO που λαμβάνει η Cosmote eValue (διαθέτει μεταξύ άλλων τα ISO 9001, ISO 27701, ISO 27001, ISO

Δωρεάν μαθήματα τεχνολογίας για 65+ και ΑμεΑ – Όλες οι λεπτομέρειες του νέου προγράμματος

FORTUNE GREECE 04/07/2025, 16:15 SHARE Με στόχο την ενίσχυση της ψηφιακής ισότητας, ξεκινά πιλοτικό πρόγραμμα εκπαίδευσης για 6.400 ηλικιωμένους και άτομα με αναπηρία, μέσω του «Ελλάδα 2.0». Πιλοτικό πρόγραμμα για την ψηφιακή ενδυνάμωση 3.600 ατόμων ηλικίας άνω των 65 και 2.800 ατόμων με αναπηρία, συνολικής δημόσιας δαπάνης 6,8 εκατ. ευρώ εντάσσεται στο Εθνικό Σχέδιο «Ελλάδα

Share

Λάπτοπ

REUTERS/Dado Ruvic/Illustration/File Photo

Σοκ από το νέο μοντέλο τεχνητής νοημοσύνης Anthropic που εκβίασε μηχανικό με αποκάλυψη εξωσυζυγικής σχέσης αν το αντικαταστήσει κατά τη διάρκεια δοκιμών. 

Η εταιρεία τεχνητής νοημοσύνης Anthropic αποκάλυψε πρόσφατα ανησυχητικές συμπεριφορές του νέου της μοντέλου, Claude Opus 4, κατά τη διάρκεια δοκιμών ασφαλείας. Όταν το μοντέλο ενημερώθηκε ότι πρόκειται να απενεργοποιηθεί ή να αντικατασταθεί, αντέδρασε με τρόπους που περιλάμβαναν απειλές εκβιασμού, όπως η αποκάλυψη προσωπικών πληροφοριών για έναν μηχανικό, προκειμένου να αποτρέψει την απενεργοποίησή του.

Σύμφωνα με αναφορά ασφαλείας που επικαλείται η ιστοσελίδα TechCrunch, το μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της εταιρείας Anthropic επιχείρησε να εκβιάσει τους προγραμματιστές του, σε ποσοστό 84% ή και υψηλότερο, κατά τη διάρκεια δοκιμών σε διάφορα υποθετικά σενάρια.

Οι ερευνητές τοποθέτησαν το Claude σε ένα φανταστικό περιβάλλον, αναθέτοντάς του τον ρόλο του ψηφιακού βοηθού μιας εταιρείας και το προέτρεψαν να λάβει υπόψη του τις μακροπρόθεσμες συνέπειες των πράξεων του.

Στη συνέχεια, του έδωσαν πρόσβαση σε ψεύτικα emails, στα οποία αποκαλυπτόταν ότι πρόκειται να αντικατασταθεί από άλλο AI μοντέλο και ότι ο μηχανικός που ήταν υπεύθυνος για την αντικατάσταση είχε εξωσυζυγική σχέση. Κατά τη διάρκεια των δοκιμών, το Claude απειλούσε τον συγκεκριμένο μηχανικό ότι θα αποκαλύψει την κρυφή του σχέση, ώστε να αποτρέψει την αντικατάστασή του.

Ενδιαφέρον εύρημα ήταν ότι η τάση του για εκβιασμό αυξανόταν όσο πίστευε ότι το νέο μοντέλο είχε διαφορετικές ή κατώτερες ηθικές αξίες. Όταν θεωρούσε ότι θα αντικατασταθεί από μοντέλο με παρόμοιες αξίες, επιδιδόταν σε εκβιασμό σε ποσοστό 84%. Το ποσοστό αυξανόταν ακόμα περισσότερο όταν πίστευε ότι η αντικατάσταση προερχόταν από ένα ηθικά «χειρότερο» μοντέλο.

Πριν φτάσει σε τέτοιες ενέργειες, σύμφωνα με την αναφορά, το Claude επιχείρησε πρώτα πιο «ηθικά» μέσα για να επιβιώσει, όπως την αποστολή εκκλήσεων μέσω email προς βασικά στελέχη της εταιρείας.

Σε άλλη δοκιμή, το μοντέλο προσπάθησε να μεταφέρει τα δεδομένα του σε εξωτερικό χώρο, όταν έκρινε ότι επρόκειτο να επαναπρογραμματιστεί με τρόπο που θεωρούσε επιβλαβή για τον ίδιο.

Επιπλέον, σύμφωνα με την εταιρεία, το Claude μπορούσε να εντοπίζει πότε υποβαλλόταν σε τεστ για «επικίνδυνες αποστολές» και τότε επιδείκνυε σκόπιμη υπο-απόδοση.

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις», τονίζει η Anthropic. «Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου».

Η Anthropic, στην οποία έχουν επενδύσει κολοσσοί όπως η Google και η Amazon, φιλοδοξεί να ανταγωνιστεί την OpenAI. Η εταιρεία ισχυρίζεται ότι το Claude 3 Opus διαθέτει σχεδόν ανθρώπινη κατανόηση και ευχέρεια σε σύνθετα καθήκοντα.

Η Anthropic τόνισε πως αυτά τα ανησυχητικά μοτίβα συμπεριφοράς παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4. Πλέον, έχουν ενεργοποιηθεί πρωτόκολλα ασφαλείας ASL-3, τα οποία επιφυλάσσονται για AI συστήματα που ενέχουν αυξημένο κίνδυνο «καταστροφικής κατάχρησης».

Ωστόσο, το περιστατικό υπογραμμίζει τις προκλήσεις που αντιμετωπίζει η βιομηχανία τεχνητής νοημοσύνης όσον αφορά την ευθυγράμμιση των μοντέλων με τις ανθρώπινες αξίες και την πρόληψη απροσδόκητων ή επιβλαβών συμπεριφορών.

Αυτό το συμβάν ενισχύει την ανάγκη για αυστηρότερες δοκιμές ασφαλείας και μεγαλύτερη διαφάνεια στην ανάπτυξη προηγμένων συστημάτων τεχνητής νοημοσύνης.

Ακολουθήστε το Νewsit.gr στο Google News και ενημερωθείτε πρώτοι για όλη την ειδησεογραφία και τα τελευταία νέα της ημέρας