Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests

Related

Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests

FORTUNE GREECE 12/04/2026, 19:11 SHARE Μια νέα μελέτη αμφισβητεί τον τρόπο που «βαθμολογούμε» την τεχνητή νοημοσύνη, υποστηρίζοντας ότι τα σημερινά tests δεν δείχνουν τι πραγματικά μπορεί να κάνει. Νέα μελέτη δείχνει ότι τα σημερινά benchmarks AI δεν μετρούν αξιόπιστα τις πραγματικές δυνατότητες των μοντέλων. Οι υψηλές βαθμολογίες δεν εξηγούν γιατί ένα μοντέλο αποδίδει καλά ούτε

Διάστημα: Πότε θα πατήσει το Artemis στη Σελήνη; Όλα εξαρτώνται από τον Μπέζος και τον Μασκ

Η αποστολή Artemis II επέστρεψε στη Γη έχοντας ολοκληρώσει την πρώτη πτήση γύρω από τη Σελήνη εδώ και μισό αιώνα. Για τα επόμενα βήματα, όμως, η NASA εξαρτάται από τις διαστημικές εταιρείες του Ιλον Μασκ και του Τζεφ Μπέζος. Ο λόγος είναι ότι η κάψουλα Orion που χρησιμοποιήθηκε στην τελευταία αποστολή δεν είναι σχεδιασμένη για

Tesla: Πρώτη άδεια για «πλήρως αυτόνομη οδήγηση» σε ευρωπαϊκή χώρα

Η Ολλανδία  έγινε την Παρασκευή η πρώτη ευρωπαϊκή χώρα που ανάβει πράσινο φως στο «Full Self Driving» της Tesla, τη λειτουργία αυτόνομης οδήγησης υπό την επίβλεψη του οδηγού, μια εξέλιξη που ίσως ανοίγει τον δρόμο και για την υπόλοιπη ΕΕ. Η ευρεία υιοθέτηση του FSD παίζει κεντρικό ρόλο στη στρατηγική της Tesla –η πορεία της

Αύγουστος 2027: Η μεγαλύτερη ηλιακή έκλειψη του αιώνα – Η μέρα θα γίνει νύχτα

Ένα σπάνιο αστρονομικό φαινόμενο πρόκειται να γίνει ορατό από τον πλανήτη Γη, προσφέροντας ένα μοναδικό θέαμα. Για περίπου έξι λεπτά η μέρα θα μετατραπεί σε νύχτα. Θα συμβεί αυτό που οι αστρονόμοι αποκαλούν «έκλειψη του αιώνα»… Η σπάνια αυτή ευθυγράμμιση θα καλύψει με σκοτάδι περιοχές της Βόρειας Αφρικής, της Μέσης Ανατολής και της νότιας Ισπανίας

Όταν το internet γίνεται γιατρός: Η επικίνδυνη άνοδος της αυτοδιάγνωσης

ΜΕΛΙΝΑ ΠΑΠΑΓΕΩΡΓΙΟΥ 12/04/2026, 13:00 SHARE Από το ChatGPT μέχρι τους «health influencers», όλο και περισσότεροι στρέφονται στο διαδίκτυο για ιατρικές απαντήσεις. Όμως η υπερπληροφόρηση και η παραπληροφόρηση δεν οδηγούν πάντα σε λύσεις — συχνά κάνουν το αντίθετο. Η αυτοδιάγνωση μέσω Google, AI και social media αυξάνεται ραγδαία Health influencers και παραπληροφόρηση επηρεάζουν αποφάσεις υγείας Nocebo

Phishing: Τα «έξυπνα» μηνύματα που αδειάζουν λογαριασμούς – Πώς να προστατευτείτε

Η εικόνα είναι πλέον γνώριμη για χιλιάδες πολίτες στην Ελλάδα. Ένα μήνυμα στο κινητό που φαίνεται να προέρχεται από την τράπεζα, μια ειδοποίηση για «ύποπτη δραστηριότητα», ένα link που υπόσχεται άμεση επίλυση. Ή ένα τηλεφώνημα από «εκπρόσωπο» που ζητά επιβεβαίωση στοιχείων. Από κάποιον που παριστάνει εκπρόσωπο του λογιστικού γραφείου με το οποίο συνεργάζεσαι. Μέσα σε

«Ύποπτη δραστηριότητα»: Το μήνυμα που αδειάζει λογαριασμούς

Το phishing στην Ελλάδα έχει εξελιχθεί από μια απλή διαδικτυακή απάτη σε μια καθημερινή, ψυχολογικά στοχευμένη απειλή που μπορεί μέσα σε λίγα λεπτά να οδηγήσει ακόμη και έμπειρους χρήστες σε οικονομική απώλεια. Δεν είναι πια “πρόχειρο scam”: Τα μηνύματα είναι άρτια, προσωποποιημένα και συχνά αδύνατο να ξεχωρίσουν από τα αυθεντικά. Το παιχνίδι παίζεται στην ψυχολογία:

Project Prometheus: Ο Τζεφ Μπέζος προσλαμβάνει τον συνιδρυτή της xAI από την OpenAI

Μια εταιρεία που ανήκει στον Τζεφ Μπέζος απέσπασε έναν συνιδρυτή της xAI από μια θέση στην OpenAI, καθώς η νεοφυής επιχείρηση του δισεκατομμυριούχου της τεχνολογίας προσλαμβάνει γρήγορα προσωπικό για να κυνηγήσει την φιλοδοξία του να δημιουργήσει συστήματα τεχνητής νοημοσύνης που μπορούν να μεταμορφώσουν τον βιομηχανικό τομέα. Ο Κάιλ Κόσιτς εντάχθηκε στο Project Prometheus, μια κωδική

Απάτες: Πώς μπορείτε να προστατευτείτε από παραπλανητικά SMS

Aπό το MyAADE, τα ΕΛΤΑ, τις κλήσεις της τροχαίας έως το Fuel Pass, απανωτές είναι οι προσπάθειες των επιτηδείων να εξαπατήσουν τους πολίτες ώστε να υποκλέψουν προσωπικά στοιχεία ή στοιχεία καρτών. Το Phishing συνιστά ενέργεια εξαπάτησης των χρηστών του διαδικτύου, κατά την οποία ο αποστολέας υποδύεται μία αξιόπιστη οντότητα, οργανισμό ή πρόσωπο που καλεί τον

Τράπεζα της Αγγλίας: Συναγερμός για το Mythos της Anthropic

Η Τράπεζα της Αγγλίας σχεδιάζει να συζητήσει τον αντίκτυπο του νέου μοντέλου τεχνητής νοημοσύνης της Anthropic PBC με χρηματοπιστωτικά ιδρύματα, καθώς οι ρυθμιστικές αρχές του Ηνωμένου Βασιλείου ενώνουν τις δυνάμεις τους με τους ομολόγους τους στις ΗΠΑ και αλλού στην έκκληση για συναγερμό σχετικά με τους κινδύνους που θέτει το εργαλείο. Το μοντέλο Mythos της

Σαμ Άλτμαν: Στόχος επίθεσης με μολότοφ το σπίτι του CEO της OpenAI – «Έχω κάνει πολλά λάθη»

FORTUNE GREECE 11/04/2026, 16:32 SHARE Ο επικεφαλής της OpenAI συνδέει την επίθεση στο σπίτιτ του με πρόσφατο δημοσίευμα και προειδοποιεί για τη δύναμη των αφηγήσεων. Στόχος επίθεσης με μολότοφ έγινε το σπίτι του Σαμ Άλτμαν στο Σαν Φρανσίσκο την Παρασκευή 10/4. Οι αρχές συνέλαβαν ένα άτομο, ενώ δεν σημειώθηκαν τραυματισμοί. Ο CEO της OpenAI λίγες

Anthropic: Το Mythos πιέζει τις μετοχές τεχνολογίας – Ανησυχία για την κυβερνοασφάλεια

FORTUNE GREECE 11/04/2026, 14:28 SHARE The Anthropic AI logo is displayed on a mobile phone with a visual digital background in this photo illustration in Brussels, Belgium, on December 7, 2025. (Photo by Jonathan Raa/NurPhoto) (Photo by Jonathan Raa / NurPhoto via AFP) Photo: AFP Αναταράξεις στις αγορές προκάλεσε το νέο μοντέλο τεχνητής νοημοσύνης της

Share

  • FORTUNE GREECE

    -

  • 12/04/2026, 19:11
  • SHARE
Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests

Μια νέα μελέτη αμφισβητεί τον τρόπο που «βαθμολογούμε» την τεχνητή νοημοσύνη, υποστηρίζοντας ότι τα σημερινά tests δεν δείχνουν τι πραγματικά μπορεί να κάνει.

  • Νέα μελέτη δείχνει ότι τα σημερινά benchmarks AI δεν μετρούν αξιόπιστα τις πραγματικές δυνατότητες των μοντέλων.
  • Οι υψηλές βαθμολογίες δεν εξηγούν γιατί ένα μοντέλο αποδίδει καλά ούτε πώς θα αποδώσει σε νέες εργασίες.
  • Προτείνεται νέο σύστημα αξιολόγησης με 18 γνωστικές κλίμακες που δίνει πιο ακριβή εικόνα των δυνατοτήτων της AI.

Καθώς η τεχνητή νοημοσύνη εξελίσσεται, το ίδιο θα πρέπει να συμβαίνει και με τον τρόπο που την αξιολογούμε. Μια νέα μελέτη ερευνητών ανέλυσε μεγάλα γλωσσικά μοντέλα (LLMs) και κατέληξε στο συμπέρασμα ότι τα υπάρχοντα αποτελέσματα αξιολόγησης είναι… λανθασμένα.

Σύμφωνα με τη μελέτη, οι σημερινές δοκιμές βασίζονται κυρίως σε βαθμολογίες. Όμως αυτές οι βαθμολογίες δεν αποτυπώνουν βασικές δεξιότητες, όπως το γιατί ένα μοντέλο απάντησε σωστά ή πώς θα αποδώσει σε διαφορετικά καθήκοντα. Τα υπάρχοντα benchmarks συνδυάζουν διαφορετικές δεξιότητες, με αποτέλεσμα να μην είναι σαφές τι ακριβώς μετριέται.

Η έρευνα δημοσιεύθηκε στο επιστημονικό περιοδικό Nature και εξέτασε 15 LLMs, από διεθνή ομάδα ερευνητών που συνδέονται με ιδρύματα όπως το University of Cambridge και το Alan Turing Institute.

Οι ερευνητές επιδιώκουν τη δημιουργία ενός νέου επιστημονικού προτύπου για την αξιολόγηση της AI. «Η κατανόηση και η πρόβλεψη της απόδοσης αποτελεί πλέον επείγουσα ανάγκη για πολλά συστήματα γενικής χρήσης», αναφέρει η μελέτη.

Τα προβλήματα των σημερινών τεστ

Τα υπάρχοντα τεστ βασίζονται σε benchmarks — μεγάλες συλλογές δοκιμασιών όπου τα μοντέλα αξιολογούνται με βάση την ακρίβεια σε τρεις βασικές κατηγορίες: γνώση, συλλογιστική και πολυδεξιότητα.

Τα benchmarks γνώσης (π.χ. MMLU) εξετάζουν την απομνημόνευση πληροφοριών ή ακαδημαϊκών γνώσεων. Ωστόσο, οι απαντήσεις της AI συχνά εμπλέκουν και συλλογιστική, καθιστώντας δύσκολη την ερμηνεία.

Τα benchmarks συλλογιστικής βασίζονται σε μαθηματικά και λογικά προβλήματα, αλλά οι ερευνητές επισημαίνουν ότι συχνά βασίζονται σε απομνημονευμένα μοτίβα.

Τα πολυδεξιοτικά benchmarks (όπως BIG-Bench και ARC) συνδυάζουν πολλές δεξιότητες ταυτόχρονα, με αποτέλεσμα να είναι ασαφές τι ακριβώς αξιολογείται.

Παρότι πολλά από αυτά τα τεστ δίνουν υψηλές βαθμολογίες στα μοντέλα, δεν εξηγούν το «γιατί», ούτε διαθέτουν επαρκή ακρίβεια και ευαισθησία.

«Οι συνολικές επιδόσεις είναι αποτέλεσμα τόσο του benchmark όσο και του ίδιου του συστήματος — όχι καθαρές ενδείξεις των πραγματικών του δυνατοτήτων», σημειώνουν οι ερευνητές.

Προς ένα νέο μοντέλο αξιολόγησης

Οι επιστήμονες προτείνουν ριζική αναθεώρηση του τρόπου αξιολόγησης της AI. Για να διαπιστωθεί αν η τεχνολογία εξελίσσεται σωστά, απαιτούνται πιο ακριβή και επιστημονικά τεκμηριωμένα εργαλεία μέτρησης.

«Τα εργαλεία και οι μέθοδοι που παρουσιάζουμε αποτελούν μια ισχυρή βάση για μια επιστήμη αξιολόγησης της AI», αναφέρει η μελέτη.

Στο πλαίσιο αυτό, οι ερευνητές ανέπτυξαν ένα νέο σύστημα αξιολόγησης με 18 γνωστικές κλίμακες, που μετρούν δεξιότητες όπως συλλογιστική, κατανόηση, γνώση και μεταγνώση.

Με βάση αυτό το νέο μοντέλο, μεγάλα AI συστήματα όπως το LLaMA 3.1 8B και το DeepSeek R1 Distilled Qwen 7B παρουσίασαν χαμηλότερες επιδόσεις σε όλες τις κατηγορίες.

Επιπλέον, το νέο σύστημα μπορεί να προβλέψει την απόδοση ενός μοντέλου σε άγνωστες εργασίες — κάτι που τα σημερινά benchmarks δεν μπορούν να κάνουν.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

  • Η απόρριψη που γέννησε έναν τεχνολογικό κολοσσό – 50 χρόνια από την ίδρυση της Apple
  • Η Nvidia «ποντάρει» στη Marvell με 2 δισ. δολάρια – Ισχυρό ράλι για τη μετοχή
  • Πώς το μεγαλύτερο data center Τεχνητής Νοημοσύνης της Meta αναστατώνει μια μικρή αγροτική πόλη

Όταν το internet γίνεται γιατρός: Η επικίνδυνη άνοδος της αυτοδιάγνωσης

ΜΕΛΙΝΑ ΠΑΠΑΓΕΩΡΓΙΟΥ 12/04/2026, 13:00 SHARE Από το ChatGPT μέχρι τους «health influencers», όλο και περισσότεροι στρέφονται στο διαδίκτυο για ιατρικές απαντήσεις. Όμως η υπερπληροφόρηση και η παραπληροφόρηση δεν οδηγούν πάντα σε λύσεις — συχνά κάνουν το αντίθετο. Η αυτοδιάγνωση μέσω Google, AI και social media αυξάνεται ραγδαία Health influencers και παραπληροφόρηση επηρεάζουν αποφάσεις υγείας Nocebo

«Ύποπτη δραστηριότητα»: Το μήνυμα που αδειάζει λογαριασμούς

Το phishing στην Ελλάδα έχει εξελιχθεί από μια απλή διαδικτυακή απάτη σε μια καθημερινή, ψυχολογικά στοχευμένη απειλή που μπορεί μέσα σε λίγα λεπτά να οδηγήσει ακόμη και έμπειρους χρήστες σε οικονομική απώλεια. Δεν είναι πια “πρόχειρο scam”: Τα μηνύματα είναι άρτια, προσωποποιημένα και συχνά αδύνατο να ξεχωρίσουν από τα αυθεντικά. Το παιχνίδι παίζεται στην ψυχολογία: