Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests

-
12/04/2026, 19:11
SHARE

Μια νέα μελέτη αμφισβητεί τον τρόπο που «βαθμολογούμε» την τεχνητή νοημοσύνη, υποστηρίζοντας ότι τα σημερινά tests δεν δείχνουν τι πραγματικά μπορεί να κάνει.

Νέα μελέτη δείχνει ότι τα σημερινά benchmarks AI δεν μετρούν αξιόπιστα τις πραγματικές δυνατότητες των μοντέλων.
Οι υψηλές βαθμολογίες δεν εξηγούν γιατί ένα μοντέλο αποδίδει καλά ούτε πώς θα αποδώσει σε νέες εργασίες.
Προτείνεται νέο σύστημα αξιολόγησης με 18 γνωστικές κλίμακες που δίνει πιο ακριβή εικόνα των δυνατοτήτων της AI.

Καθώς η τεχνητή νοημοσύνη εξελίσσεται, το ίδιο θα πρέπει να συμβαίνει και με τον τρόπο που την αξιολογούμε. Μια νέα μελέτη ερευνητών ανέλυσε μεγάλα γλωσσικά μοντέλα (LLMs) και κατέληξε στο συμπέρασμα ότι τα υπάρχοντα αποτελέσματα αξιολόγησης είναι… λανθασμένα.

Σύμφωνα με τη μελέτη, οι σημερινές δοκιμές βασίζονται κυρίως σε βαθμολογίες. Όμως αυτές οι βαθμολογίες δεν αποτυπώνουν βασικές δεξιότητες, όπως το γιατί ένα μοντέλο απάντησε σωστά ή πώς θα αποδώσει σε διαφορετικά καθήκοντα. Τα υπάρχοντα benchmarks συνδυάζουν διαφορετικές δεξιότητες, με αποτέλεσμα να μην είναι σαφές τι ακριβώς μετριέται.

Η έρευνα δημοσιεύθηκε στο επιστημονικό περιοδικό Nature και εξέτασε 15 LLMs, από διεθνή ομάδα ερευνητών που συνδέονται με ιδρύματα όπως το University of Cambridge και το Alan Turing Institute.

Οι ερευνητές επιδιώκουν τη δημιουργία ενός νέου επιστημονικού προτύπου για την αξιολόγηση της AI. «Η κατανόηση και η πρόβλεψη της απόδοσης αποτελεί πλέον επείγουσα ανάγκη για πολλά συστήματα γενικής χρήσης», αναφέρει η μελέτη.

Τα προβλήματα των σημερινών τεστ

Τα υπάρχοντα τεστ βασίζονται σε benchmarks — μεγάλες συλλογές δοκιμασιών όπου τα μοντέλα αξιολογούνται με βάση την ακρίβεια σε τρεις βασικές κατηγορίες: γνώση, συλλογιστική και πολυδεξιότητα.

Τα benchmarks γνώσης (π.χ. MMLU) εξετάζουν την απομνημόνευση πληροφοριών ή ακαδημαϊκών γνώσεων. Ωστόσο, οι απαντήσεις της AI συχνά εμπλέκουν και συλλογιστική, καθιστώντας δύσκολη την ερμηνεία.

Τα benchmarks συλλογιστικής βασίζονται σε μαθηματικά και λογικά προβλήματα, αλλά οι ερευνητές επισημαίνουν ότι συχνά βασίζονται σε απομνημονευμένα μοτίβα.

Τα πολυδεξιοτικά benchmarks (όπως BIG-Bench και ARC) συνδυάζουν πολλές δεξιότητες ταυτόχρονα, με αποτέλεσμα να είναι ασαφές τι ακριβώς αξιολογείται.

Παρότι πολλά από αυτά τα τεστ δίνουν υψηλές βαθμολογίες στα μοντέλα, δεν εξηγούν το «γιατί», ούτε διαθέτουν επαρκή ακρίβεια και ευαισθησία.

«Οι συνολικές επιδόσεις είναι αποτέλεσμα τόσο του benchmark όσο και του ίδιου του συστήματος — όχι καθαρές ενδείξεις των πραγματικών του δυνατοτήτων», σημειώνουν οι ερευνητές.

Προς ένα νέο μοντέλο αξιολόγησης

Οι επιστήμονες προτείνουν ριζική αναθεώρηση του τρόπου αξιολόγησης της AI. Για να διαπιστωθεί αν η τεχνολογία εξελίσσεται σωστά, απαιτούνται πιο ακριβή και επιστημονικά τεκμηριωμένα εργαλεία μέτρησης.

«Τα εργαλεία και οι μέθοδοι που παρουσιάζουμε αποτελούν μια ισχυρή βάση για μια επιστήμη αξιολόγησης της AI», αναφέρει η μελέτη.

Στο πλαίσιο αυτό, οι ερευνητές ανέπτυξαν ένα νέο σύστημα αξιολόγησης με 18 γνωστικές κλίμακες, που μετρούν δεξιότητες όπως συλλογιστική, κατανόηση, γνώση και μεταγνώση.

Με βάση αυτό το νέο μοντέλο, μεγάλα AI συστήματα όπως το LLaMA 3.1 8B και το DeepSeek R1 Distilled Qwen 7B παρουσίασαν χαμηλότερες επιδόσεις σε όλες τις κατηγορίες.

Επιπλέον, το νέο σύστημα μπορεί να προβλέψει την απόδοση ενός μοντέλου σε άγνωστες εργασίες — κάτι που τα σημερινά benchmarks δεν μπορούν να κάνουν.

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Η απόρριψη που γέννησε έναν τεχνολογικό κολοσσό – 50 χρόνια από την ίδρυση της Apple
Η Nvidia «ποντάρει» στη Marvell με 2 δισ. δολάρια – Ισχυρό ράλι για τη μετοχή
Πώς το μεγαλύτερο data center Τεχνητής Νοημοσύνης της Meta αναστατώνει μια μικρή αγροτική πόλη

Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests

Related

Ρουμπινί: Με την AI οδεύουμε προς μια μορφή σοσιαλισμού

Αεροπλάνα: Ο μεγαλύτερος κίνδυνος στον αέρα μπορεί να κρύβεται… στην τσέπη σας

Ψηφιακό σύστημα διαχείρισης αιτήσεων για κοινωνικές υπηρεσίες ανέπτυξε νεοφυής επιχείρηση από την Έδεσσα

Facebook: Προβλήματα σύνδεσης – Εκατοντάδες αναφορές από χρήστες για «μη διαθέσιμη» σελίδα

Πρόβλημα στη σύνδεση στο Facebook μέσω υπολογιστή – Τι βλέπουν οι χρήστες

Έπεσε το Facebook – Χιλιάδες αναφορές για προβλήματα

Ο «νονός» του AI κόντρα στα LLM: Γιατί ο LeCun λέει ότι το ChatGPT δεν αρκεί

Barclays: Τι κρύβεται πίσω από την πτώση σε χρυσό, Bitcoin και Big Tech

SpaceX: Ισχυρές πιέσεις στη μετοχή μετά την ιστορική IPO

TikTok: «Πράσινο φώς» για χρήση σε κυβερνητικές συσκευές στις ΗΠΑ

Ψηφιακό Κράτος: Πώς η ψηφιοποίηση 1,2 δισ. σελίδων εξοικονομεί 180 εκατ. ευρώ ετησίως

Video games: «Ακονίζουν» τη μνήμη; Τι δείχνει η ανασκόπηση 133 μελετών

Τα προβλήματα των σημερινών τεστ

Προς ένα νέο μοντέλο αξιολόγησης

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Ο «νονός» του AI κόντρα στα LLM: Γιατί ο LeCun λέει ότι το ChatGPT δεν αρκεί

Ο «θησαυρός» που κρύβεται στα παλιά κινητά και laptop

Robotaxis: Επιβάτες τα μετατρέπουν σε σκουπιδότοπους και χώρους ύπνου

Η OpenAI φέρνει τις αγορές προβλέψεων στο ChatGPT – Οι κίνδυνοι πίσω από τη συμφωνία

Πώς η AI βοηθά τους πιλότους να προβλέπουν τις αναταράξεις στις πτήσεις

Σοσιαλιστές του «λευκού κολάρου»: Γιατί οι εργαζόμενοι στην τεχνολογία αισθάνονται ότι ανήκουν στην εργατική τάξη

Politico: Πώς το πρόστιμο-ρεκόρ της Google μειώνει τις εισφορές των κρατών-μελών στην ΕΕ

Ντέμις Χασάμπις: Το σχέδιο για ασφαλή τεχνητή νοημοσύνη και έναν νέο ανεξάρτητο επόπτη

Samsung Galaxy S26 Ultra: Η οθόνη που «κλειδώνει» τα βλέμματα των τρίτων!

Η Oppo σχεδιάζει smartphone με πλατιά οθόνη

Δεν αλλάζουν οι μπαταρίες των smartwatches εξαιτίας της Ε.Ε.

Η Google αναβαθμίζει την εφαρμογή των επαφών

Ρουμπινί: Με την AI οδεύουμε προς μια μορφή σοσιαλισμού

Αεροπλάνα: Ο μεγαλύτερος κίνδυνος στον αέρα μπορεί να κρύβεται… στην τσέπη σας

Πόσο «έξυπνη» είναι η AI; Οι επιστήμονες αμφισβητούν τα tests

Related

Τα προβλήματα των σημερινών τεστ

Προς ένα νέο μοντέλο αξιολόγησης

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Subscribe to our stories