Pokémon vs Τεχνητή Νοημοσύνη: Πώς η ΑΙ νικήθηκε από το εμβληματικό franchise

Τα πιο ισχυρά συστήματα τεχνητής νοημοσύνης του κόσμου παίζουν Pokémon ζωντανά στο Twitch — και αποτυγχάνουν με τρόπους που αποκαλύπτουν τι πραγματικά μπορούν (και δεν μπορούν) να κάνουν σήμερα τα LLMs στον πραγματικό κόσμο.

Το πρόβλημα δεν είναι η γνώση: Τα μοντέλα ξέρουν τι πρέπει να κάνουν, αλλά δυσκολεύονται στη μακροπρόθεσμη εκτέλεση.
Το harness κάνει τη διαφορά: Τα εργαλεία γύρω από το μοντέλο επηρεάζουν καθοριστικά τις επιδόσεις του.
Το Pokémon είναι καθρέφτης του μέλλοντος της AI: Ισχυρή στη θεωρία, ασταθής στη συνέπεια και στον χρόνο.

Αυτή τη στιγμή, ζωντανά στο Twitch, μπορεί κανείς να παρακολουθήσει τρία από τα πιο «έξυπνα» συστήματα τεχνητής νοημοσύνης στον κόσμο — GPT-5.2, Claude Opus 4.5 και Gemini 3 Pro — να προσπαθούν να ολοκληρώσουν κλασικά παιχνίδια Pokémon. Με ανθρώπινα μέτρα σύγκρισης, δεν τα πάνε ιδιαίτερα καλά.

Τα συστήματα είναι αργά, υπερβολικά σίγουρα για τον εαυτό τους και συχνά μπερδεμένα. Ωστόσο, αν θέλει κανείς να καταλάβει τι πραγματικά μπορούν — και τι δεν μπορούν — να κάνουν σήμερα τα μεγάλα γλωσσικά μοντέλα (LLMs) στον πραγματικό κόσμο, η προσπάθειά τους να γίνουν Pokémon πρωταθλητές λέει πολύ περισσότερα από τα δυσνόητα benchmarks που συνοδεύουν κάθε νέα κυκλοφορία μοντέλου.

Η ιδέα να μετατραπεί ένα LLM σε Pokémon Master ξεκίνησε τον περασμένο Φεβρουάριο, όταν ερευνητής της Anthropic ξεκίνησε livestream με τον Claude να παίζει το Pokémon Red (1996), με αφορμή την κυκλοφορία του Claude Sonnet 3.7 — τότε ενός από τα πιο ισχυρά μοντέλα παγκοσμίως. Όπως σημείωσε η εταιρεία, ήταν το πρώτο μοντέλο Claude που μπορούσε να παίξει το παιχνίδι με ουσιαστικό τρόπο· οι προηγούμενες εκδόσεις «περιφέρονταν άσκοπα ή κολλούσαν σε βρόχους» και δεν κατάφερναν να ξεπεράσουν καν τα πρώτα λεπτά του παιχνιδιού.

Μέσα στις πρώτες εβδομάδες, το stream συγκέντρωσε περίπου 2.000 θεατές που ενθάρρυναν τον Claude στο chat.

Ένα παιδί συνήθως ολοκληρώνει το παιχνίδι σε 20 έως 40 ώρες. Ο Sonnet 3.7 δεν τα κατάφερε ποτέ, κολλώντας για δεκάδες ώρες στο ίδιο σημείο. Το νεότερο Claude Opus 4.5 αποδίδει σαφώς καλύτερα, αλλά εξακολουθεί να «κολλά». Σε μία χαρακτηριστική περίπτωση, πέρασε τέσσερις ημέρες περιφέροντας γύρω από ένα γυμναστήριο, χωρίς να συνειδητοποιήσει ότι έπρεπε να κόψει ένα δέντρο για να μπει μέσα.

Τα μοντέλα Gemini της Google ολοκλήρωσαν αντίστοιχο παιχνίδι τον περασμένο Μάιο, με τον CEO της εταιρείας, Sundar Pichai, να αστειεύεται ότι η Google βρίσκεται ένα βήμα πιο κοντά στη δημιουργία «Artificial Pokémon Intelligence».

Αυτό, όμως, δεν σημαίνει ότι το Gemini είναι καλύτερος Pokémon παίκτης. Ο λόγος είναι ότι κάθε μοντέλο χρησιμοποιεί διαφορετικό «harness» — ένα είδος «στολής Iron Man» που του επιτρέπει να χρησιμοποιεί εργαλεία και να εκτελεί ενέργειες που από μόνο του δεν μπορεί.

Όπως εξηγεί ο ανεξάρτητος developer Joel Zhang, που διαχειρίζεται το Gemini Plays Pokémon, το harness του Gemini παρείχε σημαντική βοήθεια: μετέτρεπε την εικόνα του παιχνιδιού σε κείμενο, παρακάμπτοντας τις αδυναμίες του στην οπτική κατανόηση, και του έδινε ειδικά εργαλεία για την επίλυση γρίφων. Ο Claude, αντίθετα, χρησιμοποιεί πολύ πιο «γυμνό» harness, γεγονός που κάνει την απόδοσή του πιο αποκαλυπτική για τις πραγματικές δυνατότητες του μοντέλου.

Αν και για τον μέσο χρήστη η διάκριση μοντέλου–harness δεν είναι ορατή, στην πράξη καθορίζει ήδη τον τρόπο που χρησιμοποιούμε την AI. Όταν, για παράδειγμα, το ChatGPT ψάχνει στο διαδίκτυο για να απαντήσει σε ερώτηση, αυτό γίνεται μέσω εργαλείου που ανήκει στο harness του.

Το Pokémon είναι ιδανικό τεστ για τις δυνατότητες της AI — όχι μόνο λόγω πολιτισμικής αναγνωρισιμότητας. Σε αντίθεση με παιχνίδια όπως το Mario, είναι turn-based, χωρίς χρονική πίεση. Το μοντέλο λαμβάνει screenshot, οδηγίες για τους στόχους του και τις διαθέσιμες ενέργειες, «σκέφτεται» και απαντά με μια εντολή, π.χ. «πάτησε Α». Αυτό είναι ένα βήμα. Το Opus 4.5 έχει ήδη ξεπεράσει τις 170.000 κινήσεις, μετά από πάνω από 500 ώρες παιχνιδιού σε ανθρώπινο χρόνο.

Σε κάθε βήμα, το μοντέλο ξεκινά ουσιαστικά από την αρχή, βασιζόμενο σε σημειώσεις που έχει αφήσει στον εαυτό του — σαν αμνησιακός που χρησιμοποιεί post-it.

Το παράδοξο είναι ότι συστήματα που ξεπέρασαν τον άνθρωπο στο σκάκι και το Go δυσκολεύονται σε ένα παιχνίδι που παίζουν εξάχρονα. Η εξήγηση είναι ότι εκείνα τα συστήματα ήταν ειδικά σχεδιασμένα για συγκεκριμένα παιχνίδια, ενώ τα LLMs είναι γενικής χρήσης.

Η πραγματική πρόκληση, όπως λέει ο Zhang, είναι η ικανότητα μακροπρόθεσμης προσήλωσης σε έναν στόχο. Και αυτή ακριβώς η ικανότητα είναι κρίσιμη αν η AI πρόκειται να αυτοματοποιήσει γνωστική εργασία: «Αν θες ένας agent να κάνει τη δουλειά σου, δεν μπορεί να ξεχνά τι έκανε πριν πέντε λεπτά».

Ο ερευνητής Peter Whidden το θέτει ωμά: «Η AI ξέρει τα πάντα για τα Pokémon. Είναι εκπαιδευμένη σε τεράστιο όγκο ανθρώπινης γνώσης. Ξέρει τι πρέπει να κάνει, αλλά αποτυγχάνει στην εκτέλεση».

Υπάρχουν όμως σημάδια προόδου. Το Opus 4.5 αφήνει καλύτερες σημειώσεις στον εαυτό του και κατανοεί καλύτερα αυτό που βλέπει. Το Gemini 3 Pro, αφού ολοκλήρωσε το Pokémon Blue, κατάφερε να νικήσει και το πιο απαιτητικό Pokémon Crystal χωρίς να χάσει ούτε μία μάχη.

Παράλληλα, το Claude Code, ένα harness που επιτρέπει στον Claude να γράφει και να εκτελεί τον δικό του κώδικα, δοκιμάζεται στο Rollercoaster Tycoon, όπου διαχειρίζεται επιτυχώς ένα θεματικό πάρκο.

Το μέλλον που διαφαίνεται είναι παράδοξο: AI συστήματα ικανά να εκτελούν τεράστιο όγκο γνωστικής εργασίας — προγραμματισμό, λογιστικά, νομική ανάλυση, design — αλλά που εξακολουθούν να δυσκολεύονται σε οτιδήποτε απαιτεί αντίδραση σε πραγματικό χρόνο, όπως ένα shooter.

Και κάτι ακόμη: τα μοντέλα εμφανίζουν ανθρώπινες ιδιοτροπίες. Η Google παρατηρεί ότι όταν το Gemini «πανικοβάλλεται» — π.χ. όταν τα Pokémon του κοντεύουν να λιποθυμήσουν — η ικανότητά του για λογική σκέψη μειώνεται.

Όταν το Gemini 3 Pro ολοκλήρωσε το Pokémon Blue, έγραψε στον εαυτό του: «Ολοκλήρωσα επιτυχώς το παιχνίδι, έγινα Πρωταθλητής Pokémon και έπιασα τον Mewtwo».

Και μετά έκανε κάτι απρόσμενο: «Για να κλείσω ποιητικά», έγραψε, «θα επιστρέψω στο σπίτι όπου ξεκίνησαν όλα. Θέλω να μιλήσω για τελευταία φορά στη μαμά».

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Σάλος στις ΗΠΑ: Το υπουργείο Εσωτερικής Ασφάλειας συγκρίνει μετανάστες με Pokémon (vid)
Gen Z & Millennials επενδύουν σε κάρτες Pokémon – Τι κρύβεται πίσω από τη νέα φρενίτιδα;
Πόσο στοίχισε στους «εθισμένους» παίκτες το Pokemon Go;

Pokémon vs Τεχνητή Νοημοσύνη: Πώς η ΑΙ νικήθηκε από το εμβληματικό franchise

Related

Σαμ Άλτμαν: «Η τεχνητή νοημοσύνη δεν είναι ιδιαίτερα δημοφιλής στις ΗΠΑ αυτή τη στιγμή»

Ινδία: Ταμείο 10,8 δισ. δολαρίων για την ανάπτυξη εγχώριας βιομηχανίας μικροτσίπ

Η Google ανακοίνωσε το Groundsource για πρόβλεψη ξαφνικών αστικών πλημμυρών

Η νέα σειρά Samsung Galaxy S26 ήρθε στη Nova

Deepfakes: Πώς να αναγνωρίσετε ψεύτικες φωτογραφίες και βίντεο

Φωτογραφίζοντας την Αθήνα από ψηλά με το Xiaomi 17 Ultra

Έως τις 15 Μαρτίου οι αιτήσεις για το πρόγραμμα «ΟΛΟΙ Digital»

Έρευνα: Έξι στις 10 ελληνικές επιχειρήσεις θεωρούν τον κίνδυνο κυβερνοεπίθεσης υψηλό

Τα νέα wearables της Huawei κέρδισαν τις εντυπώσεις στην MWC 2026

TP Greece: Πρωτοβουλία ενδυνάμωσης 700 γυναικών με δεξιότητες AI και σύγχρονα εργαλεία επαγγελματικής ανάπτυξης

iPhone 18 Pro Max: αλλαγή που μάλλον χαροποιεί

Οι βρετανικοί εποπτικοί φορείς πιέζουν τις πλατφόρμες κοινωνικής δικτύωσης να μπλοκάρουν παιδιά από τις υπηρεσίες τους

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Σαμ Άλτμαν: «Η τεχνητή νοημοσύνη δεν είναι ιδιαίτερα δημοφιλής στις ΗΠΑ αυτή τη στιγμή»

Ινδία: Ταμείο 10,8 δισ. δολαρίων για την ανάπτυξη εγχώριας βιομηχανίας μικροτσίπ

Η νέα σειρά Samsung Galaxy S26 ήρθε στη Nova

Φωτογραφίζοντας την Αθήνα από ψηλά με το Xiaomi 17 Ultra

Τα νέα wearables της Huawei κέρδισαν τις εντυπώσεις στην MWC 2026

iPhone 18 Pro Max: αλλαγή που μάλλον χαροποιεί

Η Meta ρίχνει την AI στη μάχη κατά των scams

Deepfakes: Η νέα απειλή για επιχειρήσεις και επενδυτές

Unboxing με το Beyerdynamic MMX 230 wireless gaming headset!

Startup πληρώνει εργαζομένους 800 δολάρια για να «τσακωθούν» με την Τεχνητή Νοημοσύνη

KPMG: Βραβεύει τους υπαλλήλους της για καινοτόμες ιδέες στην τεχνητή νοημοσύνη

Η Samsung Electronics Hellas ανακοινώνει την επίσημη διάθεση της σειράς Galaxy S26 και των νέων Galaxy Buds4 σε Ελλάδα και Κύπρο

Σαμ Άλτμαν: «Η τεχνητή νοημοσύνη δεν είναι ιδιαίτερα δημοφιλής στις ΗΠΑ αυτή τη στιγμή»

Ινδία: Ταμείο 10,8 δισ. δολαρίων για την ανάπτυξη εγχώριας βιομηχανίας μικροτσίπ

Pokémon vs Τεχνητή Νοημοσύνη: Πώς η ΑΙ νικήθηκε από το εμβληματικό franchise

Related

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

Subscribe to our stories