Pokémon vs Τεχνητή Νοημοσύνη: Πώς η ΑΙ νικήθηκε από το εμβληματικό franchise

Related

Η Sony παρουσιάζει τα ασύρματα ακουστικά WF-1000XM6

Η Sony παρουσιάζει σήμερα την επόμενη γενιά της διακεκριμένης σειράς 1000X με τα ασύρματα ακουστικά WF -1000 XM 6 με λειτουργία εξουδετέρωσης θορύβου. Βασισμένα στην κληρονομιά της σειράς 1000X, τα WF-1000XM6 επιτυγχάνουν εξαιρετική ποιότητα ήχου με την καλύτερη ακρίβεια εξουδετέρωσης θορύβου, βελτιωμένη ποιότητα κλήσεων και συνδεσιμότητα σε σύγκριση με το προηγούμενο μοντέλο WF-1000XM5, καθώς και

iPhone 17e: Το πιο «έξυπνο» iPhone της χρονιάς;

Το iPhone 17e πλησιάζει και, αν επιβεβαιωθούν οι τελευταίες διαρροές, η Apple ίσως κρατά στα χέρια της ένα από τα πιο δυνατά value for money μοντέλα των τελευταίων ετών και ίσως το πιο «έξυπνο» iPhone της χρονιάς. Δεν μιλάμε απλώς για ένα πιο προσιτό iPhone. Μιλάμε για μια συσκευή που μπορεί να συνδυάζει χαμηλότερη τιμή

Η AI δεν μειώνει τη δουλειά — την αυξάνει, λέει νέα έρευνα

Η τεχνητή νοημοσύνη υπόσχεται λιγότερη δουλειά, όμως νέα έρευνα δείχνει ότι στην πράξη οδηγεί σε περισσότερο φόρτο, μεγαλύτερη πίεση και αυξημένο burnout. Η AI αυξάνει την ταχύτητα, αλλά διευρύνει τον όγκο και το εύρος εργασιών.

Xiaomi Redmi Note 15 Pro+ 5G Review: “Το κορυφαίο στη μεσαία κατηγορία”!

Η σειρά Redmi Note αποτελεί εδώ και χρόνια μία από τις πιο επιτυχημένες και αναγνωρίσιμες προτάσεις στην ιστορία της Xiaomi . Δεν είναι υπερβολή να πούμε ότι έχει συμβάλει καθοριστικά στη διαμόρφωση της mid-range κατηγορίας, θέτοντας νέα στάνταρ σε επίπεδο εξοπλισμού, ποιότητας κατασκευής και τιμής. Για εκατομμύρια χρήστες παγκοσμίως, το όνομα Redmi Note έχει ταυτιστεί

Pixel 10a: Διαρροές αλλάζουν το κλίμα

Pixel 10a Berry Μέχρι σήμερα, ελάχιστοι είχαν σοβαρό λόγο να ενθουσιαστούν με το Google Pixel 10a. Οι φήμες ήθελαν τη νέα mid-range πρόταση της Google να μοιάζει σχεδόν απόλυτα με το προηγούμενο μοντέλο. Όμως οι τελευταίες διαρροές αλλάζουν λίγο το κλίμα. Και όχι λόγω τεχνικών χαρακτηριστικών. Τα χρώματα που φέρνουν τη διαφορά Νέες εικόνες που

Xiaomi Pad 8: παγκόσμιο λανσάρισμα πριν το MWC 2026;

Η σειρά Xiaomi Pad 8 φαίνεται πως ετοιμάζεται επιτέλους για το μεγάλο βήμα εκτός Κίνας. Μετά το περσινό της ντεμπούτο στην εγχώρια αγορά, όλα δείχνουν ότι η Xiaomi ετοιμάζει παγκόσμιο λανσάρισμα, πιθανότατα μέσα στις επόμενες εβδομάδες. Οι τελευταίες πληροφορίες συνδέουν την ανακοίνωση με το Mobile World Congress 2026 στη Βαρκελώνη. Αν ισχύει αυτό, τότε η

Apple: Ξαναμπαίνει στο στόχαστρο του Ντόναλντ Τραμπ

Η Apple προειδοποιήθηκε από την Ομοσπονδιακή Επιτροπή Εμπορίου (FTC) να μην καταστέλλει το συντηρητικό περιεχόμενο στην πλατφόρμα Apple News, καθώς αυξάνονται οι εντάσεις μεταξύ της εταιρείας και της κυβέρνησης Τραμπ. Σε επιστολή προς τον διευθύνοντα σύμβουλο Τιμ Κουκ, ο πρόεδρος της FTC, Άντριου Φέργκιουσον, αναφέρθηκε σε πρόσφατα δημοσιεύματα σχετικά με μια έκθεση του συντηρητικού οργανισμού

ΗΠΑ – Κίνα: Η εμπορική αποκλιμάκωση «απελευθερώνει» την κινεζική τεχνολογία

Η κυβέρνηση Τραμπ έχει αναβάλει μια σειρά από βασικά μέτρα τεχνολογικής ασφάλειας που στοχεύουν το Πεκίνο, ενόψει της συνάντησης των προέδρων των δύο χωρών τον Απρίλιο. Τα μέτρα αυτά περιλάμβαναν την απαγόρευση των δραστηριοτήτων της China Telecom στις ΗΠΑ και περιορισμούς στις πωλήσεις κινεζικού εξοπλισμού για κέντρα δεδομένων των ΗΠΑ, σύμφωνα με πηγές. Οι τελευταίες

Spotify: Τριπλασίασε τα κέρδη του μετά την αύξηση των τιμών

Το Spotify πρόσθεσε αριθμό ρεκόρ χρηστών σε ένα τρίμηνο και τριπλασίασε τα κέρδη του σε σχέση με την ίδια περίοδο πέρυσι, καθώς η στρατηγική του να πιέσει τους ακροατές με αυξήσεις τιμών αποδίδει καρπούς. Η πλατφόρμα streaming μουσικής έφτασε τους 751 εκατομμύρια μηνιαίους χρήστες στο τρίμηνο που έληξε στα τέλη Δεκεμβρίου, προσθέτοντας 38 εκατομμύρια χρήστες

Ο νέος φθηνός εξοπλισμός smart home της Ikea τα «βρήκε σκούρα» – Προβλήματα συνδεσιμότητας μαστίζουν τα νέα προϊόντα

Πέρασα τις τελευταίες δύο εβδομάδες προσπαθώντας – μάταια – να δοκιμάσω τον νέο εξοπλισμό Matter-over-Thread της Ikea. Οι πολυαναμενόμενες συσκευές smart home περιλαμβάνουν προγραμματιζόμενους διακόπτες, έξυπνες λάμπες, βύσματα και αισθητήρες θερμοκρασίας και κίνησης – όλα εξ αυτών υποτίθεται πως λειτουργούν με οποιαδήποτε πλατφόρμα smart home και η τιμή τους ξεκινά από μόλις 5 ευρώ. Ωστόσο

Ο Γιάννης Αντετοκούνμπο επενδύει στην Kalshi: Ο αστέρας του ΝΒΑ μπαίνει στον κόσμο των αγορών προβλέψεων

Ο MVP των Milwaukee Bucks, Γιάννης Αντετοκούνμπο, ανακοίνωσε την Παρασκευή ότι εντάσσεται στην Kalshi, την πλατφόρμα ψηφιακών αγορών προβλέψεων, ως μέτοχος. Με αυτή την κίνηση, ο «Greek Freak» γίνεται ο πρώτος παίκτης του ΝΒΑ που επενδύει άμεσα σε μια εταιρεία που ειδικεύεται στις προβλέψεις γεγονότων. «Το διαδίκτυο είναι γεμάτο από απόψεις. Αποφάσισα ότι ήρθε η

SK Hynix: Πώς μία εταιρεία-ζόμπι κατέκτησε το 50% της αγοράς AI μνήμης

Η SK Hynix, κορεατική εταιρεία που κάποτε χαρακτηριζόταν ως «ζόμπι» κατασκευάστρια ημιαγωγών, έχει αναδειχθεί στον πλέον απαραίτητο σύμμαχο της Nvidia στην παγκόσμια κούρσα επικράτησης στην τεχνητή νοημοσύνη (AI), κυριαρχώντας στην αγορά των τσιπ υψηλής ζώνης μνήμης (HBM). Με λειτουργικά περιθώρια ρεκόρ 58% –υψηλότερα ακόμη και από την TSMC, τον μεγαλύτερο κατασκευαστή τσιπ παγκοσμίως– και αύξηση

Share

Τα πιο ισχυρά συστήματα τεχνητής νοημοσύνης του κόσμου παίζουν Pokémon ζωντανά στο Twitch — και αποτυγχάνουν με τρόπους που αποκαλύπτουν τι πραγματικά μπορούν (και δεν μπορούν) να κάνουν σήμερα τα LLMs στον πραγματικό κόσμο.

  • Το πρόβλημα δεν είναι η γνώση: Τα μοντέλα ξέρουν τι πρέπει να κάνουν, αλλά δυσκολεύονται στη μακροπρόθεσμη εκτέλεση.

  • Το harness κάνει τη διαφορά: Τα εργαλεία γύρω από το μοντέλο επηρεάζουν καθοριστικά τις επιδόσεις του.

  • Το Pokémon είναι καθρέφτης του μέλλοντος της AI: Ισχυρή στη θεωρία, ασταθής στη συνέπεια και στον χρόνο.

Αυτή τη στιγμή, ζωντανά στο Twitch, μπορεί κανείς να παρακολουθήσει τρία από τα πιο «έξυπνα» συστήματα τεχνητής νοημοσύνης στον κόσμο — GPT-5.2, Claude Opus 4.5 και Gemini 3 Pro — να προσπαθούν να ολοκληρώσουν κλασικά παιχνίδια Pokémon. Με ανθρώπινα μέτρα σύγκρισης, δεν τα πάνε ιδιαίτερα καλά.

Τα συστήματα είναι αργά, υπερβολικά σίγουρα για τον εαυτό τους και συχνά μπερδεμένα. Ωστόσο, αν θέλει κανείς να καταλάβει τι πραγματικά μπορούν — και τι δεν μπορούν — να κάνουν σήμερα τα μεγάλα γλωσσικά μοντέλα (LLMs) στον πραγματικό κόσμο, η προσπάθειά τους να γίνουν Pokémon πρωταθλητές λέει πολύ περισσότερα από τα δυσνόητα benchmarks που συνοδεύουν κάθε νέα κυκλοφορία μοντέλου.

Η ιδέα να μετατραπεί ένα LLM σε Pokémon Master ξεκίνησε τον περασμένο Φεβρουάριο, όταν ερευνητής της Anthropic ξεκίνησε livestream με τον Claude να παίζει το Pokémon Red (1996), με αφορμή την κυκλοφορία του Claude Sonnet 3.7 — τότε ενός από τα πιο ισχυρά μοντέλα παγκοσμίως. Όπως σημείωσε η εταιρεία, ήταν το πρώτο μοντέλο Claude που μπορούσε να παίξει το παιχνίδι με ουσιαστικό τρόπο· οι προηγούμενες εκδόσεις «περιφέρονταν άσκοπα ή κολλούσαν σε βρόχους» και δεν κατάφερναν να ξεπεράσουν καν τα πρώτα λεπτά του παιχνιδιού.

Μέσα στις πρώτες εβδομάδες, το stream συγκέντρωσε περίπου 2.000 θεατές που ενθάρρυναν τον Claude στο chat.

Ένα παιδί συνήθως ολοκληρώνει το παιχνίδι σε 20 έως 40 ώρες. Ο Sonnet 3.7 δεν τα κατάφερε ποτέ, κολλώντας για δεκάδες ώρες στο ίδιο σημείο. Το νεότερο Claude Opus 4.5 αποδίδει σαφώς καλύτερα, αλλά εξακολουθεί να «κολλά». Σε μία χαρακτηριστική περίπτωση, πέρασε τέσσερις ημέρες περιφέροντας γύρω από ένα γυμναστήριο, χωρίς να συνειδητοποιήσει ότι έπρεπε να κόψει ένα δέντρο για να μπει μέσα.

Τα μοντέλα Gemini της Google ολοκλήρωσαν αντίστοιχο παιχνίδι τον περασμένο Μάιο, με τον CEO της εταιρείας, Sundar Pichai, να αστειεύεται ότι η Google βρίσκεται ένα βήμα πιο κοντά στη δημιουργία «Artificial Pokémon Intelligence».

Αυτό, όμως, δεν σημαίνει ότι το Gemini είναι καλύτερος Pokémon παίκτης. Ο λόγος είναι ότι κάθε μοντέλο χρησιμοποιεί διαφορετικό «harness» — ένα είδος «στολής Iron Man» που του επιτρέπει να χρησιμοποιεί εργαλεία και να εκτελεί ενέργειες που από μόνο του δεν μπορεί.

Όπως εξηγεί ο ανεξάρτητος developer Joel Zhang, που διαχειρίζεται το Gemini Plays Pokémon, το harness του Gemini παρείχε σημαντική βοήθεια: μετέτρεπε την εικόνα του παιχνιδιού σε κείμενο, παρακάμπτοντας τις αδυναμίες του στην οπτική κατανόηση, και του έδινε ειδικά εργαλεία για την επίλυση γρίφων. Ο Claude, αντίθετα, χρησιμοποιεί πολύ πιο «γυμνό» harness, γεγονός που κάνει την απόδοσή του πιο αποκαλυπτική για τις πραγματικές δυνατότητες του μοντέλου.

Αν και για τον μέσο χρήστη η διάκριση μοντέλου–harness δεν είναι ορατή, στην πράξη καθορίζει ήδη τον τρόπο που χρησιμοποιούμε την AI. Όταν, για παράδειγμα, το ChatGPT ψάχνει στο διαδίκτυο για να απαντήσει σε ερώτηση, αυτό γίνεται μέσω εργαλείου που ανήκει στο harness του.

Το Pokémon είναι ιδανικό τεστ για τις δυνατότητες της AI — όχι μόνο λόγω πολιτισμικής αναγνωρισιμότητας. Σε αντίθεση με παιχνίδια όπως το Mario, είναι turn-based, χωρίς χρονική πίεση. Το μοντέλο λαμβάνει screenshot, οδηγίες για τους στόχους του και τις διαθέσιμες ενέργειες, «σκέφτεται» και απαντά με μια εντολή, π.χ. «πάτησε Α». Αυτό είναι ένα βήμα. Το Opus 4.5 έχει ήδη ξεπεράσει τις 170.000 κινήσεις, μετά από πάνω από 500 ώρες παιχνιδιού σε ανθρώπινο χρόνο.

Σε κάθε βήμα, το μοντέλο ξεκινά ουσιαστικά από την αρχή, βασιζόμενο σε σημειώσεις που έχει αφήσει στον εαυτό του — σαν αμνησιακός που χρησιμοποιεί post-it.

Το παράδοξο είναι ότι συστήματα που ξεπέρασαν τον άνθρωπο στο σκάκι και το Go δυσκολεύονται σε ένα παιχνίδι που παίζουν εξάχρονα. Η εξήγηση είναι ότι εκείνα τα συστήματα ήταν ειδικά σχεδιασμένα για συγκεκριμένα παιχνίδια, ενώ τα LLMs είναι γενικής χρήσης.

Η πραγματική πρόκληση, όπως λέει ο Zhang, είναι η ικανότητα μακροπρόθεσμης προσήλωσης σε έναν στόχο. Και αυτή ακριβώς η ικανότητα είναι κρίσιμη αν η AI πρόκειται να αυτοματοποιήσει γνωστική εργασία: «Αν θες ένας agent να κάνει τη δουλειά σου, δεν μπορεί να ξεχνά τι έκανε πριν πέντε λεπτά».

Ο ερευνητής Peter Whidden το θέτει ωμά: «Η AI ξέρει τα πάντα για τα Pokémon. Είναι εκπαιδευμένη σε τεράστιο όγκο ανθρώπινης γνώσης. Ξέρει τι πρέπει να κάνει, αλλά αποτυγχάνει στην εκτέλεση».

Υπάρχουν όμως σημάδια προόδου. Το Opus 4.5 αφήνει καλύτερες σημειώσεις στον εαυτό του και κατανοεί καλύτερα αυτό που βλέπει. Το Gemini 3 Pro, αφού ολοκλήρωσε το Pokémon Blue, κατάφερε να νικήσει και το πιο απαιτητικό Pokémon Crystal χωρίς να χάσει ούτε μία μάχη.

Παράλληλα, το Claude Code, ένα harness που επιτρέπει στον Claude να γράφει και να εκτελεί τον δικό του κώδικα, δοκιμάζεται στο Rollercoaster Tycoon, όπου διαχειρίζεται επιτυχώς ένα θεματικό πάρκο.

Το μέλλον που διαφαίνεται είναι παράδοξο: AI συστήματα ικανά να εκτελούν τεράστιο όγκο γνωστικής εργασίας — προγραμματισμό, λογιστικά, νομική ανάλυση, design — αλλά που εξακολουθούν να δυσκολεύονται σε οτιδήποτε απαιτεί αντίδραση σε πραγματικό χρόνο, όπως ένα shooter.

Και κάτι ακόμη: τα μοντέλα εμφανίζουν ανθρώπινες ιδιοτροπίες. Η Google παρατηρεί ότι όταν το Gemini «πανικοβάλλεται» — π.χ. όταν τα Pokémon του κοντεύουν να λιποθυμήσουν — η ικανότητά του για λογική σκέψη μειώνεται.

Όταν το Gemini 3 Pro ολοκλήρωσε το Pokémon Blue, έγραψε στον εαυτό του: «Ολοκλήρωσα επιτυχώς το παιχνίδι, έγινα Πρωταθλητής Pokémon και έπιασα τον Mewtwo».

Και μετά έκανε κάτι απρόσμενο: «Για να κλείσω ποιητικά», έγραψε, «θα επιστρέψω στο σπίτι όπου ξεκίνησαν όλα. Θέλω να μιλήσω για τελευταία φορά στη μαμά».

ΔΙΑΒΑΣΤΕ ΠΕΡΙΣΣΟΤΕΡΕΣ ΕΙΔΗΣΕΙΣ:

  • Σάλος στις ΗΠΑ: Το υπουργείο Εσωτερικής Ασφάλειας συγκρίνει μετανάστες με Pokémon (vid)
  • Gen Z & Millennials επενδύουν σε κάρτες Pokémon – Τι κρύβεται πίσω από τη νέα φρενίτιδα;
  • Πόσο στοίχισε στους «εθισμένους» παίκτες το Pokemon Go;

Η Sony παρουσιάζει τα ασύρματα ακουστικά WF-1000XM6

Η Sony παρουσιάζει σήμερα την επόμενη γενιά της διακεκριμένης σειράς 1000X με τα ασύρματα ακουστικά WF -1000 XM 6 με λειτουργία εξουδετέρωσης θορύβου. Βασισμένα στην κληρονομιά της σειράς 1000X, τα WF-1000XM6 επιτυγχάνουν εξαιρετική ποιότητα ήχου με την καλύτερη ακρίβεια εξουδετέρωσης θορύβου, βελτιωμένη ποιότητα κλήσεων και συνδεσιμότητα σε σύγκριση με το προηγούμενο μοντέλο WF-1000XM5, καθώς και

iPhone 17e: Το πιο «έξυπνο» iPhone της χρονιάς;

Το iPhone 17e πλησιάζει και, αν επιβεβαιωθούν οι τελευταίες διαρροές, η Apple ίσως κρατά στα χέρια της ένα από τα πιο δυνατά value for money μοντέλα των τελευταίων ετών και ίσως το πιο «έξυπνο» iPhone της χρονιάς. Δεν μιλάμε απλώς για ένα πιο προσιτό iPhone. Μιλάμε για μια συσκευή που μπορεί να συνδυάζει χαμηλότερη τιμή