Χαμένοι στη μετάφραση: Το AI δεν διάβασε αυτό που έγραψες

Κάθε φορά που γράφεις ένα prompt, το κείμενό σου αντικαθίσταται από ένα άλλο. Mια ακολουθία από κομμάτια λέξεων, αριθμούς, κενά. Αυτό βλέπει το μοντέλο. Κι αυτό καθορίζει τι θα σου απαντήσει.

Η λογική της χρήσης των tokens από εργαλεία GenAI εξηγεί μια σειρά από συμπεριφορές που, χωρίς αυτό το πλαίσιο, μπορεί να μοιάζουν τυχαίες ή ακατανόητες. Φωτ.: Getty Images/Ideal Image

Center Center

Ανοίγεις το ChatGPT, το Claude ή το Gemini. Γράφεις κάτι που σου φαίνεται απόλυτα σαφές και πατάς Enter. Η απάντηση, όμως, που παίρνεις δεν είναι αυτή που θα ήθελες και συνειδητοποιείς ότι κάποιος μπερδεύτηκε. Κι αν είσαι ειλικρινής με τον εαυτό σου, δεν είσαι σίγουρος ποιος.

Η πρώτη αντίδραση είναι συνήθως να επαναδιατυπώσεις. Να γράψεις κάτι πιο αναλυτικά, ή πιο σύντομα, ή με διαφορετικές λέξεις. Κι αυτό συχνά λειτουργεί, χωρίς να ξέρεις το γιατί.

Το ότι ένα σύστημα μπορεί να παράγει γλώσσα δεν σημαίνει ότι την κατανοεί. Μπορεί να παράγει μια τέλεια γραμματικά και νοηματικά συνεκτική παράγραφο για το κλίμα, χωρίς να “ξέρει” τι είναι κλίμα με την έννοια που ξέρουμε εμείς.

Η απάντηση κρύβεται σε κάτι που συμβαίνει πριν το μοντέλο επεξεργαστεί οτιδήποτε από αυτό που έγραψες. Κάτι που σπάνια εξηγείται: το κείμενό σου δεν φτάνει στο μοντέλο ως κείμενο. Μετατρέπεται πρώτα σε tokens.

Τι είναι token; Το αλφάβητο που δεν διδάχτηκες ποτέ

Για να καταλάβουμε τι πραγματικά συμβαίνει όταν γράφουμε ένα prompt, πρέπει να κατανοήσουμε κάτι που συμβαίνει πριν το μοντέλο δει έστω και μία λέξη από αυτό που γράψαμε. Ένα βήμα που είναι αόρατο, αλλά καθορίζει τα πάντα: το tokenization.

Το μοντέλο δεν διαβάζει γράμματα. Δεν διαβάζει λέξεις. Διαβάζει tokens, τη μικρότερη μονάδα στην οποία σπάει οποιοδήποτε κείμενο πριν το επεξεργαστεί. Το token δεν ακολουθεί φωνητική λογική, όπως οι συλλαβές, ούτε σημασιολογική, όπως οι λέξεις. Ακολουθεί στατιστική λογική. Ποιες ακολουθίες χαρακτήρων εμφανίζονται αρκετά συχνά στα δεδομένα εκπαίδευσης ώστε να αξίζει να αντιμετωπίζονται ως ενιαία μονάδα;

Ας το δούμε στην πράξη. Η λέξη “αλληλεπίδραση” στο μοντέλο ChatGPT 5.5 δεν φτάνει ως μία. Φτάνει ως κομμάτια κάπως έτσι:

[α][λλη][λε][πί][δρα][ση]

Έξι tokens για μία λέξη. Το αντίστοιχό της στα αγγλικά, “interaction”, τεμαχίζεται κι αυτό, αλλά διαφορετικά:

[inter][action]

Δύο tokens. Για το ίδιο νόημα.

Αυτή η διαφορά δεν είναι τυχαία και δεν είναι αδιάφορη. Τα μοντέλα έχουν εκπαιδευτεί κυρίως σε αγγλικό κείμενο, οπότε το αγγλικό λεξιλόγιο tokens είναι κατά κάποιο τρόπο πιο αποδοτικό. Η ελληνική γλώσσα, με την πολυτονική της ιστορία, την πλούσια μορφολογία, τις πολλές και διαφορετικές καταλήξεις, κοστίζει περισσότερο: ένα ελληνικό κείμενο χρειάζεται κατά μέσο όρο περισσότερα tokens από το αγγλικό αντίστοιχό του. Αυτό έχει συνέπειες τεχνικές και οικονομικές που θα δούμε παρακάτω, αλλά ξεκινούν εδώ, στο επίπεδο του token.

Το ChatGPT, το Claude κ.α. δεν διαβάζουν το ίδιο κείμενο με τον ίδιο τρόπο, ακόμα κι αν το αποτέλεσμα φαίνεται παρόμοιο. Ούτε καν τα διαφορετικά μοντέλα αυτών των πλατφορμών, μεταξύ τους, δεν λειτουργούν με τον ίδιο τρόπο.

Ας βάλουμε στη λίστα κι ένα ακόμα παράδοξο. Το space πριν από μια λέξη είναι συχνά μέρος του token που την περιέχει. Το ” αλληλεπίδραση”, με κενό πριν, και το “αλληλεπίδραση”, χωρίς κενό, μπορεί να αντιμετωπιστούν ως διαφορετικά tokens. Δηλαδή, ένα αόρατο κενό που δεν σκέφτεσαι ποτέ, καθορίζει πώς το μοντέλο διαβάζει αυτό που έγραψες. Η γλώσσα που πιστεύεις ότι γράφεις και η γλώσσα που βλέπει το μοντέλο είναι, κυριολεκτικά, δύο διαφορετικά πράγματα.

Το ίδιο ισχύει για αριθμούς και σύμβολα. Το «2026» μπορεί να γίνει [20][26] ή [2][0][2][6], ανάλογα με το μοντέλο. Κι αυτό εξηγεί εν μέρει το γιατί τα LLMs δυσκολεύονται δυσανάλογα με απλές αριθμητικές πράξεις. Η πρόσθεση 1847 + 293 δεν είναι για το μοντέλο αριθμητική, είναι πρόβλεψη της επόμενης ακολουθίας tokens που ακολουθεί το = σε παρόμοια παραδείγματα από τα training data. Δεν υπολογίζει. Προβλέπει.

Κάθε μοντέλο, τέλος, έχει το δικό του tokenizer, το δικό του λεξιλόγιο tokens. Το ChatGPT, το Claude κ.α. δεν διαβάζουν το ίδιο κείμενο με τον ίδιο τρόπο, ακόμα κι αν το αποτέλεσμα φαίνεται παρόμοιο. Ούτε καν τα διαφορετικά μοντέλα αυτών των πλατφορμών, μεταξύ τους, δεν λειτουργούν με τον ίδιο τρόπο.

Κάτω από την επιφάνεια, το input έχει ήδη μετασχηματιστεί, πριν καν αρχίσει οποιαδήποτε επεξεργασία. Για την ακρίβεια, αφού το κείμενο σπάσει σε tokens, κάθε token μετατρέπεται σε ένα μοναδικό αριθμητικό αναγνωριστικό, κι από εκεί μετατρέπεται σε ένα διάνυσμα, μια λίστα από εκατοντάδες αριθμούς που αναπαριστούν τη “θέση” του token στον χώρο της γλώσσας, όπως το έχει μάθει το μοντέλο. Η συσχέτιση τέτοιων clusters αριθμών, ας τα πούμε μοτίβα για ευκολία, είναι το κλειδί του εκάστοτε εργαλείου. Τα μοτίβα αυτά ουσιαστικά αποτυπώνουν την σύνδεση ανθρώπινων εννοιών μεταξύ τους, πάνω στις οποίες τα μοντέλα έχουν εκπαιδευτεί.

Με άλλα λόγια, το μοντέλο δεν έχει πρόσβαση στις λέξεις ως έννοιες. Έχει πρόσβαση σε μοτίβα ανάμεσα σε tokens.

Γιατί αυτό έχει πρακτικές συνέπειες;

Η λογική της χρήσης των tokens από εργαλεία GenAI εξηγεί μια σειρά από συμπεριφορές που, χωρίς αυτό το πλαίσιο, μπορεί να μοιάζουν τυχαίες ή ακατανόητες.

Το πιο συχνό φαινόμενο είναι ότι το ίδιο ερώτημα, διατυπωμένο διαφορετικά, δίνει διαφορετική απάντηση. Δύο φράσεις με το ίδιο νόημα μπορεί να παράγουν εντελώς διαφορετικές ακολουθίες tokens. Και αφού το μοντέλο λειτουργεί πάνω σε αυτά, κι όχι στο νόημα, μια διαφορετική ακολουθία tokens οδηγεί σε διαφορετικό αποτέλεσμα.

Το ίδιο πλαίσιο εξηγεί και τα hallucinations. Το μοντέλο δεν ελέγχει αν αυτό που παράγει είναι αληθινό, αλλά παράγει την ακολουθία tokens που, κατά κάποιο τρόπο, είναι στατιστικά πιο πιθανή να ακολουθήσει αυτό που ήδη έχει παραχθεί. Αν η πιο πιθανή συνέχεια είναι μια βιβλιογραφική αναφορά που το μοντέλο “εφευρίσκει”, τότε θα την παράγει με την ίδια ευχέρεια που παράγει μια σωστή.

Υπάρχει, όμως, και μια συνέπεια που αφορά, ειδικά, όσους χρησιμοποιούν τα εργαλεία στα ελληνικά. Κάθε μοντέλο έχει ένα μέγιστο αριθμό tokens που μπορεί να επεξεργαστεί σε μια συνομιλία, αυτό που ονομάζεται context window. Αφού η ελληνική γλώσσα καταλαμβάνει περισσότερα tokens για να πει το ίδιο πράγμα, ο χώρος μνήμης που έχεις στη διάθεσή σου είναι ουσιαστικά μικρότερος. Το μοντέλο θα αρχίσει να ξεχνά νωρίτερα. Όχι γιατί είναι λιγότερο ικανό, αλλά γιατί η γλώσσα σου καταλαμβάνει περισσότερο χώρο.

Η γλώσσα ως μαθηματικό πρόβλημα

Υπάρχει μια βαθύτερη ιδέα κρυμμένη σε όλα αυτά, και αξίζει να σταθούμε σε αυτή.

Για εμάς, η γλώσσα είναι φορέας νοήματος. Οι λέξεις αναφέρονται σε πράγματα, σε καταστάσεις, σε συναισθήματα. Όταν λέμε σκύλος, έχουμε στο μυαλό μας μια έννοια, κάτι ζωντανό, τετράποδο, με συγκεκριμένες ιδιότητες. Η λέξη είναι το δοχείο, το νόημα είναι το περιεχόμενο.

Για ένα LLM, δεν υπάρχει αυτή η διάκριση. Δεν υπάρχει περιεχόμενο πίσω από τη λέξη. Υπάρχει μόνο η σχέση των tokens της λέξης σκύλος με άλλα tokens. Πόσο συχνά εμφανίζεται δίπλα στα tokens του “γαβγίζει”. Πόσο σπάνια δίπλα σε αυτά του “πετά”. Το μοντέλο δεν ξέρει τι είναι σκύλος. Ξέρει ότι τα tokens του «σκύλος» σπάνια ακολουθούνται από αυτά της φράσης «πετά προς τα Χανιά». Κι αυτό, παραδόξως, αρκεί για να παράγει κείμενο που μοιάζει να καταλαβαίνει τον κόσμο μας.

Η γλώσσα, για ένα LLM, είναι ένα μαθηματικό πρόβλημα βελτιστοποίησης. Δοθείσης μιας ακολουθίας tokens, ποια είναι η πιο πιθανή επόμενη; Και μετά η επόμενη; Και η μεθεπόμενη; Αυτή η διαδικασία, απλή στη λογική της, τεράστια στην κλίμακά της, παράγει κείμενο που μοιάζει αξιοσημείωτα με ανθρώπινη σκέψη.

Αλλά δεν είναι. Είναι πρόβλεψη.

Κι εδώ βρίσκεται το πιο σημαντικό insight: το ότι ένα σύστημα μπορεί να παράγει γλώσσα δεν σημαίνει ότι την κατανοεί. Μπορεί να παράγει μια τέλεια γραμματικά και νοηματικά συνεκτική παράγραφο για το κλίμα, χωρίς να “ξέρει” τι είναι κλίμα με την έννοια που ξέρουμε εμείς.

Και τώρα τι;

Έχοντας στο μυαλό σου τα παραπάνω πιθανόν ο τρόπος που διαβάζεις μια απάντηση μιας πλατφόρμας GenAI να αλλάζει. Μπορείς πια να την αντιμετωπίζεις λιγότερο ως γνώμη ή κρίση, και περισσότερο σαν μια στατιστικά πιθανή συνέχεια του prompt που έδωσες.

Και κατ’ επέκταση, όταν δεν θα παίρνεις αυτό που θέλεις, δε θα αναρωτιέσαι πια αν κατάλαβε ή δεν κατάλαβε. Απλά θα αναρωτιέσαι πώς η ακολουθία που έδωσες οδήγησε εκεί που οδήγησε. Κι αυτή η αλλαγή οπτικής, από συνομιλία σε δόμηση, ίσως μπορεί να σε βοηθήσει να χρησιμοποιείς αυτά τα εργαλεία πιο αποδοτικά.

Ο Φίλιππος Ζακόπουλος είναι Managing Partner του Found.ation

Το άρθρο αυτό αποτελεί μέρος μιας σειράς κειμένων του Found.ation για την τεχνητή νοημοσύνη και τον ψηφιακό μετασχηματισμό, αναδεικνύοντας πώς η στρατηγική κατανόηση και εφαρμογή των νέων τεχνολογιών μπορεί να μεταφραστεί σε μετρήσιμη αξία και ανταγωνιστικό πλεονέκτημα για τους εταιρικούς οργανισμούς.

© WIRED Greece. Επιτρέπεται η αναδημοσίευση αποσπασμάτων μόνο με ενεργό σύνδεσμο προς το πρωτότυπο άρθρο και σαφή αναφορά στο WIRED Greece.
Για πλήρη αναδημοσίευση απαιτείται προηγούμενη γραπτή άδεια.

Φίλιππος Ζακόπουλος

TOPICS CHAT GPT LLMs TOKENS

Γράψου στο newsletter μας!

Κάνε εγγραφή στο newsletter του WIRED Greece για να λαμβάνεις κάθε εβδομάδα τις ιστορίες, τις ιδέες και τις τεχνολογίες που διαμορφώνουν το αύριο.

Με την εγγραφή σας, συμφωνείτε με τους Όρους Χρήσης μας (συμπεριλαμβανομένης της παραίτησης από ομαδικές αγωγές και των διατάξεων διαιτησίας) και αναγνωρίζετε την Πολιτική Απορρήτου μας.