Η Τεχνητή Νοημοσύνη είναι εδώ και θα παραμείνει: Ήδη η χρήση εργαλείων ΑΙ είναι ευρύτατα διαδεδομένη ακόμα και σε τομείς που πριν λίγα χρόνια θα φάνταζαν αδιανόητοι. Πέρα από επιχειρήσεις, ένοπλες δυνάμεις, ερευνητικά ιδρύματα και κυβερνήσεις, οι τεχνολογίες αυτές έχουν εισχωρήσει άμεσα και στην καθημερινή ζωή των πολιτών, που εμπιστεύονται τέτοια μέσα για καθημερινές τους ανάγκες.
Πολλοί μάλιστα τα θεωρούν εξίσου «αξιόπιστα» με ανθρώπους ειδικούς στο εκάστοτε αντικείμενο. Τι συμβαίνει όμως όταν τα εργαλεία αυτά δεν λένε αυτά που έπρεπε, και μάλιστα από κακοβουλία;
«Φτιάχνεις περιεχόμενο, το βάζεις εκεί που θέλεις και θα το μαζέψουν οι crawlers. Όλα είναι πολύ αυτοματοποιημένα, δεν χρειάζεται καν να γράψεις κάτι εξειδικευμένο, καθώς σου τα δίνουν όλα έτοιμα. Οπότε γιατί να το “ρίξεις”; Είναι πολύ καλύτερο να το δηλητηριάσεις με το δικό σου περιεχόμενο».
Το διακύβευμα είναι μεγάλο. Καθώς όλο και περισσότεροι χρήστες στρέφονται σε εργαλεία AI για αναζήτηση πληροφοριών, επαγγελματικές αποφάσεις, εκπαίδευση ή ακόμη και ενημέρωση, η χειραγώγηση των δεδομένων πάνω στα οποία αυτά βασίζονται μπορεί να επηρεάσει όχι μόνο τις απαντήσεις που λαμβάνουν οι χρήστες, αλλά και τον τρόπο με τον οποίο διαμορφώνεται η ίδια η δημόσια γνώση στο διαδίκτυο.
«Γιατί να χαλάσεις το εργαλείο;»
Η Τεχνητή Νοημοσύνη, γενικά μιλώντας, βασίζεται σε τεράστιους όγκους δεδομένων πάνω στους οποίους «εκπαιδεύεται» ώστε να μπορεί να ανταποκριθεί στις απαιτήσεις των χρηστών της. Τα δεδομένα αυτά σε πολύ μεγάλο βαθμό προέρχονται από το Ίντερνετ, όπου υπάρχει η αντίληψη ότι μπορεί να βρει κανείς…τα πάντα, με ό,τι μπορεί να συνεπάγεται αυτό.
Επίσης, πολλοί τείνουν να ξεχνούν ότι το ΑΙ είναι λογισμικό (software), και οι κανόνες που ισχύουν για το λογισμικό ισχύουν και για αυτήν – κοινώς, μπορεί να απειληθεί όπως κάθε λογισμικό, με αντίστοιχες μεθόδους. Ωστόσο, δεδομένης της ιδιαίτερης φύσης της ΤΝ, ο πιο ενδεικνυόμενος τρόπος δεν είναι τόσο να τη «χτυπήσεις», όσο να την «διαφθείρεις» ώστε αντί να παρέχει «καλές» υπηρεσίες, να δίνει τις απαντήσεις που θες εσύ ή να κάνει τα πράγματα που εσύ επιθυμείς όταν καλείται να κάνει κάτι άλλο.

Το ερώτημα που θέτει, μιλώντας στο WIRED Greece, ο Μιχάλης Μπλέτσας, διοικητής της Εθνικής Αρχής Κυβερνοασφάλειας, είναι πολύ απλό: «Γιατί να χαλάσεις το εργαλείο; To ΑΙ δεν καταλαβαίνει αλήθεια ή ψέματα, οπότε είναι μεγάλος σύμμαχος για την παραπληροφόρηση… είναι πολύ καλύτερο να τo δηλητηριάζεις με δικό σου περιεχόμενο».
Ερωτηθείς σχετικά, ο καθηγητής Άλαν Γούντγουορντ του Πανεπιστημίου του Σάρεϊ, διεθνώς αναγνωρισμένος ειδικός σε θέματα ασφάλειας υπολογιστών και κυβερνοασφαλείας, κάνει λόγο για μια «πολύ πραγματική απειλή». Ως ένα ιδιαίτερα ενδιαφέρον concept που εξετάζεται πάνω στο συγκεκριμένο αντικείμενο, υποδεικνύει τη δυνατότητα να εντοπίζεται πότε λαμβάνει χώρα «άντληση» δεδομένων από ένα site για τους σκοπούς ενός LLM (Large Language Model).

Όπως σημειώνει ο ίδιος χαρακτηριστικά, πρόκειται για «το να ξέρεις ότι μπορείς να παρουσιάσεις πολύ συγκεκριμένο περιεχόμενο για ΑΙ», κάτι που μπορεί να αξιοποιηθεί για σκόπιμο «δηλητηριασμό» των δεδομένων που αυτή χρησιμοποιεί για να «μαθαίνει», αλλά και για διοχέτευση άλλων ειδών κακόβουλου περιεχομένου.
Με λίγα λόγια, (εσκεμμένα) «κακή διατροφή», ώστε να λειτουργεί με τον τρόπο που επιθυμεί αυτός που της έδωσε την «τροφή».
Διαφθορά στο ΑΙ με υλικό που δεν προορίζεται για ανθρώπους
Όπως εξηγεί ο κ. Μπλέτσας, αυτό που έχει παρατηρηθεί τα τελευταία χρόνια ως πρακτική από πολύ συγκεκριμένους δρώντες είναι η δημιουργία μεγάλων δικτύων ιστοσελίδων υπό συγκεκριμένα domains, όπου ο κακόβουλος δρων βάζει το περιεχόμενό του, το οποίο προορίζεται για τους «crawlers» των μοντέλων ΑΙ – τους «ανιχνευτές» για περιεχόμενο που χρησιμοποιείται στα LLM. «Δεν είναι σαν τους crawlers των μηχανών αναζήτησης, είναι crawlers των εταιρειών που μαζεύουν περιεχόμενο για LLM. Πάνε βαθιά, όπου βρουν link το ακολουθούν, και μάλιστα, γενικά μιλώντας, προκαλούν προβλήματα στα site, καθώς δημιουργούν πολύ μεγάλο φόρτο εργασίας» αναφέρει σχετικά.
Το περιεχόμενο στις ιστοσελίδες αυτές, τονίζει ο διοικητής της Εθνικής Αρχής Κυβερνοασφάλειας, δεν προορίζεται για να το δει άνθρωπος, αλλά απευθύνεται εξολοκλήρου στα εργαλεία ΑΙ. Η μεθοδολογία, ωστόσο, δεν σταματά εδώ. Η «κίνηση ματ» είναι το ότι το περιεχόμενο αυτό συνδέεται/ διοχετεύεται σε κανονικές ιστοσελίδες μεγάλης απήχησης (για παράδειγμα, ενημερωτικές ιστοσελίδες) μέσω χρήσης διαφημιστικού χώρου- μια διαδικασία που κοστίζει ελάχιστους πόρους.
«Είναι τέλειες μηχανές μηρυκασμού κειμένου. Και από τη στιγμή που με πολύ λίγα χρήματα μπορεί να τοποθετήσει κανείς σχεδόν ό,τι περιεχόμενο θέλει σχεδόν όπου θέλει, δεν είναι δύσκολο να “δηλητηριάσεις” το περιεχόμενο που χρησιμοποιούν τα μεγάλα γλωσσικά μοντέλα».
Στην ουσία δηλαδή, ο επίδοξος «διαφθορέας» του ΑΙ ανεβάζει το υλικό του σε ιστοσελίδες που υπό κανονικές συνθήκες θα έβλεπαν ελάχιστοι, και το προβάλλει ενοικιάζοντας χώρο που διατίθεται από διαφημιστικούς παρόχους για διαφήμιση σε κανονικές ιστοσελίδες, στις οποίες οι crawlers των ΑΙ «σκάβουν βαθιά». Το τελικό αποτέλεσμα είναι το περιεχόμενο αυτό να «καταναλώνεται» από τα LLM, διαμορφώνοντας τον τρόπο λειτουργίας τους– τις απαντήσεις που παρουσιάζουν στους χρήστες.
«Ουσιαστικά επειδή έχουν πολλές τέτοιες σελίδες, αυτό το κείμενο θα εμφανιστεί πολύ συχνά και θα “μπει” στις εκπαιδεύσεις των μοντέλων. Και όταν εμφανιστεί πολλές φορές, όταν τα μοντέλα συνθέσουν μια απάντηση, είναι πολύ πιθανό αυτή να έχει τη δομή του κειμένου σε αυτές τις σελίδες. Με αυτή την τακτική μπορεί κάποιος να εκπαιδεύσει μοντέλα να επαναλαμβάνουν αυτό που θέλει αυτός, δεν χρειάζονται καν πολλοί πόροι. Φτιάχνεις sites και τα “ταΐζεις” σε άλλες σελίδες» σημειώνει ο κ. Μπλέτσας, υπογραμμίζοντας πως, με πολύ απλά λόγια, τα εργαλεία ΑΙ δεν κάνουν κάτι άλλο από το να «μηρυκάζουν».
«Είναι τέλειες μηχανές μηρυκασμού κειμένου. Και από τη στιγμή που με πολύ λίγα χρήματα μπορεί να τοποθετήσει κανείς σχεδόν ό,τι περιεχόμενο θέλει σχεδόν όπου θέλει, δεν είναι δύσκολο να “δηλητηριάσεις” το περιεχόμενο που χρησιμοποιούν τα μεγάλα γλωσσικά μοντέλα».
Κάτι άλλο που αξίζει να αναφερθεί εδώ είναι πως οι crawlers κατά κανόνα «χτυπάνε» στα sites όταν δεν υπάρχει και πολλή ανθρώπινη κίνηση – και οι «δηλητηριαστές» το ξέρουν αυτό, οπότε, όταν απευθύνονται στις εταιρείες τοποθέτησης διαφήμισης, ζητούν να εμφανίζεται σε σημεία και χρονικά πλαίσια όπου το κόστος είναι χαμηλό. «Βάζουν φθηνή διαφήμιση γιατί δεν τους νοιάζει να το δει άνθρωπος, τους νοιάζει να το δουν οι crawlers των ΑΙ και οι μηχανές αναζήτησης. Κάνουν optimization συνέχεια, με άπειρους διαφορετικούς τρόπους» σημειώνει ο κ. Μπλέτσας.
Εφόσον η μεθοδολογία αυτή έχει εντοπιστεί, πώς αντιμετωπίζεται; Πώς φιλτράρεται/ κόβεται αυτό το περιεχόμενο;
«Πολλοί θεωρούν ότι μπορούν να το κάνουν ξανά με ΑΙ, μα το ΑΙ θέλει συνέχεια αναβάθμιση και εστίαση σε συγκεκριμένο περιεχόμενο. Δεν είναι καθόλου νοήμων το ΑΙ σε αυτό το θέμα, και για αυτό από πίσω έχει έναν στρατό από ανθρώπους που κάνουν τη “χαμαλοδουλειά”, κατά κανόνα σε χώρες με χαμηλούς μισθούς/ κόστος. Γενικά, είναι μια συνεχής διαδικασία που γίνεται στο παρασκήνιο – μια μεγάλη μάχη εκεί έξω, μέχρι πρόσφατα στο κομμάτι του SEO/μηχανών αναζήτησης, και πλέον στα LLM» προσθέτει ο κ. Μπλέτσας, υποδεικνύοντας έναν από τους σημαντικότερους πυλώνες της ΑΙ, που δεν είναι άλλος από τη συνεχή βελτιστοποίηση με ανθρώπινο feedback (Reinforcement Learning from Human Feedback).
Όσον αφορά σε τρόπους να απειληθούν τα εργαλεία ΑΙ ευθέως, με ιούς ή επιθέσεις σε υποδομές, ο επικεφαλής της Εθνικής Αρχής Κυβερνοασφάλειας είναι κατηγορηματικός. «Δεν χρειάζεται να είναι κανείς τόσο “σοφιστικέ” για να φτιάξει πχ έναν ιό. Το Ίντερνετ υποστηρίζεται κυρίως από τη διαφήμιση, οπότε δεν χρειάζεται καν να μιλήσουμε για malware», συμπληρώνει. «Φτιάχνεις περιεχόμενο, το βάζεις εκεί που θέλεις και θα το μαζέψουν οι crawlers. Όλα είναι πολύ αυτοματοποιημένα, δεν χρειάζεται καν να γράψεις κάτι εξειδικευμένο, καθώς σου τα δίνουν όλα έτοιμα. Οπότε γιατί να το “ρίξεις”; Είναι πολύ καλύτερο να το δηλητηριάσεις με το δικό σου περιεχόμενο».
Ψηφιακοί «Δούρειοι Ίπποι»
Σε εκτενές άρθρο του πάνω στο θέμα ο Φερνάντο Τούτσι, ειδικός σε θέματα ασφαλείας ΑΙ και Cloud στην TrendAI, υποδεικνύει τρεις κύριους τρόπους μέσω των οποίων ένα μοντέλο ΑΙ μπορεί να «διαφθαρεί» έτσι ώστε να ενεργεί με απρόβλεπτους ή κακόβουλους τρόπους: Την ενσωμάτωση κακόβουλων οδηγιών στο ίδιο το σύστημα, την εκπαίδευσή του με «δηλητηριασμένα» δεδομένα και τη χρήση ενός ειδικού «αντάπτορα» (LoRA) για τη χειραγώγηση του τρόπου συμπεριφοράς του.
«Κλειδί» στην πρώτη περίπτωση είναι το αποκαλούμενο model file του ΑΙ- στην ουσία ένα αρχείο που περιλαμβάνει τον «εγκέφαλο» του LLM, περιλαμβάνοντας αμέτρητες παραμέτρους, οργανωμένες σε δομές. Η όλη διαδικασία περιλαμβάνει τη «συσκευασία» όλου αυτού του υλικού σε ένα «πακέτο», που όταν ένας άλλος υπολογιστής θέλει να το χρησιμοποιήσει, πρέπει να «ξεπακετάρει». Καθώς το «πακέτο» μπορεί να περιλαμβάνει εκτός από δεδομένα και οδηγίες, εδώ προκύπτει μια εν δυνάμει «κερκόπορτα», μέσω της οποίας κάποιος κακόβουλος δρων μπορεί να κάνει διάφορα στον χρήστη- στόχο. Όπως σημειώνει ο ερευνητής στο άρθρο του, «είναι το ψηφιακό αντίστοιχο ενός Δούρειου Ίππου».
Άλλος ένας τρόπος «διαφθοράς» έχει να κάνει με την ίδια την προσαρμοστική φύση των εργαλείων ΑΙ. Όταν πρέπει να αλλάξει η συμπεριφορά ενός μοντέλου ΑΙ, αντί να εκπαιδεύεται εκ νέου, χρησιμοποιείται μια μέθοδος ονόματι LoRA (Low-Rank Adaptation)- στην ουσία πρόκειται για ένα νέο «φίλτρο», που επιτυγχάνει το επιθυμητό αποτέλεσμα χωρίς ιδιαίτερο κόπο. Ένας κακόβουλος δρων μπορεί να το χρησιμοποιήσει αυτό, παρέχοντας «αντάπτορες» LoRA φαινομενικά «καλοήθεις», που υπόσχονται βελτίωση των δυνατοτήτων ενός μοντέλου με διάφορους τρόπους.
Στην πραγματικότητα, ωστόσο, όταν αυτοί μπουν στο σύστημα, εισάγουν «κερκόπορτες», συγκεκριμένες αντιλήψεις και προκαταλήψεις, ή ακόμα και «διακόπτες» για εξαγωγή δεδομένων. Όπως γράφει ο ερευνητής, οι συμβατικοί έλεγχοι ασφαλείας εδώ είναι πρακτικά άχρηστοι, επειδή το βασικό μοντέλο παραμένει το ίδιο, και εμφανίζεται απόλυτα ασφαλές- και μάλιστα, ο «αντάπτορας» μπορεί να κάνει όντως αυτό που υποσχόταν…απλώς φέρνει μαζί του και άλλα «δωράκια», για τον εντοπισμό των οποίων χρειάζονται πολύ εξειδικευμένα εργαλεία.
Ως προς το κομμάτι του «data poisoning», ο ερευνητής στο άρθρο του εστιάζει στην εισαγωγή μικροποσοτήτων «δηλητηριασμένων» δεδομένων με συγκεκριμένους «διακόπτες» οι οποίοι συσχετίζονται με κακόβουλες ενέργειες και στη «βίαιη» επανεκπαίδευση (απόκτηση πρόσβασης στο μοντέλο και μικρότερης ή μεγαλύτερης κλίμακας τροποποίηση των λειτουργιών του). Σε όλες τις περιπτώσεις, κοινό χαρακτηριστικό είναι ότι το σύστημα φαίνεται να λειτουργεί «φυσιολογικά».