Ένα από τα σημαντικότερα θέματα που έχει να αντιμετωπίσει η ελληνική γλώσσα στην εποχή της τεχνητής νοημοσύνης είναι η ίδια η επιβίωσή της.
Μπορεί να είναι μια από τις πιο αναγνωρίσιμες παγκοσμίως, χάρη και στα λεκτικά «δάνεια» που έχει δώσει σε τόσες άλλες, με ρίζες που πάνε σε βάθος δεκάδων αιώνων κι ακόμα «ζουν», όμως δεν παύει να είναι μια από τις λιγότερο καθημερινά ομιλούμενες στον πλανήτη: Ελλάδα, Κύπρος, λίγο η διασπορά κι αυτό είναι όλο, το άθροισμα των ελληνόφωνων δεν ξεπερνά τα 10-12 εκατ.
Στο πλαίσιο του D-AI-LECT ολιγομελείς ομάδες ΑμεΑ εκπαιδεύτηκαν τους τελευταίους μήνες στην επισήμανση δεδομένων τα οποία μπορεί να είναι κείμενα, εικόνες ή και ήχοι, έχοντας διττό στόχο.
Μικρή έως ασήμαντη η παρουσία της στην ανακυκλούμενη πραγματικότητα των σημερινών Μεγάλων Γλωσσικών Μοντέλων, των LLMs, όπου τα πάντα μεταφράζονται σε λίγες πολυ-ομιλούμενες γλώσσες, προκειμένου να γίνει η όποια επεξεργασία, να απαντηθούν τα όποια ερωτήματα και να ξαναμεταφραστούν οι απαντήσεις στην αρχική γλώσσα υποβολής – με την όποια ποιότητα.
Κι αν αυτή είναι η κατάσταση με την «κοινή καθομιλουμένη ελληνική», όπως την αποκαλούσαν οι παλαιότεροι, σκεφτείτε τι γίνεται με τις τοπικές διαλέκτους, τον τεράστιο γλωσσικό πλούτο που αυτές κουβαλούν με κόπο ανά τους αιώνες, περνώντας τον από γενιά σε γενιά.
Αποχαιρέτα τη γλώσσα που χάνουμε; Όχι ακόμα, ευτυχώς!
Τέσσερα εκατομμύρια καρτέλες
Όλος αυτός ο θησαυρός έχει διασωθεί χάρη στο Κέντρο Ερεύνης των Νεοελληνικών Διαλέκτων & Ιδιωμάτων της Ακαδημίας Αθηνών που έστελνε, επί πολλές δεκαετίες, ερευνητές του «από χωρίου εις χωρίον» για να συγκεντρώσουν ό,τι μπορούσαν. Το αποτέλεσμα; Τέσσερα εκατομμύρια καρτέλες, πολλές χειρόγραφες, άλλες δακτυλογραφημένες, όμως με «κλειδωμένες» τις πληροφορίες τους, ακόμα και μετά την ολοκλήρωση, πέρυσι, του τεράστιου έργου της ψηφιοποίησής τους. Οι καρτέλες διασώθηκαν μεν από τη φυσική φθορά και οι ερευνητές μπορούσαν πλέον να τις δουν στην οθόνη τους, αλλά όχι να αναζητήσουν κάτι που τους ενδιέφερε, καθώς δεν υπήρχε δυνατότητα συσχετισμού. Ως πρόσφατα…
Το ερευνητικό έργο D-AI-LECT ανέλαβε να λύσει αυτό το πρόβλημα με έναν συνδυασμό deep learning και document analysis, για να μετατρέψει τις εικόνες χειρόγραφου κειμένου σε δομημένα, αναζητήσιμα δεδομένα. Το επόμενο βήμα μετά την ψηφιοποίηση ήταν η κατανόηση του περιεχομένου. Κι εδώ παρουσιάστηκε ένα λιγότερο προφανές πρόβλημα της σύγχρονης ΤΝ, τα δεδομένα εκπαίδευσης. Τα μοντέλα αναγνώρισης χειρόγραφου κειμένου χρειάζονται μεγάλους όγκους διορθωμένων, επισημειωμένων (annotated) παραδειγμάτων, που βεβαίως δεν παράγονται αυτομάτως.
Οι «από μηχανής Θεοί»
Η λύση ήρθε μέσα από μια ασυνήθιστη συνεργασία με τους αρχικούς εταίρους, την Ακαδημία, το ΕΚΕΦΕ «Δημόκριτος» και το Ερευνητικό Κέντρο «Αθηνά». Στο πλαίσιο του ήδη βραβευμένου διεθνώς καινοτόμου προγράμματος «ΑμεΑ Πρωτοπόροι στην Τεχνητή Νοημοσύνη», που υλοποιείται από τη Science For You (SciFY), με την υποστήριξη της METLEN και του Διεθνούς Αερολιμένα Αθηνών, άτομα με αναπηρία εκπαιδεύτηκαν ως annotators και ανέλαβαν να διορθώσουν τα κείμενα που παράγουν τα αρχικά μοντέλα, συμμετέχοντας άμεσα στη διαδικασία εκπαίδευσης της ΤΝ.
Το αποτέλεσμα, όπως αποκάλυψαν μιλώντας στο WIRED Greece o Chief Marketing Officer της SciFY, Βασίλης Γιαννακόπουλος, και το στέλεχος του Ινστιτούτου Πληροφορικής & Τηλεπικοινωνιών του «Δημόκριτου», Βασίλης Γάτος, είναι όχι μόνο μετρήσιμο, αλλά και εντυπωσιακό: η ακρίβεια αναγνώρισης χαρακτήρων αυξήθηκε από περίπου 70% στην αυτόματη ανάγνωση 30.000 καρτελών σε 90%, μετά την πρώτη ενσωμάτωση διορθώσεων («εξωφρενική βελτίωση» τη χαρακτήρισε ο δεύτερος συνομιλητής μας), ενώ θα ακολουθήσει και νέος γύρος ώστε ο πήχης να ανέβει στο 95%. Πρόκειται για μια τυπική περίπτωση μηχανικής μάθησης (εφαρμογή του human-in-the-loop, στο οποίο συχνά αναφερόμαστε) μόνο που βασίζεται στην καταλυτική συμμετοχή μιας μη-τυπικής, αλλά κρίσιμης ομάδας ανθρώπων.
Στο πλαίσιο του D-AI-LECT, λοιπόν, ολιγομελείς ομάδες ΑμεΑ εκπαιδεύτηκαν τους τελευταίους μήνες στην επισήμανση δεδομένων τα οποία μπορεί να είναι κείμενα, εικόνες ή και ήχοι, έχοντας διττό στόχο: από τη μια, η ανάπτυξη της ΤΝ είναι πλέον εκρηκτική, επομένως οι ανάγκες για annotators είναι αυξημένες, κι από την άλλη οι ίδιοι αναζητούν τρόπους για να αναπτύξουν τις επαγγελματικές δεξιότητές τους, καθώς συνήθως δυσκολεύονται να καλύψουν τις δαπάνες τους.
Με αυτή την εκπαίδευση αποκτούν νέες δυνατότητες και προοπτικές, όχι μόνο για εύρεση εργασίας (στην πράξη είναι περιζήτητοι, όπως αποδείχθηκε), αλλά και για καλύτερη ποιότητα ζωής σ’ ό,τι αφορά στον θετικό αντίκτυπο της εργασίας στη σωματική και ψυχική τους υγεία. Μάλιστα, υπάρχουν είδη annotation τα οποία θεωρούνται ιδανική εργασία για κάποιες μορφές αναπηρίας (π.χ. αυτισμός), όπου απαιτείται προσεκτική, επαναλαμβανόμενη και μοναχική δουλειά.
Οργανωμένα και αποδοτικά
Όπως μας δήλωσαν οι δυο συνομιλητές μας, οι ομάδες ΑμεΑ εργάζονται πλέον τακτικά και οργανωμένα, «γράφοντας» αθροιστικά πολλές ώρες κάθε εβδομάδα, με υψηλό βαθμό αποδοτικότητας. Έχουν ξεπεράσει τα αρχικά εμπόδια και αξιοποιούν με ευκολία όσα εργαλεία τους δίνονται. Είναι κατενθουσιασμένοι με τις εργασιακές προοπτικές που διανοίγονται γι’ αυτούς, καθώς βλέπουν πως η ζωή τους αλλάζει, και η καθημερινότητά τους έχει αποκτήσει καινούριο νόημα.
Όπως κατενθουσιασμένοι με τα αποτελέσματα είναι και οι εκπαιδευτές τους, που ετοιμάζουν νέα εγχειρίδια και βίντεο για να τους διευκολύνουν ακόμα περισσότερο. Όσο για τους εκπροσώπους της Ακαδημίας Αθηνών, αυτοί είναι οι πιο χαρούμενοι απ’ όλους, βλέποντας ένα έργο που είχε «βαλτώσει» να προχωρεί και μάλιστα γρήγορα, ανοίγοντας νέους δρόμους στην έρευνα.
Κι ακόμα δεν έχει «ανάψει» ο «Pharos», το ελληνικό AI Factory (κάτι που θα γίνει τους επόμενους μήνες, όταν σταδιακά θα μπει σε λειτουργία, προς τα τέλη Ιουνίου, ο υπερυπολογιστής «Δαίδαλος», στο Λαύριο), που ο ένας από τους τρεις πυλώνες του είναι η ανάδειξη και στήριξη της ελληνικής γλώσσας και του πολιτισμού.