Απολογισμός της εκδήλωσης «Προς ένα Μεγάλο Γλωσσικό Μοντέλο Ανοιχτού Κώδικα: Βήματα και Δοκιμές”

Την Τετάρτη 28 Ιουνίου 2023, ο Οργανισμός Ανοιχτών Τεχνολογιών σε συνεργασία με την ΕΔΥΤΕ και τον Κόμβο Ψηφιακής Καινοτομίας για την Ψηφιακή Διακυβέρνηση – GR digiGOV innoHUB – διοργάνωσαν Εργαστήριο για τη Μηχανική Μάθηση Ανοιχτού Κώδικα στα Ελληνικά με τίτλο : «Προς ένα Μεγάλο Γλωσσικό Μοντέλο Ανοιχτού Κώδικα: Βήματα και Δοκιμές- Towards an OSS LLM: Enabling Steps & Trials».

Η συνάντηση, διεξήχθη στην Αίθουσα Τηλεκπαίδευσης της Κεντρικής Βιβλιοθήκης του ΕΜΠ, ωστόσο υπήρχε η δυνατότητα διαδικτυακής παρακολούθησης μέσω συνδέσμου που απεστάλη στους εγγεγραμμένους που είχαν δηλώσει ενδιαφέρον στην δημιουργηθείσα φόρμα συμμετοχής. Συνολικά παρακολούθησαν την εκδήλωση διά ζώσης και διαδικτυακά πάνω από 100 άτομα.

Σκοπός τoυ εργαστηρίου αποτέλεσε η προώθηση της γνώσης και της έρευνας στον τομέα των γλωσσικών μοντέλων ανοιχτού κώδικα στα ελληνικά, επιτρέποντας στους ενδιαφερόμενους να δημιουργήσουν και να βελτιώσουν εξελιγμένες γλωσσικές εφαρμογές για την ελληνική γλώσσα.

Στο εργαστήριο παρουσιάστηκαν δράσεις σχεδιασμού και υλοποίησης Ανοιχτού κώδικα γλωσσικών μοντέλων στα Ελληνικά, που πραγματοποιήθηκαν από την ΕΕΛΛΑΚ (Εταιρεία Ελεύθερου Λογισμικού Και Ανοιχτού Λογισμικού), το ΕΚΕΦΕ “Δημόκριτος”, το Ινστιτούτο Επεξεργασίας του Λόγου (ΙΕΛ) του Ε.Κ. «Αθηνά» και του ΕΚΤ.

Τα γλωσσικά μοντέλα ανοιχτού κώδικα αποτελούν σημαντικό εργαλείο για την ανάπτυξη προηγμένων εφαρμογών στον τομέα της γλωσσικής επεξεργασίας. Μέσω συνεργασίας και διαλόγου μεταξύ των εμπλεκόμενων φορέων, η συνάντηση αποτέλεσε επίσης μια σημαντική ευκαιρία για την αμοιβαία γνωριμία και συζήτηση πάνω στους τρόπους συμβολής τους στον ραγδαία αναπτυσσόμενο τομέα της γλωσσικής επεξεργασίας. Οι συμμετέχοντες είχαν την ευκαιρία να εξετάσουν τις δυνατότητες που προσφέρονται από τα γλωσσικά μοντέλα και να συζητήσουν τις δυνητικές εφαρμογές που μπορούν να επιφέρουν στην ελληνική γλώσσα.

Το εργαστήριο ξεκίνησε με την παρουσίαση από τον Κώστα Παπαδήμα, Content and Community Manager της ΕΕΛΛΑΚ, που ανέφερε το “γλωσσAPI: προς ένα OSS LLM” , μια προσπάθεια ανάπτυξης ενός Ελληνικού γλωσσικού μοντέλου ανοιχτού λογισμικού “Greek OSS LLM”, το οποίο συνδυάζει τη γλώσσα με την τεχνολογία (γλώσσα +API). Για την προσπάθεια για το γλωσσAPI έχει δημιουργηθεί ένα αποθετήριο στο github https://github.com/eellak/glossAPI/ , που επιτρέπει τον σχολιασμό κατά προτίμηση στο Wiki του αποθετηρίου, για την βελτίωσή του.

Αναλυτικά, η κ. Νίνα Γιαλλούση Data Product Developer ΕΕΛΛΑΚ στην εισήγηση της με τίτλο Εφαρμογές της ΕΕΛΛΑΚ για τη Μηχανική Μάθηση με το προεκπαιδευμένο νευρωνικό δίκτυο RoBERTa παρουσίασε τις δραστηριότητες της ΕΛΛΑΚ με χρήση ντετερμινιστικών φίλτρων προεπεξεργασίας και του προεκπαιδευμένου μοντέλου Roberta για ανίχνευση κακόβουλων λογαριασμών, καθώς και την ταξινόμηση βιβλιογραφικών μεταδεδομένων σε πολλαπλές κατηγορίες.

Το λόγο έλαβε ο κ. Ερευνητής (ΕΛΕ Β’) Τεχνητής Νοημοσύνης ΕΚΕΦΕ “Δημόκριτος”, Συνιδρυτής και Διευθύνων Σύμβουλος της SciFY ΑΜΚΕ, με την εισήγηση του με τίτλο Προτεραιοποίηση ελληνικών συστημάτων μηχανικής μάθησης: από τις βάσεις στην κορυφή“ , όπου παρουσίασε τέτοια παραδείγματα όπως το NewSum, JedAI / pyJed, το AISocial web
observatory kai to Pioneers for AI in Greece. Αναφερόμενος στις προκλήσεις που προκύπτουν έθεσε τις δικές του προτάσεις που περιλαμβάνουν καταγραφή αναγκών και πιθανών λύσεων, των απαιτήσεων ευθυγράμμισης με το διεθνές τοπίο, τη δημιουργία διεπιστημονικής κοινότητας και τη διεύρυνση εμπλεκομένων ώστε να υπάρχει μια συνολική οπτική του ζητήματος.

Ο κ. Σοφιανόπουλος, Επιστημονικός Συνεργάτης ΙΕΛ/ΕΚ “Αθηνά” στην εισήγηση με τίτλο: Προς ένα μεγάλο γλωσσικό μοντέλο στα Ελληνικά, παρουσίασε τους βασικούς άξονες που οριοθετούν τα βήματα προς ένα μεγάλο γλωσσικό μοντέλο που περιλαμβάνει τη συλλογή και προεπεξεργασία δεδομένων μέσα από μια μεγάλη ποιοτική βάση δεδομένων, την Προ-εκπαίδευση του μοντέλου και την αξιολόγηση. Στο παραπάνω πλαίσιο, παρουσιάστηκε το GR-Electra PLM, που αποτελεί μια μέθοδος αυτοεπιβλεπόμενης εκμάθησης γλωσσικής αναπαράστασης.

Ο κ. Καρόζος, Μηχανικός Λογισμικού στο ΕΚΤ, στην εισήγηση του με τίτλο : Μηχανική και Βαθιά Μάθηση στον Εμπλουτισμό Περιεχομένουπαρουσίασε τους πυλώνες του Εθνικού Κέντρου Τεκμηρίωσης, τις ψηφιακές υποδομές openarchives.gr που περιλαμβάνει περισσότερα από 932.000 τεκμήρια από 76 φορείς, και το searchculture.gr με περισσότερα από 810.000 και 82 φορείς. Κλείνοντας ανέφερε τους τρόπους πως τα αποθετήρια και οι ψηφιακές υποδομές του ΕΚΤ μπορούν να αξιοποιηθούν στο πλαίσιο δημιουργίας ενός γλωσσικού μοντέλου στα ελληνικά.

Η εκδήλωση ολοκληρώθηκε με συζήτηση όπου τέθηκαν προβληματισμοί και οι νέες προκλήσεις που προκύπτουν με την πεποίθηση ότι η συνάντηση αυτή θα αποτελέσει ένα ικανό εφαλτήριο για την ανάπτυξη και διανομή ενός χρηστικού γλωσσικού μοντέλου ανοιχτού κώδικα στα ελληνικά. Το πάνελ συζήτησης πλαισίωσαν οι κ. Βασίλης Παπαβασιλείου, Ηλεκτρολόγος Μηχανικός, Επιστημονικός Συνεργάτης ΙΕΛ/ΕΚ “Αθηνά και ο κ. Προκόπης Προκοπίδης, Γλωσσολόγος, Επιστημονικός Συνεργάτης ΙΕΛ/ΕΚ “Αθηνά”.