Στο πλαίσιο του Microsoft Cloud Innovation Day που έλαβε χώρα στο Ευρωπαϊκό Κέντρο Ανάπτυξης της Microsoft στο Δουβλίνο, το netweek μίλησε με τον Xρήστο Γκαντσίδη, Ελληνα ερευνητή της Microsoft στο Cambridge.

netweek: Τι σπουδές έχετε κάνει και πότε ξεκινήσατε το ερευνητικό σας έργο; Τι ήταν εκείνο που σας ώθησε να πάτε στο εξωτερικό;

Xρήστος Γκαντσίδης: Σπούδασα στο τμήμα Μηχανικών Η/Υ και Πληροφορικής του Πανεπιστημίου Πατρών και μετά στο College of Computing του Georgia Institute of Technology στην Ατλάντα. Επέλεξα να κάνω το διδακτορικό μου στο εξωτερικό, διότι το επίπεδο σπουδών σε μεταπτυχιακό επίπεδο ήταν πολύ καλύτερο. Είχα επίσης την επιθυμία να γνωρίσω τη ζωή στο εξωτερικό. Ημουν και τυχερός διότι αρκετοί απόφοιτοι του τμήματος της Πάτρας που συνέχιζαν τις σπουδές τους στο εξωτερικό παρότρυναν τους νεότερους να τους ακολουθήσουν και τους συμβούλευαν για τα διαδικαστικά των αιτήσεων.

Μετά το τέλος του διδακτορικού επέστρεψα στην Ευρώπη για να εργαστώ στο ερευνητικό κέντρο της Microsoft στο Cambridge. Η έρευνά μου γενικά σχετίζεται με δίκτυα υπολογιστών. Στο παρελθόν έχω αναπτύξει τεχνολογίες για διακίνηση περιεχομένου μέσω peer-to-peer δικτύων (project Avalanche), για αυτόματη διαχείριση μικρών δικτύων (project HomeMaestro), για ασύρματα δίκτυα, και, πιο πρόσφατα, για data centers και cloud analytics.

netweek: Σε ποια ερευνητικά projects συμμετέχετε αυτόν τον καιρό;

Xρήστος Γκαντσίδης: Η ερευνητική ομάδα συστημάτων και δικτύων στην οποία ανήκω, μελετά τεχνολογίες για ενσύρματα και ασύρματα δίκτυα, για συστήματα αποθήκευσης, για ασφάλεια συστημάτων κ.α. Το ερευνητικό μου έργο αφορά, κυρίως, το σχεδιασμό data centers και την επεξεργασία μεγάλου όγκου πληροφορίας (Big Data Αnalytics), ιδιαίτερα την επεξεργασία μεγάλου όγκου δεδομένων (Big Data), χρησιμοποιώντας cloud services (π.χ. το Hadoop on Windows Azure ή το Elastic MapReduce της Amazon).

Αυτές οι υπηρεσίες διαχωρίζουν τους κόμβους που αποθηκεύουν δεδομένα (για παράδειγμα, Azure Storage), από τους κόμβους που τα επεξεργάζονται (για παράδειγμα, Azure Compute). Για να επεξεργαστούμε, για παράδειγμα, τα δεδομένων πωλήσεων πρέπει όλα τα δεδομένα να μεταφερθούν από τους κόμβους αποθήκευσης στους κόμβους επεξεργασίας – ακόμα και αν ενδιαφερόμαστε να επεξεργαστούμε μόνο ένα υποσύνολο των δεδομένων (π.χ. πωλήσεις στην Ελλάδα). Η διακίνηση «άχρηστων» δεδομένων αυξάνει το χρόνο επεξεργασίας και προσθέτει επιπλέον κίνηση στο δίκτυο.

Αν, επίσης, τα δεδομένα πρέπει να μεταφερθούν μεταξύ data-centers (που υλοποιούν την υπηρεσία), τότε εκτός από το χρόνο διακίνησης αυξάνεται αρκετά και το κόστος. Ο στόχος του project Rhea, στο οποίο δραστηριοποιούμε αυτόν τον καιρό, είναι να ελαχιστοποιήσει τα δεδομένα που μεταφέρονται. Η δυσκολία έγκειται στο ότι η πληροφορία για το ποια δεδομένα έχουν ενδιαφέρον και ποια όχι βρίσκεται στον κώδικα της διεργασίας που τα επεξεργάζεται. Θα πρέπει να εξάγουμε αυτήν τη πληροφορία από κώδικα που είναι γραμμένος σε διάφορες γλώσσες (όπως Java, C#, Python κ.α.). Το αντίστοιχο πρόβλημα σε σχεσιακές βάσεις δεδομένων είναι αρκετά ευκολότερο χρησιμοποιώντας τα “select” και “where” της SQL.

Στo πλαίσιo του project Rhea αναπτύξαμε τεχνολογίες για να ανακτήσουμε τα αντίστοιχα “select” και “where” από κώδικα που είναι γραμμένος σε Java. Χρησιμοποιούμε τεχνικές ανάλυσης προγραμμάτων, παρόμοιες με αυτές που χρησιμοποιούν οι μεταγλωττιστές (compilers), για να κατασκευάσουμε φίλτρα, ήτοι μικρά προγράμματα που αναγνωρίζουν το «χρήσιμο» υποσύνολο των δεδομένων, ακόμα και όταν τα δεδομένα δεν έχουν δομή. Τα φίλτρα εκτελούνται στους κόμβους αποθήκευσης, με αποτέλεσμα να μειώνουν τον όγκο δεδομένων που στέλνεται στους κόμβους επεξεργασίας και κατά συνέπεια το χρόνο και το κόστος επεξεργασίας.

netweek: Πώς βλέπετε την έρευνα που γίνεται στην Ελλάδα στο χώρο της Πληροφορικής;

Xρήστος Γκαντσίδης: Κάποιες ερευνητικές ομάδες σε ελληνικά πανεπιστήμια παράγουν αξιόλογο έργο. Υπάρχουν, όμως, μεγάλα περιθώρια βελτίωσης. Προσωπικά, θα ήθελα να δω μεγαλύτερη έμφαση στην έρευνα για την επίλυση δύσκολων πρακτικών προβλημάτων. Η έρευνα απαιτεί σημαντικούς χρηματικούς πόρους σε βάθος χρόνου, οπότε αν κριθεί ότι η χώρα χρειάζεται να αυξήσει το ερευνητικό έργο στο χώρο της Πληροφορικής, τότε θα πρέπει να υπάρξει σταθερή χρηματοδότηση για αρκετά χρόνια και να τεθούν ρεαλιστικοί στόχοι για το αποτέλεσμα αυτής της προσπάθειας.