Το τελευταίο διάστημα οι αναφορές στην τεχνητή νοημοσύνη είναι συχνά συνδεδεμένες με τους αλγόριθμους deep learning. Πως όμως λειτουργούν αυτοί και πως χρειάζεται να διαχειριστούν οι επιχειρήσεις τα δεδομένα τους, ώστε να είναι αξιοποιήσιμα σε μελλοντικές εφαρμογές AI;

Με το Χριστόφορο Αναγνωστόπουλο γνωριστήκαμε στο πρώτο συνέδριο τεχνητής νοημοσύνης που διοργάνωσε η BOUSSIAS στην Ελλάδα. Η ειδίκευση του στους αλγόριθμους εποπτικής μάθησης, αλλά και η δυνατότητά του να περιγράφει με απλότητα δύσκολα θέματα μας οδήγησαν σε αυτήν τη συνέντευξη, η οποία πραγματοποιήθηκε λίγες μέρες μετά αφού ο Χριστόφορος είχε αναλάβει τη θέση Honorary Associate Professor στο Imperial College του Λονδίνου.

    NW: Ποια είναι τα χαρακτηριστικά των αλγορίθμων deep learning που τους έχουν προσδώσει περίοπτη θέση στον τομέα της τεχνητής νοημοσύνης;

Χ. Αναγνωστόπουλος: Το deep learning είναι η πιο πρόσφατη εξέλιξη στην οικογένεια αλγορίθμων που ονομάζονται “νευρωνικά δίκτυα”. Η κατηγορία αυτή έχει μια μακρά ιστορία, η οποία ξεκινά με τον αλγόριθμο Perceptron του Rosenblatt το 1957 και φτάνει μέχρι τις σύγχρονες τεχνικές, ειδικά στον τομέα της οπτικής αναγνώρισης, στον οποίο, μεταξύ άλλων, πρωτοστάτησαν οι Geoffrey Hinton και Yann LeCun. Ενδιαφέρουσες πληροφορίες είναι διαθέσιμες στη διεύθυνση (http://deeplearning.net/reading-list/).

Από μαθηματικής άποψης, οι αλγόριθμοι deep learning είναι προσεγγιστικές συναρτήσεις, οι οποίες προσπαθούν να ανακαλύψουν μια σχέση ανάμεσα σε αριθμητικές περιγραφές ορισμένων αντικειμένων, και των ετικετών τους. Υπό αυτήν την έννοια, τα νευρωνικά δίκτυα αποτελούν μια ειδική περίπτωση του γενικότερου πλαισίου που είναι γνωστό ως “επιβλεπόμενη μάθηση” (supervised learning). Για παράδειγμα, κάθε μια εικόνα σε μια ομάδα εικόνων μπορεί να αντιπροσωπεύεται αριθμητικά από έναν πίνακα pixels και μια ετικέτα, όπως “σκύλος” ή “γάτα”. Ενώ ένας άνθρωπος μπορεί εύκολα να διαχωρίσει μια γάτα από ένα σκύλο, είναι πολύ δύσκολο να εκφράσει κανείς στη μορφή μίας λίστας από κανόνες (δηλαδή ενός αλγορίθμου) την διαδικασία που ακολουθεί ο εγκέφαλός του για να κάνει αυτήν την ταξινόμηση. Η μηχανική μάθηση λοιπόν η οποία βασίζεται στην “εκπαίδευση μέσω παραδείγματος” είναι μια επανάσταση στο χώρο του προγραμματισμού, καθώς αντικαθιστά τα παραδοσιακά “expert systems”, τα οποία βασίζονται σε προκατασκευασμένους κανόνες που ορίζονται από ειδήμονες ανθρώπους, κάτι μη εφικτό για δύσκολα προβλήματα ταξινόμησης. Ο στόχος της επιβλεπόμενης μάθησης επιτυγχάνεται μέσω της βελτιστοποίησης μιας πολυπαραμετρικής ευέλικτης συνάρτησης, η οποία θα πρέπει να μπορεί να αναπαράγει τις ετικέτες μιας σειράς ετικετοποιημένων δεδομένων (labelled dataset), γνωστή ως ομάδα δεδομένων εκπαίδευσης (training dataset). Ο αλγόριθμος ψάχνει μέσα στο χώρο όλων των πιθανών τιμών των παραμέτρων με στόχο να προσδιορίσει τη μαθηματική συνάρτηση που με μεγαλύτερη ακρίβεια ταιριάζει με τα ετικετοποιημένα παραδείγματα και στη συνέχεια θα χρησιμοποιήσει αυτή τη συνάρτηση για να ταξινομήσει άγνωστες εικόνες. Αν και τα νευρωνικά δίκτυα είναι μια μορφή επιβλεπόμενης μάθησης, έχουν κάποιες μοναδικές ιδιότητες. Καταρχήν είναι εξαιρετικά ευέλικτοι “μαθητές”, όταν χρειάζεται να προσδιορίσουν, για παράδειγμα το σχήμα ενός σκύλου ως μια συνάρτηση από εντάσεις διαφορετικών pixels. Αυτή είναι και η ιδιότητα που δημιουργεί την τεράστια όρεξη των αλγορίθμων deep learning για ετικετοποιημένα δεδομένα, όπως θα δούμε και στη συνέχεια. Πρακτικά, τα νευρωνικά δίκτυα είναι τόσο ευέλικτα, ώστε να μπορούν μαθηματικά να αποδώσουν την προσέγγιση οποιασδήποτε συνάρτησης και για να το πετύχουν αυτό χρησιμοποιούν μεγάλο αριθμό απλών συναρτήσεων που συνδέονται με ποικίλους τρόπους. Είναι δυνατό να συνδέονται σειριακά, ώστε το αποτέλεσμα ενός μετασχηματισμού να είναι εισερχόμενα δεδομένα για τον επόμενο μετασχηματισμό ή παράλληλα, οπότε πολλοί μετασχηματισμοί εφαρμόζονται παράλληλα στα δεδομένα και το αποτέλεσμα προκύπτει συνδυαστικά.

Αυτή η αρχιτεκτονική είναι εμπνευσμένη από τον ανθρώπινο εγκέφαλο, ο οποίος επίσης κάνει πολύπλοκους υπολογισμούς, συνδυάζοντας απλές υπολογιστικές μονάδες, γνωστές ως νευρώνες. Ωστόσο, πρέπει να ξεκαθαρίσουμε ότι τα νευρωνικά δίκτυα δεν αποτελούν ένα μοντέλο του ανθρώπινου εγκεφάλου και οι σύγχρονες επιλογές αρχιτεκτονικών και συναρτήσεων έχουν σχεδιαστεί χωρίς καμία δέσμευση να αντικατοπτρίζουν τις πραγματικές δομές του ανθρώπινου εγκεφάλου.

Οι αλγόριθμοι deep learning λοιπόν διαφοροποιούνται από παλαιότερες γενιές νευρωνικών δικτύων από τις συγκεκριμένες αρχιτεκτονικές που χρησιμοποιούν: τείνουν να εκτελούν πολλαπλά επίπεδα μετασχηματισμών, κάθε φορά συνδυάζοντας τα δεδομένα εξόδου των προηγούμενων επιπέδων για να δημιουργήσουν ένα νέο επίπεδο. Αυτό τους επιτρέπει να εξάγουν περίπλοκες δομές με ιεραρχικό τρόπο. Για παράδειγμα ένα τετράγωνο 1000 x 1000 pixels, είναι πιθανό να μετασχηματιστεί αρχικά σε μια λίστα από σχήματα, όπως για παράδειγμα κύκλοι και τρίγωνα, τα οποία στη συνέχεια θα συνδυαστούν με άλλα επίπεδα για να δώσουν πιο πολύπλοκα μοτίβα, μέχρι να φτάσουμε στο τελικό σχήμα που μπορεί να είναι ένα λεωφορείο ή ένας πεζός. Τα ενδιάμεσα “επίπεδα” είναι γνωστά και ως κρυμμένα επίπεδα (hidden layers) διότι δεν χαίρουν επίβλεψης: δεν υπάρχουν ετικέτες που να επιβεβαιώνουν ή να διαψεύδουν τις προβλέψεις των ενδιάμεσων επιπέδων. Τα deep learning δίκτυα αναλαμβάνουν λοιπόν εξολοκλήρου μόνα τους να συνάγουν ποιες δομές είναι χρήσιμες στην συνολική ταξινόμηση των δεδομένων, και ποιες όχι, και να φροντίσουν να τις αναπαραστήσουν στα κρυμμένα επίπεδά τους. Με αυτόν τον τρόπο, κάνουν αυτόματα αυτό που οι data scientists χρειάζεται ακόμη και σήμερα να κάνουν χειροκίνητα: δηλαδή, το μετασχηματισμό raw data, σε δομές που μπορούν ευκολότερα να συσχετιστούν με μια ετικέτα από τον πραγματικό κόσμο, όπως “σκύλος” ή “γάτα”. Με αυτό τον τρόπο ένα αδόμητο σύνολο δεδομένων, όπως για παράδειγμα μια εικόνα ή ένα κομμάτι κειμένου, μετατρέπεται σε μια λίστα από κύκλους που περιέχονται στην εικόνα ή επιστημονικούς όρους που περιέχονται στο κείμενο. Αυτή η διαδικασία διαφοροποιεί τους αλγόριθμους deep learning από απλούς αλγόριθμους εκπαίδευσης, επιτρέποντας στους πρώτους να ξεκινούν από raw data χωρίς καμμία επεξεργασία από άνθρωπο. Ίσως λοιπόν βρισκόμαστε στο πρώτο στάδιο της διαδρομής προς μια Γενική Τεχνητή Νοημοσύνη, η οποία θα έχει τη δυνατότητα να μαθαίνει μόνη της, χωρίς προηγουμένως να της έχουμε ορίσει κάποιο συγκεκριμένο πεδίο γνώσης.


    Γνωρίζουμε ότι οι αλγόριθμοι ΤΝ αρέσκονται σε μεγάλες ποσότητες δεδομένων. Ωστόσο, όσον αφορά τους αλγόριθμους deep learning, θεωρούνται πολύτιμα τα labeled data. Τι είναι αυτά και γιατί βοηθούν καλύτερα τους συγκεκριμένους αλγόριθμους;

Όπως προαναφέραμε, τα ετικετοποιημένα δεδομένα, είναι απαραίτητα για όλους τους αλγόριθμους εποπτικής μάθησης. Είναι ακριβώς το ίδιο, με τη διαδικασία που ένας ενήλικος δείχνει σκύλους και γάτες σε ένα παιδί μέχρι αυτό να αρχίσει να τα ξεχωρίζει μόνο του. Αυτός είναι και ο λόγος που τα δεδομένα αυτά είναι γνωστά ως “δεδομένα εκπαίδευσης”.

Οι αλγόριθμοι deep learning καταναλώνουν τεράστιες ποσότητες ετικετοποιημένων δεδομένων διότι η ευελιξία τους συνεπάγεται ότι περιέχουν ένα τεράστιο αριθμό παραμέτρων που επιτρέπουν την εκμάθηση δύστροπων σχέσεων ετικέτας και αντικειμένου. Η συγκεκριμένη ευελιξία οδηγεί συχνά σε ένα φαινόμενο που είναι γνωστό ως ‘overfitting’, με αποτέλεσμα να ανακαλύπτονται μοτίβα που συμπτωματικά περιγράφουν σωστά κάποια παραδείγματα, αλλά αδυνατούν να δώσουν καλές προβλέψεις. Για παράδειγμα, εάν δώσουμε σε έναν αλγόριθμό deep learning algorithm δέκα παραδείγματα γάτων και σκύλων, ίσως αντιληφθεί ότι η παρουσία ενός κόκκινου pixel στην πάνω δεξιά γωνία μιας εικόνας, διαχωρίζει τη γάτα από το σκύλο, ενώ στην πράξη μπορεί απλά αυτές οι φωτογραφίες να έχουν αποτυπωθεί σε ένα κόκκινο φόντο. Ως γενικός κανόνας στη στατιστική μοντελοποίηση και στο machine learning, η ευελιξία ενός μοντέλου είναι άμεσα συσχετισμένη με ένα αριθμό ελεύθερων παραμέτρων, οι οποίες με τη σειρά τους είναι άμεσα συσχετισμένες με τον απαραίτητο αριθμό ετικετοποιημένων παραδειγμάτων που απαιτούνται για την εκπαίδευση.

    Πολλές εταιρείες δεν έχουν ακόμα επενδύσει στην τεχνολογία ΤΝ, θα μπορούσαν όμως να προετοιμάζονται κατάλληλα ώστε όταν αποφασίσουν να προχωρήσουν σε κάποια επένδυση να έχουν κατάλληλα διαμορφωμένα δεδομένα; Τι χρειάζεται να κάνουν προς αυτήν την κατεύθυνση;

Αυτή είναι μια πραγματικά εξαιρετική συμβουλή. Η φροντίδα και η εξυγίανση των δεδομένων έχει πολύ καλύτερα αποτελέσματα στο στάδιο της συλλογής. Η φιλοσοφία της τεχνολογίας Big Data έχει μια τάση προς το “αποθηκεύεστε τα πάντα και ανησυχείτε αργότερα”. Ωστόσο, παρά τις εξελίξεις των τεχνολογιών Big Data, η πρακτική αυτή γίνεται ανέφικτη, ειδικά σε εφαρμογές, όπου συμμετέχουν αισθητήρες και συνήθως η συλλογή δεδομένων δημιουργούνται terrabytes δεδομένων σε ημερήσια βάση. Εάν δεν είναι δυνατό να αποθηκευτούν τα πάντα, τότε χρειάζεται να δημιουργηθούν κάποια κριτήρια Οι αλγόριθμοι επιβλεπόμενης μάθησης στην πλειοψηφία τους απαιτούν μια σειρά από αντικείμενα που το καθένα να περιγράφεται ποσοτικά με τα ίδια ακριβώς πεδία τιμών. Οι εικόνες είναι ένα καλό παράδειγμα: κάθε συλλογή από εικόνες θα πρέπει να αποθηκεύεται ή να μετατρέπεται ώστε να έχουν όλες το ίδιο μέγεθος και την ίδια ανάλυση. Τα δεδομένα σε μορφή πινάκων είναι ένα δεύτερο καλό παράδειγμα, αλλά σε πολλές περιπτώσεις είναι αδύνατον να ταιριάξουν τα δεδομένα που συλλέγει μια επιχείρηση στο μοντέλο της σχεσιακής βάσης δεδομένων. Σε αυτήν την περίπτωση ημι-δομημένες μορφές όπως τα JSON objects είναι ένας καλός συμβιβασμός. Από τη στιγμή που η επιχείρηση θα έχει εστιάσει το ενδιαφέρον της σε κάποιες κλάσεις αντικειμένων και θα τα έχει περιγράψει με κάποια σχετική συνέπεια, θα πρέπει στη συνέχεια να αναγνωρίσει κάποιες ετικέτες που θα μπορούσαν να φανούν χρήσιμες. Για παράδειγμα, τα ψηφιακά χνάρια ενός αγοραστή σε ένα διαδικτυακό κατάστημα μπορούν να ετικετοποιηθούν με την πληροφορία του αν τελικά ο αγοραστής αγόρασε το προϊόν. Στη συνέχεια, η επιχείρηση θα πρέπει να αυτοματοποιήσει τη συλλογή των ετικετών. Τα πιο επιτυχημένα έργα τεχνητής νοημοσύνης βασίστηκαν σε υπάρχουσες τεχνολογίες/υπηρεσίες που παρήγαγαν ετικέτες. Για παράδειγμα, η αναγνώριση εικόνων της Google βασίζεται στα tags που αναρτούν οι χρήστες όταν ανεβάζουν μια εικόνα. Επίσης, η μεταφραστική υπηρεσία της ίδιας εταιρείας βασίζεται σε κείμενα που εμφανίζονται σε περισσότερες από μια γλώσσες, όπως για παράδειγμα οι ρυθμιστικοί κανονισμοί της Ευρωπαϊκής Ένωσης.

Εν είδει συμπεράσματος, λοιπόν, το πρώτο βήμα είναι η τυποποίηση των data formats, η επιλογή των αντικειμένων που έχουν ενδιαφέρον για τον τομέα της επιχείρησης και πως αυτά τα αντικείμενα θα περιγράφονται ποσοτικά στη βάση δεδομένων και στο τέλος η επιλογή των κατάλληλων ετικετών που έχουν επιχειρηματική αξία. Αυτή η διαδικασία θα μετατρέψει το χάος των δεδομένων σε περιουσιακό στοιχείο, γιατί στη συνέχεια θα είναι εύκολη η εφαρμογή αλγορίθμων machine learning.


    Είναι απαραίτητη αυτή η διαμόρφωση σε όλα τα δεδομένα ή αφορά μόνο δεδομένα που θα χρησιμοποιηθούν από συγκεκριμένες κατηγορίες εφαρμογών;

O πιο συχνός τύπος εφαρμογής της εκμάθησης των μηχανών βρίσκεται στον τομέα της πρόβλεψης, όπου είτε μια φυσική διαδικασία είτε μία επιχειρηματική, τελικά παράγει μία ετικέτα (π.χ. έβρεξε ή όχι την επόμενη ή ο πελάτης απέτυχε ή όχι να πληρώσει τη δόση του δανείου του έξι μήνες μετά την λήψη του), αλλά θα είχε αξία για την επιχείρηση η ετικέτα αυτή να είναι γνωστή πρωτύτερα. Υπάρχει και ένας άλλος τομέας που το ΑΙ μπορεί να εφαρμοστεί αντικαθιστώντας τον άνθρωπο με περιορισμένο κόστος αλλά αυξημένη αξιοπιστία. Ξεκινώντας από τις απλές πνευματικές/γνωστικές εργασίες όπως η αναγνώριση γραφικού χαρακτήρα, το image labelling, η υπαγόρευση κειμένου. Στη συνέχεια σειρά έχουν πιο σύνθετες εργασίες όπως η οδήγηση, η κατανόηση ενός κειμένου, ο χειρισμός ενός διαλόγου με ερωτήσεις και απαντήσεις. Το Deep learning είναι ιδιαίτερα ικανό να μιμείται την ανθρώπινη νόηση πιθανώς λόγω της βιολογικά εμπνευσμένης αρχιτεκτονικής του. Γενικά τα labels μπορούν να εφαρμοστούν σε όλες τις επιχειρηματικές διαδικασίες, οι οποίες επηρεάζουν τα έξοδα και τις αναπτυξιακές επενδύσεις μιας επιχείρησης. Αυτές οι πληροφορίες θα καθορίσουν τις επενδύσεις σε υποδομές ΑΙ. Βέβαια δεν μπορούμε να αναμένουμε όλες τις πιθανές εφαρμογές του ΑΙ, αλλά αυτός είναι ένας καλός εμπειρικός κανόνας

    Ακούμε αρκετά συχνά τον τελευταίο καιρό για εξειδικευμένους επεξεργαστές σε υπολογισμούς αλγορίθμων deep learning.
    Σε τι αφορά αυτή η εξειδίκευση; Υπάρχουν έμπρακτες αποδείξεις ότι οι επεξεργαστές αυτοί βελτιώνουν τις επιδόσεις συστημάτων ΤΝ;

Οι αλγόριθμοι deep learning είναι εξαιρετικά απαιτητικοί σε υπολογισμούς. Αυτός είναι και ο βασικός λόγος που ο τομέας πέρασε μια περίοδο, η οποία είναι γνωστή ως “AI winter”, στη διάρκεια του οποίου οι επιχειρήσεις απογοητεύτηκαν από τις πρακτικές εφαρμογές των νευρωνικών δικτύων. Αυτή η περίοδος τερματίστηκε με την αυγή δύο νέων τεχνολογιών: των Big Data και του Internet που αύξησε μαζικά τις ετικετοποιημένες ομάδες δεδομένων. Το κερασάκι της εξέλιξης ήρθε μέσα από μια κατηγορία επεξεργαστών που είναι γνωστή ως GPUs και έχουν την ιδιότητα να επιταχύνουν με εκθετικό ρυθμό τη διαδικασία εκμάθησης, αξιοποιώντας τις ευκαιρίες παράλληλης επεξεργασίας που προσφέρει η αρχιτεκτονική των νευρωνικών δικτύων.

Οι νέες GPU ενσωματώνουν σε επίπεδο hardware πολλές από τις ρουτίνες υπολογισμών και έτσι μειώνεται η ανάγκη μεταφοράς δεδομένων μεταξύ διαφορετικών τμημάτων του υπολογιστή. Πρακτικά, οι συγκεκριμένοι επεξεργαστές δε συμβάλουν στη βελτίωση της ακρίβειας των μοντέλων, απλά επιταχύνουν τη διαδικασία εκμάθησης. Ωστόσο αυτή είναι σημαντική βοήθεια για τους data scientists, γιατί τους επιτρέπει να δοκιμάζουν περισσότερες παραλλαγές του αλγορίθμου καθως και να βελτιστοποιούν τα νευρωνικά τους δίκτυα περισσότερο σε ένα δεδομένο χρονικό πλαίσιο, δυνατότητες οι οποίες τελικά βελτιώνουν και την ακρίβεια.

    Θεωρώντας ότι έχετε μια καλή εικόνα της ελληνικής αγοράς, σε ποιους επιχειρηματικούς τομείς προβλέπετε ότι θα αξιοποιηθούν αρχικά οι εφαρμογές ΤΝ;

Είναι ακόμα πολύ νωρίς να εκτιμήσουμε τους επιχειρηματικούς τομείς που θα έχουν τα περισσότερα οφέλη από την αξιοποίηση της τεχνολογίας AI, καθώς πρόκειται για μια οριζόντια τεχνολογία που μπορεί να επηρεάσει κάθε επιχειρηματική διαδικασία με απρόβλεπτα γρήγορο ρυθμό. Ωστόσο, ένας γενικός κανόνας, είναι η διαθεσιμότητα ετικετοποημένων δεδομένων, τα οποία άλλωστε είναι και ο κεντρικός πυρήνας αυτού του άρθρου. Ένας άλλος χρήσιμος γενικός κανόνας είναι η παρουσία χειροκίνητης εργασίας,που περιλαμβάνει βασικές επαναλαμβανόμενες πράξεις, όπως για παράδειγμα η ταξινόμηση αντικειμένων, η ετικετοποίηση εικόνων και η πρόσβαση σε τυποποιημένες φόρμες εφαρμογών.

Στο μεσοπρόθεσμο μέλλον, η αποδοχή της τεχνολογίας εξαρτάται από την κουλτούρα καινοτομίας μιας επιχείρησης, όπως άλλωστε έχει συμβεί με όλες τις αναδυόμενες τεχνολογίες. Η πρόβλεψη μου είναι ότι επιχειρηματικοί κλάδοι που είναι συνηθισμένοι σε ανάλυση δεδομένων και καινοτομία, όπως η βιομηχανία, οι τηλεπικοινωνίες και οι ψηφιακές υπηρεσίες μέσω Internet, θα ωφεληθούν πρώτες, ενώ τομείς που υπάγονται σε στενά ρυθμιστικά πλαίσια, όπως η υγεία και οι κυβερνητικές υπηρεσίες θα ακολουθήσουν μάλλον τελευταίες. Πρέπει να ξεκαθαρίσουμε ότι τα νευρωνικά δίκτυα δεν αποτελούν ένα μοντέλο του ανθρώπινου εγκεφάλου και οι σύγχρονες επιλογές αρχιτεκτονικών και συναρτήσεων έχουν σχεδιαστεί χωρίς καμία δέσμευση να αντικατοπτρίζουν τις πραγματικές δομές του ανθρώπινου εγκεφάλου. Τα πιο επιτυχημένα έργα τεχνητής νοημοσύνης βασίστηκαν σε διαδικασίες που συσχετίζονταν με την αυτόματη παραγωγή ετικετών.