Τα Big Data απασχολούν όλο και περισσότερο τις Διευθύνσεις Πληροφορικής, οι οποίες αναζητούν τρόπους για μια αρτιότερη αξιοποίησή τους. Η πραγματική πρόκληση για τους CIOs δεν είναι ο τεράστιος όγκος δεδομένων, αλλά η αποτελεσματική ανάλυσή τους.

Τα Big Data, η αυξανόμενη πλημμύρα που προκαλείται από τα πολυδομημένα δεδομένων, θέτουν νέες απαιτήσεις στο software και στις επιχειρήσεις. Οι κλασικές προσεγγίσεις στο BI φαίνεται να έχουν φθάσει στα όρια τους, με τις προκλήσεις να είναι οι εξής: από τη μία οι επιχειρήσεις πρέπει να αποθηκεύσουν και να αξιολογήσουν τα δεδομένα τους και από την άλλη πρέπει να κάνουν εκμεταλλεύσιμη αυτήν την πληροφορία.

Οι επιχειρήσεις συγκεντρώνουν καθημερινά πολλούς διαφορετικούς τύπους δεδομένων. Στην εποχή των social media και των ποικίλων πηγών δεδομένων, από όπου αντλούνται τα δομημένα και αδόμητα δεδομένα, γίνεται όλο και πιο δύσκολο να μπορέσει κανείς να συγκεντρώσει τα δεδομένα, να τα διαχειριστεί και να τα κάνει στο τέλος εκμεταλλεύσιμα από τις επιχειρήσεις.

Πίσω από τις απέραντες ποσότητες δεδομένων ελλοχεύει ένα τεράστιο δυναμικό, το οποίο δεν θέτει μόνο μια μεγάλη πρόκληση για τις επιχειρήσεις, αλλά δημιουργεί και νέες ευκαιρίες για την ανάπτυξη νέων προϊόντων και το τμήμα εξυπηρέτησης των πελατών (CRM). Καθημερινά ρέει από τα συστήματα CRM, την αγορά λιανικής, τα call centers, τα social media και τα καταστήματα μια γιγάντια ποσότητα δεδομένων.

Αυτό δημιουργεί στις επιχειρήσεις τις ακόλουθες απαιτήσεις:
Ασφάλεια. Οι φορητές συσκευές αλλά και όλες οι υπόλοιπες συσκευές που συνδέονται με το εταιρικό δίκτυο δημιουργούν την απαίτηση για μια στιβαρή και ασφαλή υποδομή IT. Χρειάζεται, λοιπόν, η λήψη μιας πληθώρας μέτρων ασφαλείας, ώστε να εξασφαλιστεί η προστασία της αχανούς ροής δεδομένων και της εταιρικής πληροφορίας.

Ποιότητα. Τα τεράστια δεδομένα δεν δημιουργούν αυτόματα αξία για μια επιχείρηση. Χρειάζεται μια βέλτιστη και αποτελεσματική λύση που να διασφαλίζει την ποιότητά τους, διότι τότε μόνο τα δεδομένα έχουν επιχειρηματική αξία.

Οι καθοριστικοί παράγοντες
Οπως πιστεύουν πολλοί ειδικοί, τα Big Data επηρεάζονται από τέσσερις παράγοντες. Καταρχήν επηρεάζονται από τους όγκους των δεδομένων, καθώς ο αριθμός των in-house συσσωρευόμενων δεδομένων αυξάνει δραστικά. Ο δεύτερος παράγοντας έχει να κάνει με τις πηγές των δεδομένων. Ενώ παλιότερα υπήρχαν,κυρίως, δομημένα δεδομένα από σταθερά συστήματα, όπως, για παράδειγμα, τα συστήματα συναλλαγών, σήμερα τα δεδομένα είναι ανομοιογενή και αδόμητα.

Ο τρίτος παράγοντας έχει να κάνει με την ταχύτητα. Ενώ αρκούσε παλιότερα μια μηνιαία αναφορά, σήμερα η ανάλυση και η αξιοποίηση των δεδομένων συχνά χρειάζεται να γίνεται σε πραγματικό χρόνο. Και τέλος, δεν πρέπει να ξεχνάμε τον χρήστη. Και αυτό διότι ο αυξανόμενος αριθμός των δεδομένων συμπαρασύρει ένα μεγαλύτερο αριθμό χρηστών από πίσω του, οι οποίοι αποκτούν πρόσβαση στις σχετικές αναλύσεις.

Ετσι, χρειάζεται μια λύση η οποία θα εξασφαλίζει ότι οι διαφορετικοί χρήστες θα τροφοδοτούνται με τις εκάστοτε σχετικές αξιολογήσεις. Για να γίνει εφικτή η ικανοποίηση όλων αυτών των απαιτήσεων, απαιτούνται νέα προγράμματα ανάλυσης τα οποία θα μπορούν:
• να αναλύουν γρήγορα και ευέλικτα τις διαφορετικές πηγές δεδομένων (Analytis)
• να εκμεταλλεύονται τα πολυδομημένα δεδομένα
• να ενσωματώνουν, να επεξεργάζονται και να αποθηκεύουν μεγάλες ποσότητες δεδομένων
• να υλοποιούν μια εκτεταμένη αξιολόγηση και οπτικοποίηση των δεδομένων (με πιο σύνθετο τρόπο από ότι κάνουν οι κλασικές λύσεις BI).

Σε κάθε περίπτωση, τα Big Data δεν αφορούν μόνο τις μεγάλες επιχειρήσεις. Και οι μικρομεσαίες επιχειρήσεις μπορούν να τα εκμεταλλευτούν για να βελτιώσουν τη θέση τους στην αγορά και να αποκτήσουν επιπλέον ανταγωνιστικά πλεονεκτήματα.


Λύσεις
Ολο και περισσότεροι κατασκευαστές software φροντίζουν να προσαρμόζουν τα προϊόντα τους, ώστε να ικανοποιούν τις απαιτήσεις των Big Data, ενώ υπάρχουν λύσεις που προσφέρουν τη δυνατότητα συνδυασμού δομημένων και αδόμητων δεδομένων. Για επιτυχημένες αναζητήσεις σε μεγάλες ποσότητες δεδομένων υπάρχουν ήδη – χάρη στο cloud και στις εκλεπτυσμένες τεχνικές In-Μemory, όπως και στα συστήματα storage – πολύ καλές λύσεις, οι οποίες μπορούν να χρησιμοποιηθούν για εντατικούς υπολογισμούς και analytics.

Παράλληλα, δημιουργούνται νέοι τρόποι αξιοποίησης αυτών των δεδομένων υπό τη σκοπιά της ανάλυσης και της πρόβλεψης, όπως είναι το cross-selling και η πρόβλεψη ακυρώσεων παραγγελιών. Ωστόσο, καμία επιτυχία δεν μπορεί να εξασφαλιστεί αν δεν γίνει η σωστή ερμηνεία.
Επιπλέον, κυκλοφορούν λύσεις Big Data στην αγορά που προσφέρουν εξαιρετικές επιδόσεις, χωρίς να απαιτούν μεγάλες επενδύσεις σε servers και storage.

Πρόκειται για συστήματα που εκμεταλλεύονται τις δυνατότητες των σύγχρονων επεξεργαστών – όπως είναι τα SSE, Out of Order Execution, Multithreading κ.λπ. – επιταχύνοντας την ανάλυση μεγάλου όγκου δεδομένων, καταναλώνοντας ταυτόχρονα τους ελάχιστα δυνατούς πόρους hardware. Ακόμα κι ένας μεμονωμένος server επαρκεί για την επεξεργασία πολλών TBs δεδομένων. Για να μπουν οι εταιρείες στη λογική ανάλυσης των Big Data, θα πρέπει αρχικά να γίνει επένδυση σε μια τεχνολογία ανάλυσης και στο σχετικό προσωπικό που διαθέτει το απαιτούμενο know-how. Επιπλέον, δεν θα πρέπει να υποτιμηθεί η σημαντικότητα της απλότητας μιας λύσης.

Οσον αφορά το κόστος μιας λύσης Big Data, για την εκτίμησή του παίζουν ουσιαστικό ρόλο μια σειρά από διαφορετικούς παράγοντες:  Όπως:
• Πόσα δεδομένα χρειάζεται να αναλυθούν;
• Tι είδους είναι τα δεδομένα (δομημένα, αδόμητα, γραφικά, βίντεο κ.λπ.);
• Πόσοι εργαζόμενοι πρέπει να μπορούν να έχουν ταυτόχρονα πρόσβαση στα δεδομένα;
• Ποιος είναι ο επιχειρηματικός στόχος μιας λύσης Big Data;

Oι απαντήσεις σε αυτές τις ερωτήσεις και η δυνατότητα αντίδρασης στις αναπάντεχες αλλαγές, αποτελούν μερικά από τα χαρακτηριστικά μιας λύσης Big Data. Δεν υπάρχει κανένα κέρδος από την απλή αποθήκευση των Big Data σε ένα σιλό δεδομένων, αλλά απαιτείται και η χρήση λύσεων Business Intelligence που θα μεγιστοποιήσουν τα κέρδη και θα ελαχιστοποιήσουν το κόστος.

Οι κλασικές λύσεις BI δεν είναι κατάλληλες για την αξιοποίηση των Big Data. Χρειάζονται λύσεις BI που θα μπορούν να αναλύουν όλα τα δεδομένα ταυτόχρονα και σε πραγματικό χρόνο. Και εδώ είναι που πολλές από τις κλασικές λύσεις BI φθάνουν στα όριά τους.

Τεχνολογίες
Στόχος των Big Data είναι η προετοιμασία των τεράστιων δεδομένων κατά τέτοιο τρόπο, ώστε να είναι δυνατή η εκμετάλλευσή τους για την ανάπτυξη της επιχείρησης. Μια «απλή» λύση που χρησιμοποιούσαν οι οργανισμοί έως τώρα ήταν να βελτιστοποιούν τα συστήματα βάσεων δεδομένων για αναλυτικούς σκοπούς, με σκοπό την καλύτερη διαχείριση μεγάλων ποσοτήτων δεδομένων. Γι’ αυτό το σκοπό χρησιμοποιούνται τεχνολογίες όπως τα In Database Analytics, In-Memory Computing ή το Massive Parallel Processing. Μέσω της άμεσης επεξεργασίας των δεδομένων στη μνήμη, μπορούν να βελτιωθούν οι επιδόσεις.

Συχνά, η τεχνολογία που χρησιμοποιείται για τα Big Data είναι η Hadoop. Αυτή η τεχνολογία είναι κατάλληλη για την αποθήκευση μεγάλης ποσότητας δεδομένων, όχι, όμως, και για την ανάλυσή τους σε πραγματικό χρόνο. Το Hadoop δεν παράγει καμία προστιθέμενη αξία από τα δεδομένα. Η προστιθέμενη αξία δημιουργείται από την «έξυπνη» ανάλυση των δεδομένων. Εδώ ακριβώς έρχεται να «κουμπώσουν» τα Big Data Analytics. Το ερώτημα που προκύπτει στην προκειμένη περίπτωση είναι για τι πράγμα πρέπει να ψάξει κανείς μέσα στα δεδομένα.

Οι Διευθύνσεις Πληροφορικής κάνουν πολλά διαφορετικά πράγματα, όπως είναι η συντήρηση των πληροφοριακών συστημάτων και η διατήρηση των δεδομένων. Ωστόσο, η αξιοποίηση των δεδομένων, η εκμετάλλευση της πληροφορίας που κρύβουν αποτελεί θέμα των ειδικών τμημάτων και της διοίκησης της εταιρείας. To Massive Parallel Processing και η In-Memory επεξεργασία των δεδομένων, και μαζί με αυτά η εκμετάλλευση των τεραστίων υπολογιστικών πόρων στους σύγχρονους servers και συστήματα Blade, θέτουν τα θεμέλια για την αξιοποίηση των δεδομένων.

Τα Big Data πρέπει να υποστηρίξουν την υπάρχουσα υποδομή IT των επιχειρήσεων. Για να χρησιμοποιηθούν, λοιπόν, τα εργαλεία Analytics χρειάζεται να υπάρχει δυνατότητα εκμετάλλευσης όλης της υπολογιστικής ισχύος του εταιρικού δικτύου, όταν αυτό χρειαστεί. Το hype για τα Big Data συνεχίζεται με αμείωτη ένταση. Οι εταιρείες αναγνωρίζουν ότι η αξιοποίηση των δεδομένων μπορεί να ωθήσει την επιχειρηματική τους ανάπτυξη και να τους οδηγήσει σε μια αποτελεσματικότερη διαχείριση τους.Ως εκ τούτου τα Big Data αποτελούν μια από τις σημαντικότερες τεχνολογικές τάσεις και θα συνεχίσουν να μας απασχολούν για πολύ καιρό στο μέλλον.

5 tips προσέγγισης των Big Data
1. Κατάλληλος χρόνος. Το θέμα δεν είναι αν θα μεταβεί κανείς στα Big Data, αλλά και το πότε. Και αυτό καθορίζεται, μεταξύ άλλων από την περιοχή δραστηριοτήτων της εκάστοτε εταιρείας. Για παράδειγμα, εταιρείες όπως οι Facebook και Google, οι οποίες δραστηριοποιούνται κυρίως στην παραγωγή δεδομένων, ήταν από τις πρώτες που υιοθέτησαν τα Big Data. Μια μεσαίου μεγέθους κατασκευαστική εταιρεία, από την άλλη, δεν χρειάζεται να μεταβεί επειγόντως στα Big Data.

2. Εξέταση συνάφειας περιεχομένου. Ποια δεδομένα απαιτούνται και από πού προέρχονται; Κατά τη συγκέντρωση δεδομένων είναι σημαντικό να ρίξει κανείς μια προσεκτική ματιά σε αυτά για να δει από που προέρχονται και πώς μπορεί να τα εκμεταλλευτεί. Στην εποχή των social media οι εταιρείες θέλουν, για παράδειγμα, να μάθουν τι συζητιέται γι’ αυτές στα microblogs όπως είναι το twitter και στα social networks, όπως είναι το Facebook και το Xing.

Για κάποιες άλλες έχουν σημασία τα forums που εξειδικεύονται σε κάποιο θέμα, οι κοινότητες περιεχομένου όπως είναι το YouTube ή το Flickr, αλλά και τα κλασικά online media, ώστε να μπορέσουν να αναγνωρίσουν έγκαιρα τις όποιες τάσεις. Είναι σημαντικό, επίσης, να ξέρει κανείς πόσο αξιόπιστες είναι οι πηγές των δεδομένων και πόσο συχνά αλλάζει
το περιεχόμενο τους.

3. Προσοχή στα νομικά εμπόδια κατά την ενσωμάτωση των Big και Small Data. Η ενσωμάτωση μεγάλων ποσοτήτων δεδομένων, όπως είναι η ανάγνωση των σελίδων του Facebook, και Small Data, όπως είναι, για παράδειγμα, ο εσωτερικός φάκελος πελάτη, θα πρέπει να γίνεται λαμβάνοντας υπόψη τα νομικά ζητήματα που αφορούν, για παράδειγμα, την προστασία των προσωπικών δεδομένων.

4. Η ανάλυση απαιτεί ένα πλαίσιο αναφοράς. Κάθε επιχείρηση διαθέτει το δικό της περιεχόμενο, το οποίο χαρακτηρίζεται με τα metadata. O ορισμός του σχετικού περιεχομένου αποτελεί προϋπόθεση για ένα στοχοποιημένο φιλτράρισμα και ανάλυση. Ενα πλαίσιο αναφοράς βοηθάει στην επικοινωνία μεταξύ ανθρώπου και μηχανής, ώστε να επιλεγεί το σωστό περιεχόμενο από μια συλλογή δεδομένων. Στα Big Data αναλαμβάνει το ρόλο της τακτοποίησης του περιεχόμενου ένα εγκαταστημένο σύστημα BI Governance.

5. Aναζήτηση του business case. Οι επιχειρήσεις πρέπει συνεχώς να εξετάζουν με ακρίβεια, πώς μπορούν να βγάλουν την επιχειρηματική αξία από τα δεδομένα τους, πώς αυτά μπορούν να τις βοηθήσουν να πάρουν τις σωστές αποφάσεις. Σε αυτό παίζει καθοριστικό ρόλο η ποιότητα των δεδομένων.


Big Data στην πράξη

Ο Ελευθέριος Α. Λυκουρόπουλος, Δ/ντης Ψηφιακών Συστημάτων, Υπηρεσιών και Προώθησης Προϊόντων της Κτηματολόγιο ΑΕ, μιλάει στο netweek για τον τρόπο που ο οργανισμός του διαχειρίζεται τα Big Data και τις λύσεις που χρησιμοποιεί γι’ αυτό το σκοπό.

netweek: Στον οργανισμό σας διαθέτετε πολλά «βαριά» και ανομοιογενή δεδομένα τα οποία αλλάζουν. Πώς εκμεταλλεύεστε σήμερα όλα αυτά τα δεδομένα και πόσο θα σας ενδιέφερε η χρήση μιας λύσης Big Data για την ακόμα καλύτερη αξιοποίησή τους;
Eλευθέριος Λυκουρόπουλος: H Κτηματολόγιο ΑΕ διαθέτει, πράγματι, δεδομένα μεγάλου όγκου και μεγάλου πλήθους αρχείων, δηλαδή κυρίως εικόνες υψηλής ανάλυσης και σαρωμένα έγγραφα.

Με τη χρήση συστημάτων διαχείρισης δεδομένων από έργα του Γ’ ΚΠΣ (λογισμικό, συστήματα αποθήκευσης, συστήματα λήψης αντιγράφων ασφαλείας), αλλά και με ειδικά λογισμικά που έχουν αναπτυχθεί εσωτερικά, τα διαθέτουμε σε πληθώρα εφαρμογών μέσω διαδικτύου, τόσο ελεύθερα για χρήση από κάθε ενδιαφερόμενο, όσο και σε πελάτες – επαγγελματίες χρήστες, που επιθυμούν υπηρεσίες υψηλής διαθεσιμότητας και αξιοπιστίας.

Αυτή τη στιγμή έχουμε διαθέσιμα περί τα 100ΤB μορφοποιημένης χωρητικότητας (140TB raw capacity), που αντιστοιχούν στο 30% κάλυψης της χώρας. Τα συνολικά αρχεία (εικόνων, συμβολαίων κ.λπ.) ξεπερνούν έως τώρα τα 30 εκατομμύρια. Ομως, τα δεδομένα του Εθνικού Κτηματολογίου στην πλήρη του ανάπτυξη και με πολλαπλά επίπεδα πληροφορίας, αλλά και επιπλέον σαρωμένα τοπογραφικά διαγράμματα, εκτιμάται ότι θα αγγίξουν τα 300-400TB.

Για τον λόγο αυτό έχουμε σχεδιάσει σχετική νέα προμήθεια εξοπλισμού στο πλαίσιο του ΕΣΠΑ, που ελπίζουμε να τελεσφορήσει το συντομότερο. Εχοντας μελετήσει όλες σχεδόν τις λύσεις επώνυμων κατασκευαστών υποδομών Big Data, έχουμε διαπιστώσει τις καταπληκτικές λύσεις που διατίθενται πλέον στην αγορά καλύπτοντας όλη τη γκάμα εφαρμογών (OLTP, Data Warehousing, Archiving κλπ). Στην περίπτωσή μας, η λύση μοιάζει να είναι τύπου archiving.

netweek: Τα Big Data χρειάζονται και Big Security. Σας απασχολεί καθόλου το θέμα της ασφάλειας και πώς το αντιμετωπίζετε;
Eλευθέριος Λυκουρόπουλος:
Από την πρώτη φάση ανάπτυξης πανελλαδικών συστημάτων (2003) διαθέτουμε διαδικασίες λήψης offsite αντιγράφων ασφαλείας, στη συνέχεια κέντρο αντιμετώπισης καταστροφής (2006) και πλέον μεγάλης χωρητικότητας και ειδικών προδιαγραφών ασφαλείας κέντρο δεδομένων, καθώς και εφεδρικό που συγχρονίζονται με ταχύτητες στα100Mbps.

Επίσης, στο επίπεδο της ηλεκτρονικής πρόσβασης ακολουθούνται όλες οι σύγχρονες μεθοδολογίες ελέγχου ασφαλείας πληροφοριών (access control, authentication, auditing, DLP, IDS, application firewalling κ.λπ.). Ενα σημαντικό δίλημμα, πάντως, για τα ημιδομημένα (semistructured) Big Data είναι αν αποτελούν αντικείμενο αποθήκευσης σε βάσεις δεδομένων ή filesystems, λόγω του πολύ μεγάλου όγκου και πλήθους τους. Η επιλογή μπορεί να επιδράσει καταλυτικά στις διαθέσιμες λύσεις ασφαλείας στο επίπεδο ηλεκτρονικής πρόσβασης των εφαρμογών σε αυτά.

netweek: Αρκετοί αναλυτές εκτιμούν ότι το μυστικό για την επιτυχημένη εκμετάλλευση των Big Data δεν είναι οι μεγάλες επενδύσεις, αλλά η «έξυπνη» και οργανωμένη διαχείρισ τους. Πόσο συμφωνείτε με αυτή την άποψη και με ποιο τρόπο πιστεύετε ότι θα μπορούσε να γίνει μια βέλτιστη εκμετάλλευση των Big Data;
Eλευθέριος Λυκουρόπουλος: Θα έλεγα, ότι σε κάθε περίπτωση η σωστή οργάνωση και διαχείριση είναι θεμελιώδης. Εμείς, για παράδειγμα, με τα μαζικά δεδομένα που έχουμε ως τώρα διαθέσει ηλεκτρονικά (πάνω από 200TB εικόνων που αριθμούν 1,5 δισ. εικόνες σε περίπου 3 χρόνια λειτουργίας της βραβευμένης υπηρεσίας θέασης ‘ορθοεικόνων’ της Ελλάδας), κάναμε δική μας οργάνωση των δεδομένων καθώς και βελτιστοποιημένο κώδικα πρόσβασης για την εξυπηρέτηση πολλών ταυτόχρονων χρηστών.

Θεωρώ, όμως, ότι και στην περίπτωση εξαγωγής πληροφορίας από OLTP συστήματα εκατομμυρίων εγγραφών, η εκ των προτέρων οργάνωση με βέλτιστες πρακτικές Βάσεων Δεδομένων είναι επίσης πολύ μεγάλης αξίας: πλέον υπάρχουν data warehouse experts, που εξειδικεύονται στον τομέα αυτό. Και στα δύο μοντέλα δεδομένων, πάντως, η ισχυρή υποδομή I/O είναι εντελώς απαραίτητη.