Τα data lakes αποτελούν μια αναδυόμενη και πανίσχυρη προσέγγιση στις προκλήσεις που δημιουργεί η ενοποίηση των δεδομένων στη νέα ψηφιακή εποχή, επιτρέποντας στους οργανισμούς που έρχονται καθημερινά αντιμέτωποι με τεράστιους όγκους δεδομένων διαφορετικής φύσεως, να ανταποκριθούν στην αυξανόμενη πίεση τήρησης των κανονιστικών απαιτήσεων και ενίσχυσης της ανταγωνιστικότητάς τους.

Tα data lakes μπορούν να βοηθήσουν τους οργανισμούς στην επίλυση του επίμονου προβλήματος πρόσβασης και ενσωμάτωσης των δεδομένων. Υλοποιώντας υποδομές Big Data, οι οργανισμοί διοχετεύουν όλο και μεγαλύτερους όγκους δεδομένων είτε προς ανάλυση είτε, απλά, προς αποθήκευση για μελλοντική χρήση. Οι προγενέστερες προσεγγίσεις για μια ενοποίηση των δεδομένων σε μια ευρεία βάση, οδηγούσαν σε ένα προκαθορισμένο μοντέλο δεδομένων, χωρίς δυνατότητες ευελιξίας. Σε αντίθεση με τη μονολιθική οπτική του κλασικού μοντέλου δεδομένου που περιορίζεται στο περιβάλλον μιας επιχείρησης, τα data lakes είναι αρκετά πιο ευέλικτα όσον αφορά την τυποποίηση και τη μοντελοποίηση, προσφέροντας σχεδόν ένα απεριόριστο δυναμικό για μια βαθύτερη επιχειρηματική γνώση και εξερεύνηση των δεδομένων.

Εν γένει, τα data lakes μπορούν να εφαρμοστούν σε οποιοδήποτε βιομηχανικό τομέα. Μπορούν, δε, να ανοίξουν ένα δρόμο για να αποκτήσει κανείς μεγαλύτερη ενόραση από τα δεδομένα ή για να βάλει ένα τέλος στο silos τους. Αρκετές εταιρείες, δε, βλέπουν τα data lakes ως μια ευκαιρία για να αποκτήσουν μια σφαιρική οπτική των πελατών τους ή για να αναλύσουν τάσεις που δημιουργούνται στα social media.

Εξερευνώντας τη δυναμική των data lakes
Ένα data lake συνθέτει, γενικά, ένα αχανή και σχετικά φθηνό χώρο αποθήκευσης, που μπορεί να κρατήσει όλους τους τύπους δεδομένων, έως ότου αυτά ζητηθούν προς αξιοποίηση. Ένα data lake αποθηκεύει τα δεδομένα σε ακατέργαστη και ανεπεξέργαστη μορφή, αποτελώντας ουσιαστικά ένα τεράστιο storage που μπορεί να κρατήσει όλους τους τύπους δεδομένων, έως ότου αυτά χρειαστούν για ανάλυση (Business Αnalytics) ή εξερεύνηση (data mining). Αν και το data lake κερδίζει συνεχώς έδαφος στo περιβάλλον των μεγάλων οργανισμών είναι σημαντικό να κατανοήσει κανείς ότι δεν αποτελεί πανάκεια για όλα τα Big Data projects.

Καταρχάς, διότι αν και δεν πρόκειται για κάτι το νέο, η εκμετάλλευση των data lakes ως επιχειρηματικών assets βρίσκεται ακόμα στα σπάργανα της, σύμφωνα με την IDC. Επιπλέον, αν και οι vendors πλασάρουν τα data lakes ως μια λύση για τα Big Data projects, οι αναλυτές της Gartner έχουν τις αντιρρήσεις τους. Όπως και τα data warehouses, τα data lakes αποτελούν μια έννοια και όχι μια τεχνολογία. Μπορούν να χρησιμοποιηθούν διάφορες τεχνολογίες για τη δόμηση ενός data lake, ωστόσο, αυτό αποτελεί κατά βάση μια στρατηγική διαχείρισης του storage και όχι μια νέα πλατφόρμα.

Τα data lakes είναι εν γένει αδηφάγα για δεδομένα. Άλλωστε, είναι σχεδιασμένα γι’ αυτόν το σκοπό. Αν και το κοστολογικό μοντέλο ενός data warehouse δεν προσφέρεται για αδηφάγα «κατάποση» δεδομένων δεν ισχύει το ίδιο και για τα data lakes. Η λογική τους είναι ότι τα δεδομένα τους δεν απαιτούν οποιαδήποτε επέμβαση από τον χρήστη πριν δοθούν προς κατανάλωση: τα δεδομένα απλώς ρίχνονται «χύμα» σε ένα ενιαίο χώρο και το σχήμα αξιοποίησής τους δημιουργείται και εφαρμόζεται όταν τα δεδομένα διαβάζονται.

Είναι σημαντικό ακόμα να γίνει αντιληπτό, ότι τα data lakes αποτελούν αξιοποιήσιμους πόρους για ολόκληρο τον οργανισμό και όχι μόνο για το ΙΤ. Επομένως, όλα τα ενδιαφερόμενα μέρη οφείλουν να εμπλακούν στα σχεδιαζόμενα data lakes projects. Αυτό είναι θεμελιώδες για την αρχιτεκτονική Big Data της εταιρείας και ως εκ τούτου δεν πρέπει να αγνοηθεί. Εκτός, λοιπόν, από τους IT Managers, ένα data lake project θα πρέπει να εμπλέκει τους επιχειρηματικούς ηγέτες και χρήστες. Οι ειδικοί storage καλούνται, επίσης, να παίξουν ένα στρατηγικό ρόλο. Εν τέλει έχουμε να κάνουμε με μια πλατφόρμα storage και επομένως οι εταιρείες θα πρέπει να συμπεριλάβουν την ομάδα storage στο σχεδιασμό και στην εκτέλεση του project.

Tα μεγαλύτερα οφέλη ενός data lake project δεν προέρχονται από την τεχνολογία, αυτή καθ’ αυτή. Η επιχειρηματική αξία ενός data lake έχει να κάνει λιγότερο με τις τεχνολογίες που χρησιμοποιούνται και περισσότερο με την αξία που αντλείται για την επιχείρηση από τα data science skills που θα εφαρμοστούν σε αυτό, σύμφωνα με την Gartner. Tα data lakes δεν μπορούν να αντικαταστήσουν υπάρχουν πλατφόρμες ή υποδομές ανάλυσης. Αντ’ αυτού συμπληρώνουν τις υφιστάμενες προσπάθειες και υποστηρίζουν την ανακάλυψη νέων ερωτήσεων αναζήτησης. Μόλις αυτά τα ερωτήματα ανακαλυφθούν, τότε μπορούν να βελτιστοποιηθούν οι απαντήσεις. Η βελτιστοποίηση μπορεί να σημαίνει και τη μεταφορά των δεδομένων έξω από τα data lakes και τη διοχέτευσή τους σε data warehouses.

Η κατάσταση σήμερα
Τα data lakes αποτελούν ένα καυτό θέμα σήμερα, ωστόσο, πέρα από αυτό, είναι σημαντικό να δει κανείς ποιος τα χρησιμοποιεί και αν, όντως, προσδίδουν αξία σε μια επιχείρηση. Για να καταγράψουν την κατάσταση που επικρατεί σήμερα στην αγορά, αλλά και για ανιχνεύσουν το βαθμό ωριμότητάς των data lakes, οι Radiant Advisors και Unisphere Research έκαναν μια έρευνα ανάμεσα σε διευθυντικά στελέχη του ΙΤ, από οργανισμούς που δραστηριοποιούνται σε διάφορους βιομηχανικούς κλάδους, ώστε να καταγραφούν οι κυριότερες τάσεις του χώρου. Τα βασικά συμπεράσματα αυτής της έρευνας είναι τα εξής:

  • Το data lake αναγνωρίζεται όλο και περισσότερο ως συστατικό στοιχείο της στρατηγικής δεδομένων
  • Υπάρχουν σαφείς περιπτώσεις πρόωρης χρήσης των data lakes
  • Η διακυβέρνηση και η ασφάλεια αποτελούν τις κυριότερες προκλήσεις και τους σημαντικότερους παράγοντες επιτυχίας για τα data lakes.

Όπως καταγράφεται, επίσης, στη μελέτη, ένα data lake έχει τη δυναμική για να παράγει πρόσθετη αξία, καθώς επεκτείνεται και μετατρέπεται σε θεμελιώδες τμήμα της συνολικής στρατηγικής data του οργανισμού. Για την επιτυχή υιοθέτηση των data lakes υπάρχουν, ωστόσο, συγκεκριμένοι παράγοντες επιτυχίας. Τρεις από τους σημαντικότερους παράγοντες, όπως επιβεβαιώνεται και από την έρευνα, είναι η δυνατότητα επανεξέτασης των δεδομένων υπό μια μακροπρόθεσμη οπτική (71%), η διακυβέρνησή (71%) και ασφάλειά τους (67%).

Ανάμεσα στα πρόσθετα εμπόδια υιοθέτησης των data lakes, όπως καταγράφει η έρευνα, συμπεριλαμβάνεται, καταρχάς, η ανησυχία που υπάρχει για τη διαθεσιμότητα και τις υπάρχουσες ικανότητες αξιοποίησης των δεδομένων (55%).Αυτό αντανακλά το χάσμα που συνεχίζει να υφίσταται ανάμεσα στη γνώση και στα skills, το οποίο οφείλεται εν μέρει στην ταχεία εισροή νέων και βελτιωμένων τεχνολογιών. Στα υπόλοιπα εμπόδια περιλαμβάνεται η ανεπαρκή στρατηγική για την εκμετάλλευση των data lakes και προκλήσεις που σχετίζονται με το budget και την ενοποίηση των δεδομένων.

Εν κατακλείδι
Το ταξίδι στην εποχή των data lakes έχει ξεκινήσει. Όλο και περισσότερο τα data lakes αναγνωρίζονται ως ένα ζωτικό και αποτελεσματικό συστατικό μιας στρατηγικής δεδομένων, με όλο και περισσότερες εταιρείες να εξετάζουν την υιοθέτησή τους. Η απουσία ενός ξεκάθαρου, συνεπή ορισμού μπορεί να αποτελέσει τροχοπέδη στην υιοθέτησή τους. Επίσης, καθώς η αποδοχή τους αυξάνεται, όπως και η ωριμότητά τους, τα σημαντικότερα εμπόδια για την επιτυχία τους εξακολουθούν να είναι η διακυβέρνηση και η ασφάλεια των δεδομένων, ζητήματα τα οποία πρέπει να αντιμετωπιστούν εξαρχής. Αν και οι παράγοντες επιτυχίας – όπως τα skillsets σωστής αξιοποίησης των εργαλείων διαχείρισης δεδομένων και το διαθέσιμο budget – θα συνεχίσουν να υφίστανται, η αξία των data lakes για τη διαχείριση και την ανάλυση δεδομένων θα γίνεται περισσότερο αισθητή και αντιληπτή όσο περισσότερα πιθανά σενάρια χρήσης δημοσιοποιούνται, οδηγώντας, έτσι, σε μια μεγαλύτερη ωρίμανσή τους και σε αύξηση της υιοθέτησής τους.

Τα οφέλη
Ανάμεσα στα κυριότερα οφέλη που προσφέρουν τα data lakes συμπεριλαμβάνονται τα εξής:

  • Συλλογή δεδομένων ως έχουν από ένα ευρύ φάσμα παραδοσιακών και νέων πηγών (δομημένων και αδόμητων)
  • Αποθήκευση όλων των δεδομένων σε ένα ενιαίο περιβάλλον για διαλειτουργική επιχειρηματική ανάλυση
  • Υποστήριξη των analytics και του data science για την ανακάλυψη νέων πελατειακών, προϊοντικών και λειτουργικών insights
  • Εξουσιοδότηση των front-line υπαλλήλων και μάνατζερ και ενεργοποίηση μιας περισσότερου ενεργού εμπλοκής του πελάτη, αποκτώντας βαθύτερη γνώσεις για τους πελάτες, τα προϊόντα και τη λειτουργία του οργανισμού.
  • Ενσωμάτωση αναλυτικής γνώσης στα συστήματα λειτουργίας και διαχείρισης

Το data lake μπορεί να βοηθήσει σημαντικά την ομάδα data science του οργανισμού ώστε να απελευθερωθεί από τους περιορισμούς του data warehouse, επιτρέποντάς της να επεξεργαστεί, να δοκιμάσει και να καθορίσει τάχιστα αν υπάρχει οποιαδήποτε αξία στα διαφορετικά σετ δεδομένων και στις τεχνικές ανάλυσής τους, χωρίς να χρειάζεται να περάσει μέσα από τις αυστηρές λειτουργικές διαδικασίες που διέπουν το data warehouse. Ωστόσο, αυτή η ελευθερία μπορεί να είναι αρκετά …ριψοκίνδυνη σε έντονα ρυθμιζόμενα περιβάλλοντα. Οι εταιρείες έχουν σπαταλήσει χρόνια αναπτύσσοντας οργανισμούς διαχείρισης και διακυβέρνησης δεδομένων σχετικών με πληροφορίες ασθενών, προσωπικών στοιχείων επικοινωνίας, υπολοίπων λογαριασμών και άλλων ευαίσθητων πληροφοριών. Η ελεύθερη πρόσβαση σε όλα αυτά τα δεδομένα φαίνεται, εκ πρώτης όψεως, να αναιρεί όλη τη δουλειά που έχει γίνει τα προηγούμενα χρόνια.

Γι’ αυτό είναι πολύ σημαντικό να είναι ξεκάθαρος ο έλεγχος ενός data lake Tα δεδομένα που ανακατευθύνονται σε ένα data lake πρέπει να περάσουν από ένα αυστηρό σύνολο επιχειρησιακών διαδικασιών, ώστε να εξασφαλίζεται ο χαρακτηρισμός και η ασφάλεια τους και στη συνέχεια να τροφοδοτούνται μόνο σε εκείνα τα άτομα που έχουν την κατάλληλη εξουσιοδότηση. Τα σύγχρονα εργαλεία διαχείρισης δεδομένων προσφέρουν την εξισορρόπηση διακυβέρνησης που απαιτείται ανάμεσα στη άμεση και εύκολη πρόσβαση στα δεδομένα (την οποία χρειάζεται ένας data scientist) και στην ασφάλεια που οι καλές πρακτικές και οι ρυθμιστικές αρχές απαιτούν.

Data Lake as a Service
Μια από τις αναδυόμενες τάσεις που θα χαρακτηρίζουν την αγορά των δεδομένων μέσα στο 2016 θα είναι η εμφάνιση των διαχειριζόμενων data lakes ή του Data Lake as a Service. Αυτή η υπηρεσία θα προσφέρει ενεργείς λύσεις αποθήκευσης που θα μπορούν να απορροφήσουν τεράστιους όγκους δομημένων και αδόμητων δεδομένων, κάνοντάς τους διαθέσιμους για επεξεργασία από μια πληθώρα εφαρμογών, συμπεριλαμβανόμενων των data warehouses ή των Open Source τεχνολογιών.

Το 2016 θα δούμε όλο και περισσότερους Big Data vendors να διαθέτουν τέτοιες υπηρεσίες, για να προσφέρουν στις εταιρείες μια πλήρη, εύχρηστη και επεκτάσιμη λύση, χωρίς να χρειαστεί να μπουν στο κόπο για να δημιουργήσουν μόνες τους ένα data lake για τις ανάγκες τους. Οι λύσεις Data-lake-as-a-service αναμένεται να χρησιμοποιηθούν από πολλούς οργανισμούς (ειδικά τους μικρότερους), ένεκα των ουκ ολίγων πλεονεκτημάτων που προσφέρει ένα data lake για την αποθήκευση και την ανάλυση τεράστιων ποσοτήτων δεδομένων.