Η τεχνολογία deduplication ταιριάζει γάντι στην εκθετική αύξηση του όγκου πληροφοριών. Οπότε είναι αναμενόμενο να βρίσκεται στις πρώτες προτεραιότητες των IT Μanagers.

Τα τελευταία χρόνια ο IT admin της εταιρείας που εργάζομαι έχει γίνει πολύ προβλέψιμος. Στο 90% των email που στέλνει επισημαίνει την προσοχή μας στην αλόγιστη χρήση αποθηκευτικού χώρου. Δεν πρόκειται για προσωπική του ιδιοτροπία, αλλά για ένα σοβαρό ζήτημα που απασχολεί τους εργαζόμενους στο IT σε παγκόσμιο επίπεδο. Δυστυχώς, οι περισσότεροι χρήστες υπολογιστών δεν είναι εύκολο να αντιληφθούν την εκθετική αύξηση των δεδομένων που δημιουργούν και τις παράπλευρες επιπτώσεις της. Την ήδη δύσκολη κατάσταση επιβαρύνουν νομικά και κανονιστικά πλαίσια, τα οποία υπαγορεύουν στις επιχειρήσεις τον τρόπο και τη χρονική διάρκεια φύλαξης των δεδομένων.

Σύμφωνα με την IDC, με εξαίρεση το 2009, που παρατηρήθηκε μια μικρή κάμψη στη ζήτηση συσκευών αποθήκευσης δεδομένων, οι προηγούμενες χρονιές και το 2010, ήταν πολύ καλές για τα έσοδα των προμηθευτών υλικού και λογισμικού. Η IDC προβλέπει ότι μέχρι το 2014, η συνολική ζήτηση θα έχει αυξηθεί κατά 50%.

Στο πρόσφατο EMC World, η EMC αποκάλυψε ότι έχει ήδη μερικές δεκάδες πελάτες στην κατηγορία των petabytes και εκτιμά ότι ο αριθμός τους θα φτάσει πολύ σύντομα τους 1000 σε παγκόσμιο επίπεδο. Η αύξηση των δεδομένων πέρα από το κόστος επένδυσης σε αγορά νέου υλικού, συνοδεύεται και από το κόστος διαχείρισης και φύλαξης, το οποίο είναι συνήθως πολλαπλάσιο.

Την τελευταία δεκαετία, η χρήση disk arrays, στη θέση των tape libraries, έχει βελτιώσει αρκετά τους χρόνους για φύλαξη και ανάκτηση δεδομένων. Ωστόσο, σύμφωνα με την Gartner, μόνο στις ΗΠΑ υπάρχουν περισσότερα από 4 εκατομμύρια off-site γραφεία, στα οποία είναι αποθηκευμένο περίπου το 60% των επιχειρηματικών δεδομένων. Μεταξύ των προκλήσεων που δημιουργεί η ύπαρξη των απομακρυσμένων γραφείων είναι η έλλειψη εξειδικευμένου λογισμικού, η περιορισμένη διαθεσιμότητα bandwidth, η ανάγκη εκτέλεσης λειτουργιών χειροκίνητα και η απουσία κεντρικής διαχείρισης.

Αυτή την περίοδο, οι IT managers έχουν την προσοχή τους στραμμένη σε 4 κρίσιμα θέματα όσον αφορά την αποθήκευση δεδομένων:
• Εκσυγχρονισμός των διαδικασιών φύλαξης δεδομένων με στόχο τη δημιουργία μιας πλήρως αξιοποιήσιμης υποδομής
• Μείωση του ίχνους δεδομένων μέσα στα νομικά και ρυθμιστικά πλαίσια, με στρατηγική χρήση τεχνολογιών deduplication και archiving
• Εφαρμογή προγραμμάτων διατήρησης και αναζήτησης πληροφοριών (eDiscovery)
• Ελεγχος και ανάλυση σε όλα τα επίπεδα διαχείρισης δεδομένων.

Η πρόκληση της διαχείρισης και προστασίας των δεδομένων στο εξελισσόμενο περιβάλλον του datacenter θα οδηγήσει, σύμφωνα με την IDC, σε αύξηση των επενδύσεων περισσότερο από 5% ετησίως για την ερχόμενη τριετία. Οσον αφορά τις επενδύσεις εξειδικευμένα σε λύσεις archiving, αναμένεται να αυξηθούν με ρυθμό 11,5%, καθώς οι εταιρείες θα προσπαθούν να διαχειριστούν αποτελεσματικά τον αυξανόμενο όγκο στατικών και αδόμητων δεδομένων.


Οποιος θέλει να εξοικονομήσει χρόνο και χρήμα να σηκώσει το χέρι του
Παρά το γεγονός ότι δεν υπάρχει ακόμα ένας τυποποιημένος ορισμός για το data deduplication, οι περισσότεροι συμφωνούν ότι πρόκειται για μια τεχνολογία που ελαχιστοποιεί το χώρο που καταλαμβάνουν “άχρηστα” δεδομένα. Αν και ο όρος αναφέρεται σε αρχεία και κομμάτια αρχείων, το deduplication σε επίπεδο block, είναι περισσότερο αποτελεσματικό.

Μπορούμε για παράδειγμα να φανταστούμε 20 αντίγραφα μιας παρουσίασης, τα οποία έχουν διαφορετική ονομασία σε επίπεδο αρχείου, οπότε τα συστήματα διαχείρισης θεωρούν ότι όλα είναι μοναδικά και άρα χρήσιμα. Ωστόσο, ένα σύστημα που παρατηρεί αυτά τα αρχεία σε επίπεδο block θα ανακαλύψει την ομοιότητά τους και έτσι θα καταργήσει τα 19. Ειδικά στη διαδικασία του backup, η εφαρμογή τεχνολογίας data deduplication είναι δυνατό να αυξήσει έως και 50 φορές την αποθήκευση δεδομένων.

Ωστόσο, αυτό δεν είναι το μόνο όφελος. Η διασφάλιση της αδιάλειπτης λειτουργίας μιας επιχείρησης, ανάλογα με τους δείκτες που έχει ορίσει η διοίκηση, είναι πιθανό να απαιτεί περισσότερα από ένα backup σε διαφορετικές γεωγραφικές περιοχές και περισσότερες από μια φορές ανά ημέρα. Αυτό σημαίνει ότι τα “άχρηστα” δεδομένα θα πρέπει να ταξιδέψουν μέσα από το δίκτυο της εταιρείας, επιβαρύνοντας τη χωρητικότητά του.

Η εφαρμογή τεχνολογίας deduplication εξασφαλίζει ότι ο κάθε σταθμός backup θα λάβει μόνο αρχεία που έχουν αλλάξει και για όσα δεν έχουν αλλάξει ένα pointer πολύ μικρότερου μεγέθους από το αρχείο. Επομένως, το δίκτυο θα δεχτεί μικρότερο φορτίο. Το deduplication ταιριάζει με οποιαδήποτε εφαρμογή που υπόκειται σε διαδικασία backup, όπως email servers, βάσεις δεδομένων, διαχείριση εικόνων και video κ.λπ.

Τα οφέλη του deduplication γίνονται συνήθως ορατά μετά το πρώτο backup και ειδικά όταν μικρές αλλαγές γίνονται σε μεγάλα αρχεία.

Θεωρητικά υπάρχουν τέσσερις παράμετροι που καθορίζουν την αποτελεσματικότητα του deduplication:
α. Σε τι ποσοστό αλλάζουν τα δεδομένα που γίνονται backup,
β. Πόσο καλά συμπιέζονται τα δεδομένα από τη μητρική εφαρμογή,
γ. Ποια μεθοδολογία backup έχετε επιλέξει (full vs incremental) και
δ. Ποιος είναι ο χρόνος που θα πρέπει να παραμείνουν αποθηκευμένα τα δεδομένα.

Στην αγορά είναι διαθέσιμες αρκετές εφαρμογές, οι οποίες βάσει των παραπάνω παραμέτρων δίνουν μια εικόνα του συνολικού οφέλους.

Ποια από τις τρεις μεθόδους deduplication είναι η καταλληλότερη;
Θα δώσουμε από την αρχή την απάντηση που έτσι και αλλιώς μάλλον την έχετε σκεφθεί. Δεν υπάρχει μια καταλληλότερη μέθοδος, αλλά αυτή που είναι περισσότερο κατάλληλη για τις ανάγκες της επιχείρησής σας. Οι περισσότεροι όταν κάνουμε επιλογή ενός προϊόντος ή μιας υπηρεσίας προσπαθούμε να σιγουρευτούμε ότι προσφέρει τα πιο σημαντικά από αυτά που περιμένουμε. Για παράδειγμα, ένα κινητό τηλέφωνο θέλουμε να προσφέρει αρκετό χρόνο λειτουργίας χωρίς επαναφόρτιση. Οι πιο συνηθισμένες προσεγγίσεις όσον αφορά το data deduplication είναι οι εξής;

Source: Αυτή η μέθοδος συγκρίνει blocks, αρχεία, bytes κ.λπ. από τα πηγαία δεδομένα και στη συνέχεια προσδιορίζει ποια δεδομένα πρέπει να μεταφερθούν.
Background task: Πάλι γίνεται σύγκριση blocks, αρχείων, bytes κ.λπ. στην ολοκληρωμένη τους μορφή, βρίσκοντας κοινά στοιχεία και μειώνει το χώρο που αυτά καταλαμβάνουν στα αποθηκευτικά μέσα. Αυτό επιτυγχάνεται με τη χρήση pointers. Ορισμένες φορές αυτή η μέθοδος ορίζεται ως post-processing.

Inline deduplication: Ταυτόχρονα με τη λήψη των δεδομένων σε κάποιο σύστημα αποθήκευσης, το λογισμικό θα προσδιορίσει εάν υπάρχουν κοινά blocks, αρχεία, bytes κ.λπ. πριν κάνει την εγγραφή τους στο σύστημα προορισμού.

Δυστυχώς δεν υπάρχει κάποιος γενικός κανόνας επιλογής της κατάλληλης μεθόδου, αλλά κάποιες παρατηρήσεις που ο κάθε Διευθυντής Πληροφορικής μπορεί να κάνει στο πλαίσιο των δικών του πληροφοριακών υποδομών.

Για παράδειγμα, όταν το deduplication συνδυάζεται με εφαρμογές που συμπιέζουν σε μεγάλο ποσοστό τα δεδομένα, όπως για παράδειγμα ένα SQL Lightspeed backup, η αποτελεσματικότητά του είναι περιορισμένη. Οταν μια βάση δεδομένων 40 ΤΒ συμπιέζεται στα 5 TB, τότε λίγα παραπάνω μπορεί να προσφέρει το deduplication. Αντιθέτως, σε μη συμπιεσμένα δεδομένα, όπως για παράδειγμα τα mailboxes σε ένα Exchange server, το deduplication έχει πολύ δουλειά να κάνει και μπορεί να επιτύχει εξοικονόμηση χώρου έως και 40:1.

Σύμφωνα με τον Hamish Macathur, CEO της Macarthur Stroud International, η οποία εξειδικεύεται στην έρευνα και ανάλυση δεδομένων, “Η τεχνολογία deduplication είναι αρκετά ώριμη για να δημιουργήσει οφέλη σε μια περίοδο που χαρακτηρίζεται από τον αυξανόμενο όγκο πληροφοριών.

Ωστόσο, υπάρχουν και κάποια εμπόδια. Κλειδί για την επιτυχία είναι ένας προσεκτικός σχεδιασμός της διαδικασίας, ώστε να διασφαλιστεί ότι τα δεδομένα όχι μόνο είναι σωστά προστατευμένα, αλλά θα είναι και διαθέσιμα τόσο σύντομα όσο απαιτεί η κρισιμότητά τους.


Το δέσιμο με τον προμηθευτή
Η τεχνολογία deduplication βασίζεται σε έξυπνους αλγόριθμους που επιτρέπουν τη διάκριση των κοινών στοιχείων σε μεγάλο πλήθος δεδομένων. Η κάθε εταιρεία επιχειρηματολογεί πάνω στην αξία των δικών της αλγορίθμων και πιθανώς αυτή είναι μια βασική ειδοποιός διαφορά όσον αφορά την επιλογή προμηθευτή.

Ωστόσο, αυτό που δεν γίνεται ευρύτερα γνωστό είναι ότι το “δέσιμο” με τον εκάστοτε αλγόριθμο μεταφράζεται και σε δέσιμο με τον προμηθευτή.

Επομένως, η εταιρεία χρειάζεται να έχει εξασφαλίσει εξ’ αρχής ότι ο προμηθευτής έχει τη δυνατότητα να την καλύψει τις τρέχουσες και μελλοντικές της ανάγκες, με την εξέλιξη των προϊόντων του, με ολοκληρωμένο πακέτο υπηρεσιών και με συμβατότητα του λογισμικού με μεγάλη ποικιλία μέσων αποθήκευσης.

Πώς η Ordnance Survey εξοικονόμησε 70.000 ευρώ ετησίως και ο Mark Hunt 12 ώρες την εβδομάδα
Η Ordnance Survey, με έδρα το Southampton, εξειδικεύεται στη δημιουργία χαρτών για επαγγελματική χρήση. Η εταιρεία διαχειρίζεται περισσότερα από 700 TB πληροφορίας και χρειάζεται να κάνει backup περίπου 100 TB κάθε εβδομάδα. Πριν από τη χρήση deduplication, η εταιρεία χρησιμοποιούσε 3 tape libraries με 24 LTO-1 drives συνολικά.

Σύμφωνα με τον Mark Hunt, ο οποίος είχε στην ευθύνη του την τεχνική υποστήριξη του συστήματος, το μόνιμο πρόβλημα ήταν η επάρκεια του χώρου στα tapes. Μέσα σε 5 χρόνια, η εταιρεία έφτασε από τα 10 ΤΒ στα 600 ΤB. “Αγοράζαμε περίπου 200 κασέτες κάθε μήνα”, λέει ο Mark Hunt “και ξοδεύαμε αρκετό χρόνο, ειδικά μέσα στα σαββατοκύριακα για να σιγουρευτούμε ότι υπάρχουν άδειες κασέτες που θα μπορούσαμε να γεμίσουμε”. Εφαρμόζοντας μια λύση deduplication στη βάση δεδομένων, η εταιρεία είδε αρχικά μια αναλογία συμπίεσης 10:1, η οποία μετά ανέβηκε στο 50:1.

Η εξοικονόμηση κόστους και χρόνου ενθάρρυνε την εταιρεία να προχωρήσει και στη δημιουργία ενός δεύτερου backup συστήματος off-site, εξασφαλίζοντας περισσότερο τα δεδομένα της. Ωστόσο, τα αποτελέσματα ήταν ακόμα πιο εντυπωσιακά, όταν η εταιρεία εφάρμοσε το deduplication σε 200 virtual servers, οι οποίοι κατά κύριο λόγο εξυπηρετούσαν βάσεις δεδομένων.

Σύμφωνα με τον Mark Hunt, ο βαθμός συμπίεσης έφτασε 100:1. Η εταιρεία εκτιμά ότι με τη λύση που εφάρμοσε εξοικονομεί περίπου 70.000 ευρώ ανά έτος, πέρα από τα οφέλη που προκύπτουν από τη μείωση της ενέργειας για τα συστήματα και την ψύξη τους. Επίσης, ο Mark Hunt μείωσε κατά 12 ώρες την εβδομάδα το χρόνο που χρειάζονταν για τη διαχείριση του backup συστήματος με τις κασέτες.

Σήμερα, η εταιρεία έχει αυτοματοποιήσει πλήρως τη διαδικασία μεταξύ των δύο sites και κατά μέσο όρο ωφελείται από συμπίεση της τάξης του 22:1. Επιπλέον, η εταιρεία πραγματοποιεί περισσότερες από 20 ανακτήσεις δεδομένων ανά εβδομάδα, χωρίς μέχρι στιγμής να έχει παρουσιαστεί κάποιο πρόβλημα.

12 φορές ταχύτερη ανάκτηση δεδομένων
H IFB λειτουργεί από το 1996 στον τομέα παροχής υπηρεσιών Internet. Διαθέτει τρία σημεία παρουσίας στο Λονδίνο, το Αμπερτίν και το Εδιμβούργο, τα οποία συνδέονται μεταξύ τους με multi-gigabit δίκτυο.

Στο πελατολόγιο της εταιρείας περιλαμβάνονται κυβερνητικοί οργανισμοί, μεγάλες επιχειρήσεις, καθώς επίσης μικρομεσαίες επιχειρήσεις και ιδιώτες.
Για πολλούς πελάτες, η IFB αποτελεί ουσιαστικά μια επέκταση του δικού τους IT τμήματος.

Αυτό σημαίνει ότι η λειτουργία της πρέπει να διέπεται από τα ίδια ή υψηλότερα πρότυπα ποιότητας με αυτά που αφορούν την εσωτερική λειτουργία της εταιρείας.
Ο Graeme Gordon, Operations Director της IFB, διαπιστώνει την εκθετική αύξηση σε υπηρεσίες backup δεδομένων τα τελευταία χρόνια.

“Οι πελάτες μας εναποθέτουν στη δική μας ευθύνη αυξανόμενο όγκο πληροφοριών και εμείς δεν πρέπει να τους απογοητεύσουμε”, δηλώνει ο Graeme Gordon.
Oταν η εταιρεία αποφάσισε να αναβαθμίσει την υποδομή της για να προσφέρει καλύτερες υπηρεσίες backup θεώρησε απαραίτητη την επένδυση σε τεχνολογία deduplication.

Το πιο άμεσο και σημαντικό αποτέλεσμα για την εταιρεία είναι η ταχύτητα με την οποία οι πελάτες έχουν πλέον τη δυνατότητα να ανακτούν τα δεδομένα τους. “Βελτιώσαμε την ταχύτητα ανάκτησης από δίσκους πρώτης γραμμής κατά 12 φορές”, λέει ο Graeme Gordon και συμπληρώνει ότι “καθώς το σύστημα ωριμάζει, αναμένεται να ελαττώσουμε τον απαιτούμενο χώρο αποθήκευσης περίπου 20:1”. Εφαρμόζοντας ένα πλάνο υπολογισμού του ROI ανά πελάτη, η IFB ισχυρίζεται ότι για τον πρώτο πελάτη που αξιοποίησε τη νέα υποδομή, η απόσβεση έγινε σε χρόνο τεσσάρων εβδομάδων.