Τα στελέχη πληροφορικής γνωρίζουν πολύ καλά τις πιέσεις που δημιουργεί η ακόρεστη ανάγκη για αποθήκευση δεδομένων. To deduplication, καταργώντας την αποθήκευση των ίδιων δεδομένων σε πολλαπλά αντίγραφα, αποτελεί μια από τις σημαντικότερες τεχνολογίες που μπορούν να διαμορφώσουν μια νέα εικόνα στις υποδομές πληροφορικής.

Το deduplication αντιμετωπίζει ένα συνηθισμένο πρόβλημα στη διαχείριση των εταιρικών δεδομένων: την ύπαρξη πολλών περιπτώσεων στις οποίες τα ίδια ακριβώς δεδομένα αποθηκεύονται πολλές φορές. Αρκεί να σκεφθεί κανείς την περίπτωση λήψης του ίδιου email attachment από πολλούς χρήστες ή μια παρουσίαση που έχει αποθηκευτεί σε διαφορετικές εκδόσεις, με μικρές αλλαγές μεταξύ τους.

Η τεχνολογία αυτή βασίζεται στην ομαδοποίηση τμημάτων δεδομένων (chunking) και τη σύγκρισή τους με στόχο την εύρεση πανομοιότυπων τμημάτων. Στη συνέχεια, κάθε τμήμα αποθηκεύεται μια φορά μόνο, ενώ ταυτόχρονα δημιουργείται και ανανεώνεται ένα αρχείο δεικτών για τα κοινά δεδομένα. Η τεχνολογία παρέχει απόλυτη διαφάνεια και σε καμία περίπτωση οι τελικοί χρήστες δεν αντιλαμβάνονται διαφορά στην πρόσβαση στα δεδομένα τους.

Η υλοποίηση κάνει τη διαφορά
Η εφαρμογή της τεχνολογίας deduplication μπορεί να γίνει με διάφορες μεθόδους. Η επιλογή συγκεκριμένης μεθόδου είναι καθοριστική για τα χαρακτηριστικά της πρότασης κάθε κατασκευαστή. Μια πρώτη ταξινόμηση των υλοποιήσεων αφορά στην επιλογή του «σημείου» στο οποίο πραγματοποιείται το deduplication. Αν πραγματοποιηθεί από την πρώτη στιγμή που ζητείται η αποθήκευση δεδομένων, ώστε να αποθηκεύονται απευθείας deduplicated δεδομένα, τότε έχουμε το inline deduplication.

Αν τα δεδομένα αποθηκεύονται πρωτογενώς στο αποθηκευτικό σύστημα και οι διαδικασίες deduplication λαμβάνουν χώρα μεταγενέστερα, τότε έχουμε να κάνουμε με το post-process deduplication. Παράλληλα με τη διαδικασία deduplication μπορεί να πραγματοποιηθεί και συμπίεση δεδομένων. Η συνδυασμένη λύση inline deduplication με ταυτόχρονη συμπίεση δεδομένων, αναφέρεται ως combined deduplication. Ενα δεύτερο σημείο διαφοροποίησης αφορά στο αν το deduplication πραγματοποιείται πριν ή μετά τη μεταφορά των δεδομένων στο δίκτυο. Αν πραγματοποιείται πριν τη μεταφορά (source based), επιτυγχάνεται μείωση του όγκου δεδομένων που διακινούνται στο δίκτυο, με τίμημα την υπολογιστική ισχύ που απαιτείται από τον client server.

Αντίθετα, στην περίπτωση που η διαδικασία εκτελείται στο αποθηκευτικό σύστημα (target), τότε είναι ευθύνη του backup server ή του hardware του συστήματος αποθήκευσης. Στη δεύτερη περίπτωση μεταφέρεται μεγαλύτερος όγκος δεδομένων στο δίκτυο, αλλά δεν επιβαρύνονται σε φορτίο οι client servers. Διάκριση υπάρχει επίσης μεταξύ hardware και software υλοποίησης του deduplication. Στις περιπτώσεις λύσεων software, το deduplication εκτελείται από μια εφαρμογή – όπως για παράδειγμα την εφαρμογή backup. Στην περίπτωση αυτή απαιτούνται τόσο υπολογιστικοί πόροι στον server που εκτελεί την εφαρμογή, όσο και η αγορά των αντίστοιχων αδειών χρήσης.

Τα οφέλη για τους χρήστες και για τους διαχειριστές συστημάτων
Η εφαρμογή της τεχνολογίας deduplication δεν αξιοποιεί απλά τα συστήματα αποθήκευσης περιορίζοντας τις ανάγκες αγοράς νέας χωρητικότητας, αλλά ταυτόχρονα δίνει δυνατότητα στη Διεύθυνση Πληροφορικής να παρέχει καλύτερες υπηρεσίες στους τελικούς χρήστες. Διαδικασίες ανάκτησης παλαιότερα αποθηκευμένων δεδομένων, μπορούν να υλοποιηθούν ταχύτερα, αλλά και σε μεγαλύτερο βάθος χρόνου με τη χρήση τεχνολογίας deduplication, ανατρέχοντας άμεσα στα δεδομένα που υπάρχουν σε σκληρούς δίσκους χωρίς να καταφεύγουμε σε tape backups.

Σε ότι αφορά στα «αριθμητικά» οφέλη που έχουμε με την τεχνολογία deduplication, η απάντηση είναι μονολεκτική: εντυπωσιακά. Προχωρώντας στις λεπτομέρειες, η τελική απόδοση εξαρτάται μεταξύ άλλων από τη φύση των δεδομένων που ποθηκεύει ένας οργανισμός και από το χρόνο διατήρησής τους. Εσωτερικές δοκιμές της Dell οδηγούν σε μέσους όρους 15x. Η σχέση αυτή μεταξύ της αρχικής -χωρίς χρήση deduplication- με την τελική χωρητικότητα -μετά την εφαρμογή deduplication- αναφέρεται συχνά ως deduplication ratio.  Ο μέσος όρος 15x, αφορά στη λήψη backup με διατήρηση δεδομένων για διάστημα 30-90 ημερών. Αν σε κάποιο οργανισμό τα δεδομένα διατηρούνται περισσότερο χρόνο, είναι πολύ πιθανό να προκύψουν ακόμα πιο εντυπωσιακά αποτελέσματα.