To deduplication στα backup δεδομένα ήταν μια δυνατή τάση το 2008 και συνεχίζει να είναι το 2009. Ωστόσο, η τεχνολογία πλέον κινείται και προς την αγορά του primary storage.

Στη διαδικασία του deduplication, με τη χρήση κατάλληλου λογισμικού, αφαιρούνται από τα συστήματα αποθήκευσης πλεονάζοντα δεδομένα, με αποτέλεσμα περισσότερο ελεύθερο χώρο και άρα μείωση του ρυθμού αύξησης του κόστους αποθήκευσης και καλύτερη ροή δεδομένων, λόγω επιτάχυνσης της διαδικασίας αναζήτησης. Εμμεσο όφελος είναι και η εξοικονόμηση ενέργειας, τόσο λόγο της μείωσης του απαιτούμενου χώρου αποθήκευσης, όσο και λόγω του μικρότερου χρόνου λειτουργίας των δίσκων, δεδομένης της ταχύτερης αναζήτησης.

Για παράδειγμα ένα τυπικό email σύστημα μπορεί να περιέχει μέχρι και 100 αντίτυπα  του ίδιου αρχείου, το οποίο έχει επισυναφθεί σε διαφορετικά emails. Στη διαδικασία του backup ένα επισυναπτόμενο αρχείο του 1MB συνεπάγεται 100MB αποθηκευτικού χώρου. Αν όμως κάποιο σύστημα φροντίσει ώστε το επισυναπτόμενο αρχείο να γίνει backup μόνο μια φορά, τότε ο απαιτούμενος αποθηκευτικός χώρος θα ξεπερνά ελάχιστα το 1MB.

Από το 2004 και έπειτα, όταν παρουσιάστηκαν οι πρώτες λύσεις deduplication, οι εταιρείες αγκάλιασαν τη νέα τεχνολογία, με αποτέλεσμα μέχρι και το 2008 να αυξάνεται με διψήφιο ρυθμό το μέγεθος της αγοράς. Ωστόσο, οι αυξανόμενες ανάγκες των εταιρειών σε συστήματα αποθήκευσης και η προσπάθεια για μείωση της ενεργειακής κατανάλωσης, έφεραν το deduplication από το παρασκήνιο των backup συστημάτων στο προσκήνιο των primary data.

Σύμφωνα με την εταιρεία ερευνών Gartner, το 20% του όγκου των επιχειρηματικών δεδομένων παγκοσμίως, θα συνδέεται με κάποια τεχνολογία συμπίεσης ή/και deduplication μέχρι το 2014, όταν για το 2009, το ποσοστό αναμένεται να είναι περίπου στο 7%.

Διαφορετικές τεχνικές στοχεύουν στο ίδιο αποτέλεσμα
Για τη μείωση του όγκου δεδομένων έχουν αναλάβει την ευθύνη διαφορετικές τεχνικές. Ορισμένες έχουν γνωρίσει ήδη σημαντική αποδοχή, όπως η συμπίεση, κάποιες εστιάζουν κυρίως σε εφαρμογές, όπως το Single-Instance Storage (SIS), ενώ άλλες όπως το deduplication έχουν επιφορτιστεί κυρίως με το ξεκαθάρισμα των backup. Σύμφωνα με τη Gartner, έχουν υλοποιηθεί σχεδόν 44.000 συστήματα deduplication, εκ των οποίων περισσότερο από το 85% έχουν εφαρμοστεί σε backup συστήματα, επειδή αυτή η υλοποίηση είναι ευκολότερη και χαμηλότερου κόστους.

Η κατάσταση αυτή αναμένεται να αλλάξει στο άμεσο μέλλον, καθώς οι εταιρείες ανακαλύπτουν ότι, υλοποιώντας λύσεις deduplication στα primary data, μπορούν να πετύχουν μείωση του χώρου αποθήκευσης ακόμα και σε ποσοστό που προσεγγίζει το 100%. Μεγάλα αρχεία δεδομένων, αποθηκευτικά μέσα που μοιράζονται διαφορετικές εφαρμογές μέσω εικονοποίησης, ταινίες και φωτογραφίες και πολλά μικρά αρχεία χρηστών που αποθηκεύονται σε κάποιο κοινό μέσο, είναι οι βασικοί στόχοι για τις λύσεις μείωσης των primary data.

Βέβαια δεν είναι δυνατό, όλα τα primary data να αποτελέσουν τροφή για deduplication συστήματα. Σε εφαρμογές που απαιτούν υψηλούς ρυθμούς I/O, τα προβλήματα που μπορεί να δημιουργηθούν από την μη παροχή δεδομένων σε πραγματικό χρόνο αποσβένουν τα οφέλη από τη μείωση του κόστους αποθήκευσης.


Συμπληρωματικές οι τεχνικές μείωσης δεδομένων
Οι τεχνικές συμπίεσης, για τις οποίες τα πρώτα ερευνητικά βήματα έγιναν στις αρχές της δεκαετίας του 50, αποτέλεσαν την πρώτη προσπάθεια για μείωση του αποθηκευτικού χώρου δεδομένων. Οι λύσεις συμπίεσης κωδικοποιούν τα δεδομένα με τη χρήση μαθηματικών αλγορίθμων και στη συνέχεια τα αποκωδικοποιούν όταν πρέπει να είναι διαθέσιμα. Οι τεχνικές συμπίεσης είναι πλέον τόσο διαδεδομένες που ορισμένοι χρήστες ίσως να μη γνωρίζουν καν ότι τα δεδομένα τους είναι σε συμπιεσμένη μορφή στον αποθηκευτικό τους χώρο, όπως για παράδειγμα σε ένα tape drive.

Μάλιστα, δεδομένων των σύγχρονων μεθόδων συμπίεσης και αποσυμπίεσης, οι οποίες δεν απαιτούν την πλήρη αποσυμπίεση ενός αρχείου ώστε να είναι αναγνώσιμο, η διαφανής λειτουργία της συγκεκριμένης τεχνολογίας έχει μεγιστοποιηθεί.

Ο όρος Single-Instance Store χρησιμοποιήθηκε για να περιγράψει μια νέα προσέγγιση μείωσης δεδομένων, στην οποία ένα μοναδικό αντίγραφο ενός αρχείου θα ανακτηθεί από ένα σύστημα αποθήκευσης, ακόμα και αν εκατοντάδες ή χιλιάδες αντίγραφα του συγκεκριμένου αρχείου απαιτούνται από διαφορετικούς χρήστες.

Στην τεχνική του deduplication, κάθε αρχείο χωρίζεται σε μικρότερα κομμάτια και κάθε κομμάτι συγκρίνεται με ένα κατάλογο αναφοράς, ο οποίος έχει δημιουργηθεί από το κατάλληλο λογισμικό και βρίσκεται αποθηκευμένος σε ένα σύστημα με δυνατότητες μείωσης δεδομένων. Μια μικρή αλλαγή κάποιου αρχείου προκαλεί την προσθήκη ενός δείκτη, και όχι επαναποθήκευση ολόκληρου του αρχείου, ενώ όταν ένα καινούργιο τμήμα αρχείου εμφανίζεται για πρώτη φορά, δημιουργείται ένα αντίγραφό του και αποθηκεύεται για μελλοντική σύγκριση.

Σύμφωνα με την εμπειρία που έχει συγκεντρωθεί από την υλοποίηση διαφορετικών λύσεων, το deduplication μπορεί να εξοικονομήσει σημαντικό χώρο αποθήκευσης, συνήθως περισσότερο από την προσέγγιση SIS, η οποία εξοικονομεί χώρο αποθηκεύοντας ένα ολόκληρο αντίτυπο του αρχείου.

Οι παραπάνω τεχνικές δεν είναι αλληλοαποκλειόμενες. Σήμερα, αρκετές εταιρείες εφαρμόζουν τεχνικές συμπίεσης, σε δεδομένα που έχουν προέλθει από κάποια διαδικασία deduplication.

Ραγδαία η αποδοχή του deduplication τα ερχόμενα χρόνια
Αν και η Gartner εκτιμά ότι το deduplication δεδομένων σε backup storage χρησιμοποιείται περίπου στο 7% των backups σε παγκόσμιο επίπεδο, πρόκειται για μια τεχνολογία που γνωρίζει ταχύτατη αποδοχή. Τα αποτελέσματα διαφορετικών ερευνών σε παγκόσμιο επίπεδο δείχνουν ότι το 73% των ερωτηθέντων σχεδιάζουν να επενδύσουν σε λύσεις deduplication, τουλάχιστον για ένα ποσοστό των backup αποθηκευτικών συστημάτων. Μάλιστα, οι λύσεις αυτές βρίσκονται ψηλότερα στις προτιμήσεις των ερωτηθέντων συγκρινόμενες με άλλες νέες τεχνολογίες αποθήκευσης, όπως τα solid state drives.

Οσον αφορά τα primary data, εμπόδια που μπορεί να επιβραδύνουν την αποδοχή του deduplication είναι ο κίνδυνος της απώλειας δεδομένων, αλλά και της βιωσιμότητας του προμηθευτή, η μείωση του κόστους αποθηκευτικών μέσων και η απόδοση των συστημάτων στη ανάκτηση των δεδομένων.

Τομείς με μεγάλους όγκους δεδομένων, όπως υπηρεσίες photo sharing, studio παραγωγής ταινιών, ιατρικά αρχεία και επιστημονικά κέντρα, είναι πιθανό να ωφεληθούν περισσότερο από τεχνικές primary data deduplication.

Παρομοίως, οργανισμοί που έχουν μεγάλες ποσότητες διαμοιρασμένων αρχείων στο ίδιο δίκτυο, ειδικά με παρόμοια αρχεία ή πολλά πλεονάζοντα αντίγραφα του ίδιου αρχείου, όπως για παράδειγμα φύλλα εργασίας, παρουσιάσεις κ.λπ. είναι πιθανό να ελαττώσουν την απαιτούμενη χωρητικότητα των μέσων αποθήκευσης από 3 έως 7 φορές ή ακόμα περισσότερο σε κάποιες περιπτώσεις.

Αν και με την πρώτη ματιά φαίνεται ότι οι κατασκευαστές δίσκων θα είναι οι χαμένοι από τις λύσεις deduplication, η αύξηση του όγκου των νέων δεδομένων είναι πολύ πιθανό να ξεπερνά τη μείωση που επιτυγχάνεται. Πρόκειται για ένα φαινόμενο που έχει ξανασυμβεί στις αρχές της δεκαετίας του 90, όταν η IBM παρουσίασε λύσεις συμπίεσης για τις σειρές mainframe. Αν και οι λύσεις της IBM πέτυχαν μείωση του όγκου κατά δύο ως τρεις φορές, τελικά η αγορά παρουσίασε αύξηση στη ζήτηση μέσων αποθήκευσης.