Η μέθοδος του deduplication των δεδομένων αποτελεί μία εξέλιξη της συμπίεσης. Η χρήση της τεχνολογίας αυτής οδηγεί σε δραματική μείωση του κόστους αποθήκευσης, βελτιώνει τους χρόνους backup και recovery και αλλάζει τον τρόπο προστασίας των δεδομένων.

<‘Σελίδα 1: Ο νέος αλγόριθμος της συμπίεσης και πώς λειτουργεί το deduplication’>
Ο όρος data deduplication ακούγεται ολοένα και συχνότερα τους τελευταίες μήνες – και δη στον τραπεζικό κλάδο. Καθώς οι προμηθευτές εξελίσσουν τις λύσεις τους, αυξάνονται οι οργανισμοί που στρέφονται στην τεχνολογία αυτή για να βελτιώσουν τα κόστη και την αποτελεσματικότητα της αποθήκευσης δεδομένων.

Αυτό που διαφοροποιεί το deduplication είναι το γεγονός ότι αφορά τη μείωση του όγκου των δεδομένων σε συνολικό επίπεδο και ότι η γνώση σχετικά με παλαιότερα δεδομένα διατηρείται και επανεξετάζεται καθώς προστίθενται νέα δεδομένα

Ο νέος αλγόριθμος της συμπίεσης
Οι τεχνικές συμπίεσης χρησιμοποιούν τους αλγόριθμους για να κωδικοποιήσουν τα δεδομένα και να τα αντιπροσωπεύσουν με λιγότερα bits. Τα τελευταία χρόνια, ο όρος «single instance store» (SIS) έχει χρησιμοποιηθεί για να περιγράψει κάποιες προσεγγίσεις μείωσης του όγκου των δεδομένων.

Στο πλαίσιο του SIS, κρατείται μόνο ένα αντίγραφο κάθε αρχείου, ακόμα και εάν υπάρχουν δεκάδες -ή χιλιάδες- από αυτά στο data store. Ως data store νοείται ένα file system, message repository ή archive. Οι αλγόριθμοι του SIS δεν έχουν την απαίτηση να ανήκουν όλα τα αρχεία στον ίδιο χρήστη ή να έχουν την ίδια ονομασία, ώστε να αναγνωριστούν ως αντίγραφα. Οταν χρησιμοποιείται το SIS, αποθηκεύεται μόνο ένα αντίγραφο κάθε αρχείου. Αντί για διπλά αντίγραφά του, δημιουργούνται παραπομπές στο ένα αυτό αρχείο, μειώνοντας τις απαιτήσεις για χωρητικότητα. Κοινά παραδείγματα προϊόντων που χρησιμοποιούν το SIS είναι τα συστήματα e-mail, τα προϊόντα archiving και οι λύσεις προστασίας δεδομένων.

Το deduplication εξελίσσει την έννοια της μείωσης των δεδομένων του SIS ακόμα περισσότερο. Το deduplication χρησιμοποιεί λογάριθμους αναγνώρισης δεδομένων και σύγκρισης ώστε να μειώσει δραματικά τις απαιτήσεις των μεμονωμένων objects όσον αφορά τη χωρητικότητα. Επιτυγχάνει το παραπάνω αποθηκεύοντας μόνο αυθεντικά «κομμάτια» (chunks) δεδομένων και καταργώντας τον όποιο πλεονασμό σε αναλυτικότερο επίπεδο. Ενώ το SIS αναζητά και διαγράφει τα αντίγραφα σε επίπεδο αρχείου, το deduplication είναι πιο λεπτομερές και κάνει τη σύγκριση ακόμα και με δεδομένα που είχαν αποθηκευτεί νωρίτερα.

Οι λύσεις deduplication ποικίλουν ως προς το πόσο «μοριακές» είναι, αλλά αφορούν συνήθως κομμάτια δεδομένων της τάξης των 4 με 24ΚΒ. Το πλεονέκτημα της προσέγγισης αυτής της εξέτασης των δεδομένων σε επίπεδο subfile είναι ότι προλαμβάνει την επανάληψη κομματιών δεδομένων μεταξύ διαφορετικών αρχείων ή εφαρμογών. Πρόκειται για μία δυνατότητα την οποία δεν διαθέτει το SIS.

Πώς λειτουργεί το deduplication
Οταν σκεφτόμαστε τον όρο συμπίεση, τείνουμε να εστιάζουμε στην ελαχιστοποίηση του όγκου ενός και μόνο αρχείου ή backup. Αυτό που διαφοροποιεί το deduplication είναι το γεγονός ότι αφορά τη μείωση του όγκου των δεδομένων σε συνολικό επίπεδο και ότι η γνώση σχετικά με παλαιότερα δεδομένα διατηρείται και επανεξετάζεται καθώς προστίθενται νέα δεδομένα. Θα μπορούσαμε να περιγράψουμε τον τρόπο λειτουργίας του deduplication μέσα από την αναφορά σε ένα έγγραφο επεξεργασίας κειμένου το οποίο έχει όγκο 500KB και αποστέλλεται σε 100 στελέχη του οργανισμού. Οι συμβατικές εφαρμογές backup θα έκαναν backup του αρχείου αυτού 100 φορές. Οι λύσεις SIS θα έκαναν ένα αρχείο μόνο backup και θα δημιουργούσαν μερικά μεταδεδομένα ώστε να δημιουργηθούν 99 αναφορές προς το ένα και μοναδικό πλήρες αντίγραφο.

Ας υποθέσουμε τώρα ότι και οι 100 παραλήπτες τροποποιούν το αρχείο και δημιουργούν μία μικρή αλλαγή: προσθέτουν το ονοματεπώνυμό τους στην πρώτη σελίδα. Αν υποθέσουμε ότι όλα αυτά τα ονόματα είναι διαφορετικά μεταξύ τους, η προσέγγιση του SIS θα οδηγούσε στη δημιουργία 100 αντιγράφων back up. Αντιθέτως, η προσέγγιση του deduplication θα εντόπιζε το γεγονός ότι το μεγαλύτερο κομμάτι του αρχείου είναι κοινό και θα αποθήκευε το κεντρικό του κομμάτι μία φορά, μαζί με άλλα 100 -ή και λιγότερα- μικρότερα κομμάτια δεδομένων τα οποία θα αντιστοιχούσαν στα διαφορετικά ονόματα. Ο λόγος για τον οποίον ο αριθμός αυτός θα μπορούσε να είναι μικρότερος του 100 είναι το ότι ενδέχεται κάποια ονόματα ή επώνυμα να επαναλαμβάνονται.
<‘here’>


<‘Σελίδα 2: Τα οφέλη του deduplication σε πολλαπλά επίπεδα’>
Οφέλη σε πολλαπλά επίπεδα
Τα οφέλη του deduplication αφορούν την εξοικονόμηση πόρων και εντοπίζονται σε πολλαπλά επίπεδα. Το βασικό πλεονέκτημα είναι η ουσιαστική μείωση του χώρου που απαιτείται στο δίσκο για την αποθήκευση ενός συγκεκριμένου όγκου δεδομένων. Οι προμηθευτές ισχυρίζονται ότι η εξοικονόμηση χωρητικότητας κυμαίνεται μεταξύ 20:1 και 400:1. Πελάτες της Gartner οι οποίοι έχουν εγκαταστήσει τεχνολογία deduplication αναφέρουν μειώσεις της τάξης του 18:1 έως 300:1.

Τα πραγματικά ποσοστά ποικίλουν ανάλογα με το ποσό των δεδομένων που πλεονάζουν, τους ρυθμούς αλλαγής αυτών και τη μεθοδολογία του backup. Οσο πιο συχνά γίνεται ένα πλήρες backup, τόσο υψηλότερο το ποσοστό του deduplication.

Το deduplication θα μπορούσε να βοηθήσει τις εταιρείες όλων των μεγεθών να εξετάσουν το ενδεχόμενο της χρήσης του δίσκου ως στόχου για backup. Το βελτιωμένο backup που βασίζεται σε δίσκο συνοδεύει και η δυνατότητα για restore από το δίσκο και για βελτίωση των χρόνων recovery

Ανάλογα με την εγκατάσταση, μπορεί να προκύπτει και εξοικονόμηση bandwidth στον όγκο των δεδομένων που μεταφέρονται στο δίκτυο. Αλλες θετικές επιπτώσεις είναι η μείωση σε κατανάλωση ισχύος και ψύξης, καθώς και του φυσικού μεγέθους των συσκευών αποθήκευσης ως αποτέλεσμα της χρήσης μικρότερης φυσικής χωρητικότητας. Επίσης βασικό πλεονέκτημα του deduplication είναι η δυνατότητα βελτίωσης των service-level agreements που αφορούν την ανάκαμψη της λειτουργίας. Το  backup σε δίσκο μπορεί να βελτιώσει τα «παράθυρα» του backup και να επιτρέψει στους πόρους της παραγωγής να επιστρέψουν ταχύτερα στη φυσιολογική λειτουργία, ελαχιστοποιώντας των αντίκτυπο του backup στις δραστηριότητες αυτές. Στην πραγματικότητα, βέβαια, είναι πολλοί οι οργανισμοί που δεν έχουν ενσωματώσει το δίσκο στο περιβάλλον του backup ή που βασίζονται στο δίσκο σε μικρό μόνο ποσοστό.

Το deduplication μπορεί να αλλάξει σημαντικά  τα οικονομικά στοιχεία όσον αφορά το πόσος δίσκος χρειάζεται για την αποθήκευση συγκεκριμένων δεδομένων για συγκεκριμένη χρονική περίοδο, επιτρέποντας στους χρήστες να περάσουν από μία διάρκεια ημερών ή εβδομάδων σε μία περίοδο εβδομάδων ή μηνών διατήρησης των δεδομένων online και, σε κάποιες περιπτώσεις, ενός περιβάλλοντος χωρίς κασέτα.

Σαν αποτέλεσμα, το deduplication μπορεί να επηρεάσει θετικά και τους χρόνους του restore γιατί, όσο πιο πολύ μπορεί κανείς να κρατήσει τα δεδομένα στο δίσκο, τόσο μεγαλύτερη είναι η πιθανότητα να ικανοποιηθεί ένα αίτημα για restore από αντίγραφο σε δίσκο, παρά από ένα αργότερο μέσο όπως η κασέτα. Το deduplication θα μπορούσε να βοηθήσει τις εταιρείες όλων των μεγεθών να εξετάσουν -ή να επεκτείνουν- το ενδεχόμενο της χρήσης του δίσκου ως στόχου για backup. Το βελτιωμένο backup που βασίζεται σε δίσκο συνοδεύει και η δυνατότητα για restore από το δίσκο και για βελτίωση των χρόνων recovery.
<‘here’>


<‘Σελίδα 3: Διαφορετικές προσεγγίσεις και επιλογές προϊόντων deduplication και σχετικών αρχιτεκτονικών’>
Μία σειρά από διαφορετικές προσεγγίσεις
Υπάρχουν πολλές επιλογές όσον αφορά τα διαφορετικά προϊόντα deduplication προς εγκατάσταση και τις σχετικές αρχιτεκτονικές.

Client-Side ή Target-Side: Το deduplication μπορεί να γίνει είτε client-side (στο προστατευμένο μηχάνημα), είτε target-side (αφού τα δεδομένα τεθούν σε επεξεργασία από το λογισμικό του backup. Πλεονέκτημα της αρχιτεκτονικής client-side είναι το ότι τα διπλά δεδομένα καταργούνται προτού να μεταδοθούν στο δίκτυο. Με τον τρόπο αυτό, αυξάνουν την αποτελεσματικότητα του bandwidth του δικτύου, γεγονός που με τη σειρά του μειώνει δραματικά το χρόνο που απαιτείται για τη μετάδοση των δεδομένων -ιδίως στα WAN. Ενδεχόμενα μειονεκτήματα της προσέγγισης αυτής είναι το ότι επιπρόσθετοι πόροι επεξεργασίας και μνήμης εκτρέπονται από το προστατευμένο μηχάνημα κατά το backup, λόγω της διαδικασίας deduplication.

Πλεονέκτημα της αρχιτεκτονικής client-side είναι το ότι τα διπλά δεδομένα καταργούνται προτού να μεταδοθούν στο δίκτυο και αυξάνουν την αποτελεσματικότητα του bandwidth του δικτύου, γεγονός που μειώνει δραματικά το χρόνο που απαιτείται για τη μετάδοση των δεδομένων -ιδίως στα WAN

Ωστόσο, σε συνολικό επίπεδο, η διαδικασία του back-up διακινεί λιγότερα δεδομένα και καταναλώνει λιγότερους πόρους. Η αρχιτεκτονική client-side έχει πλεονεκτήματα κλίμακας και μπορεί να αντικαταστήσει το καθιερωμένο λογισμικό του backup, επειδή χρησιμοποιεί καινούρια agents και server code, αφήνοντας στις καθιερωμένες εφαρμογές του backup το καθήκον της γραφής των δεδομένων σε κασέτα.

Η αρχιτεκτονική του target-side μπορεί να εφαρμοστεί με τρεις τρόπους:
1) ως virtual tape library (VTL), 
2) ως συσκευή δίσκου και
3) ως επιλογή του λογισμικού backup.

In-Line ή Post-Processing: Η προσέγγιση του in-line (ή του in-band) κάνει το deduplication των δεδομένων καθώς αυτά τίθενται σε επεξεργασία. Αυτό συνεπάγεται το πλεονέκτημα της άμεσης μείωσης των δεδομένων, αλλά και τον κίνδυνο της σταθερής απόδοσης αφού οι λύσεις κυμαίνονται από τα 200 μέχρι τα 400MB/sec. Οι λύσεις τύπου post-processing (ή out-of-band) απαιτούν περισσότερο χρόνο για την ολοκλήρωση του deduplication, κάτι που θα μπορούσε να καθυστερήσει το off-site replication και τη δημιουργία αντίγραφων σε κασέτα.

Ο αλγόριθμος του deduplication: Το μυστικό των προϊόντων deduplication έγκειται στο πώς ανακαλύπτουν τα διπλά δεδομένα. Κάποιες λύσεις χρησιμοποιούν αλγόριθμους hashing -όπως ο Message-Digest Algorithm 5 (MD-5) και ο Secure Hash (SHA-1 and SHA-2), οι οποίοι και έγιναν γνωστοί μέσω των λύσεων κρυπτογράφησης. Αλλες λύσεις χρησιμοποιούν ένα συνδυασμό hashing, συμβατικών μεθόδων και εφαρμογής συγκρίσεων σε επίπεδο bit. Κάποιοι από τους αλγόριθμους αυτούς μπορούν να αποθηκεύσουν τα indexes τους στη μνήμη, ενώ άλλοι χρειάζονται και αποθηκευτικό δίσκο. Οι αλγόριθμοι και το πού βρίσκονται τα indexes έχουν σημαντικό αντίκτυπο όσον αφορά την κλιμακωσιμότητα και την απόδοση.

Το «αμπαλάρισμα»: Το πώς και το πού δίνεται η λύση είναι επίσης σημαντικό. Κάποια προϊόντα βασίζονται αποκλειστικά σε λογισμικό, κάποια αποτελούν ολόκληρη συσκευή με δίσκο και άλλα αποτελούν gateways που μπορούν να συνδεθούν σε οποιοδήποτε δίσκο. Τα gateways επιτρέπουν κάποια ευελιξία όσον αφορά το sourcing disk, γεγονός που μπορεί να μειώσει την τιμολόγηση του δίσκου.
<‘here’>


<‘Σελίδα 4: Τι θα πρέπει να προσέξετε κατά τη διαδικασία του deduplication’>
Πού να στρέψετε την προσοχή σας
Αν και τα οφέλη του deduplication είναι σημαντικά, υπάρχουν και κάποια θέματα που δεν θα πρέπει να διαφεύγουν της προσοχής.

Συμβατότητα: Δεν υποστηρίζουν όλες οι λύσεις deduplication όλους τους τύπους δεδομένων και συνδεσιμότητας. Για τις εγκαταστάσεις τύπου client-side, είναι κρίσιμο να γίνει κατανοητό το file system, το λειτουργικό σύστημα και η λίστα υποστήριξης εφαρμογών. Για τις λύσεις target-side, είναι σημαντικό να γνωρίζει κανείς τις επιλογές του network interface και της συνδεσιμότητας, αφού κάποια προϊόντα υποστηρίζουν μόνο σύνδεση Fibre Channel (FC) ή Ethernet. Η ταυτόχρονη υποστήριξη και των δύο αυτών επιλογών παρέχει μεγαλύτερη ευελιξία στην εγκατάσταση. Κάποιες λύσεις target-side συνεργάζονται μόνο με τις πιο πρόσφατες εκδοχές του λογισμικού backup. Νεότερες δυνατότητες όσον αφορά το δίσκο ή την κασέτα μπορεί να απαιτούνται για τη μεγιστοποίηση της λύσης deduplication.

Η μέθοδος του deduplication παρέχει σημαντικά οφέλη λόγω της δραματικής μείωσης που επιφέρει σε απαιτούμενη χωρητικότητα δίσκου και επομένων μειώνει το κόστος του backup σε δίσκο και αυξάνει την πιθανότητα ανάκτησης δεδομένων από δίσκο, παρά από βραδύτερα μέσα

Κλιμακωσιμότητα: Οι λύσεις deduplication ποικίλουν ως προς την ποσότητα των δεδομένων που μπορούν να συγκρατήσουν. Για να αντληθούν τα μέγιστα οφέλη, θα πρέπει το index των διπλών δεδομένων να είναι διαθέσιμο σε ένα όσο το δυνατό μεγαλύτερο data store. Διαφορετικά, μπορεί να χρειάζονται πολλαπλές λύσεις οι οποίες δεν έχουν γνώση των δεδομένων αυτών. Σε κάποιες εγκαταστάσεις, το παραπάνω δεν αποτελεί πρόβλημα. Σε μεγάλους οργανισμούς, είναι κρίσιμο να γίνουν κατανοητά τα ανώτερα όρια της χωρητικότητας αλλά και η προσέγγιση του προμηθευτή για συνολικό deduplication σε πολλαπλές συσκευές.

Ωριμότητα λύσης: Κάποιοι προμηθευτές έχουν κυκλοφορήσει λύσεις deduplication ήδη από το 2002, ενώ άλλοι έχουν δραστηριοποιηθεί μόλις πρόσφατα στον τομέα. Το πόσο παλιά, ή πόσο πρόσφατη, είναι μία λύση δεν έχει άμεση σχέση με την ποιότητα ή την αρχιτεκτονική της. Ωστόσο, οι οργανισμοί που επιθυμούν να μειώσουν τους κινδύνους, ενδέχεται να δείξουν προτίμηση σε πιο ώριμες λύσεις. Στις περιπτώσεις αυτές θα πρέπει να αναζητούνται συστάσεις από παρόμοιες εγκαταστάσεις σε παρόμοια περιβάλλοντα, προσεγγίσεις αρχιτεκτονικής και ποιότητα υποστήριξης.

Deduplication και Replication: Οι περισσότερες λύσεις deduplication προσφέρουν remote replication. Η δυνατότητα για ηλεκτρονική αποθήκευση δεδομένων μπορεί να μειώσει, ή να ελαχιστοποιήσει, τη χρήση της κασέτας και να αποτελέσει σημαντικό συστατικό της αρχιτεκτονικής του disaster recovery. Ωστόσο, δεν υποστηρίζουν όλοι οι προμηθευτές το replication δεδομένων που έχουν ήδη περάσει από διαδικασία deduplication. Αυτό σημαίνει ότι απαιτείται πολύ περισσότερο bandwidth κατά τη διάρκεια του replication.

Εν ολίγοις
Η μέθοδος του deduplication παρέχει σημαντικά οφέλη λόγω της δραματικής μείωσης που επιφέρει σε απαιτούμενη χωρητικότητα δίσκου. Αυτό μπορεί να μειώσει το κόστος του backup σε δίσκο και να αυξήσει την πιθανότητα ανάκτησης δεδομένων από δίσκο, παρά από βραδύτερα μέσα. Η μείωση του δίσκου έχει και δευτερεύοντα οφέλη, όπως η μείωση της ισχύος και της ψύξης που απαιτούνται για την αποθήκευση. Δεν υπάρχει κανένας λόγος να περιορίσουμε τη χρήση του deduplication στα δευτερεύοντα ή τα αντίγραφα backup των δεδομένων. Υπάρχουν διαθέσιμες λύσεις που αφορούν και τα κύρια δεδομένα. Αν και η τεχνική του deduplication είναι συγκλονιστική, θα πρέπει να συνεκτιμηθούν προσεκτικά τα οφέλη και οι περιορισμοί όλων των διαφορετικών προϊόντων ώστε να διασφαλιστεί η βέλτιστη ισορροπία κόστους, επιπέδου υπηρεσίας και κινδύνου.

H Gartner επισημαίνει
• Ο όρος deduplication μπερδεύεται συχνά με την έννοια του single instance store (SIS). Ωστόσο, οι δύο πρακτικές διαφέρουν όσον αφορά το σκεπτικό, την εγκατάσταση και τα δυνητικά οφέλη.
• Το deduplication επηρεάζει δραματικά τα κόστη του backup σε δίσκο και το recovery, μειώνοντας τα δεδομένα από 20:1 μέχρι και 400:1.
• Το παραπάνω εύρος κλίμακας έχει να κάνει με το αν θα προτιμήσει κανείς να δώσει έμφαση στην ταχύτητα ή στην συμπίεση.
• Τα προϊόντα deduplication χαρακτηρίζονται από διαφορετικές αρχιτεκτονικές και δυνατότητες, γεγονός που δυσχεραίνει την επιλογή μεταξύ τους.
• Αν και η αγορά εστιάζει κυρίως στο deduplication των δεδομένων backup, η προσέγγιση αυτή μπορεί να αξιοποιηθεί και για πρωτεύοντα δεδομένα.

4 tips από την Gartner
• Κατανοήστε τις διαφορετικές προσεγγίσεις του deduplication ώστε να καταλήξετε σε ένα shortlist των κατάλληλων προϊόντων. Δεν είναι απαραίτητο ότι όλες οι προσεγγίσεις θα ταιριάζουν με τις απαιτήσεις σας.
• Οι λύσεις deduplication μπορεί να διαφέρουν όσον αφορά τα χαρακτηριστικά απόδοσης και κλιμακωσιμότητας. Είναι σημαντικό να διασφαλίσετε ότι η λύση που επιλέξατε ανταποκρίνεται στις υφιστάμενες, αλλά και μελλοντικές σας ανάγκες.
• Εάν η λύση deduplication δεν προορίζεται να αντικαταστήσει την εφαρμογή του backup, τότε διασφαλίστε ότι αυτή υποστηρίζει, ή τουλάχιστον μπορεί να συνυπάρξει, με το προϊόν του backup.
• Επιβεβαιώστε ότι όντως σας καλύπτουν όλες οι επιλογές του shortlist σάς μέσα από ένα τεστ proof-of-concept. Διασφαλίσετε ότι τα προϊόντα ανταποκρίνονται στις απαιτήσεις του τύπου των δεδομένων σας και του όγκου εργασίας.
<‘here’>