Η ψηφιοποίηση θα μπορούσε να παρομοιαστεί με ένα μωσαϊκό, η επιτυχία του οποίου κρίνεται από τη σωστή τοποθέτηση μιας σειράς από «ψηφίδες». Οι «ψηφίδες» που πρέπει να μπουν στη σωστή θέση είναι μία σειρά από πρακτικές και διαδικασίες που πλαισιώνουν την κυρίως δράση της ψηφιοποίησης, είτε προηγούνται είτε έπονται αυτής. Πέρα από την επιλογή του τμήματος της συλλογής που θα πρέπει να ψηφιοποιηθεί, τον καθορισμό των τεχνικών προδιαγραφών του έργου και την καταχώρηση των μεταδεδομένων, στο λεξιλόγιο της ψηφιοποίησης θα πρέπει ακόμα να προστεθούν έννοιες και λειτουργίες, όπως η διαχείριση έργου και το life cycle management.
Επιπλέον, ιδιαίτερη σημασία θα πρέπει να δίνεται στην καθιέρωση προγράμματος ελέγχου ποιότητας, στην επιλογή του υλικού προς συντήρηση, στη δημιουργία ενός κεντρικού σημείου καταγραφής του ψηφιοποιημένου αρχείου και στη βελτίωση της πρόσβασης του κοινού σε αυτό.
Επαναθεωρώντας τις απαιτήσεις
Τα πρώτα έργα ψηφιοποίησης που πραγματοποιήθηκαν παγκοσμίως την περασμένη δεκαετία ήταν συνήθως μικρότερης κλίμακας και, ενδεχομένως, έδιναν μεγαλύτερη έμφαση σε παραμέτρους, όπως η ποιότητα των σκαναρισμένων αρχείων και η επιλογή του ποια κομμάτια του φυσικού αρχείου θα ψηφιοποιηθούν, με χρήση σύνθετων και αναλυτικών κριτηρίων αξιολόγησης. Οι πρώτες αυτές συλλογές αντιμετωπίζονται πλέον -και ενόψει της πολύ μεγαλύτερης κλίμακας σύγχρονων έργων- ως «μπουτίκ».
Τα σύγχρονα έργα ψηφιοποίησης δυσχεραίνει το γεγονός ότι τα πρότυπα που ακολουθούνται ακόμα και σήμερα αναπτύχθηκαν πριν από 15 χρόνια και δημιουργήθηκαν κατά την πρώιμη περίοδο ψηφιοποιήσεων μικρής κλίμακας. Είναι πλέον προφανής η ανάγκη για νέα πρότυπα και μετρικές που βασίζονται στις τεχνολογίες και στις πρακτικές αρχειοθέτησης του σήμερα, καθώς και στις εξελισσόμενες ανάγκες των χρηστών. Σημαντικό είναι να συνεκτιμούνται τα ακόλουθα χαρακτηριστικά:
- σύγχρονες τεχνολογίες ψηφιοποίησης και εργαλεία επεξεργασίας εικόνας
- επεξεργασία των προδιαγραφών και της εμπειρίας που αναπτύχθηκε τα τελευταία χρόνια
- νέα formats αρχείων αποθήκευσης, όπως το JPEG2000 και το PDF/A
- εξελισσόμενα formats πρόσβασης (όπως το XML), τα οποία και είναι απαραίτητα για την υποστήριξη εξειδικευμένων αναζητήσεων και χρήσης περιεχομένου
- συσχετισμός μεταξύ ποιότητας εικόνας και ακρίβειας του OCR
- ρόλος, δυναμική και αξία των μεταδεδομένων συντήρησης (PREMIS) και των τεχνικών μεταδεδομένων (NISO/ANSI Z39.87) στην υποστήριξη των δράσεων συντήρησης
- απαιτούμενα περιγραφικά και δομικά μεταδεδομένα για την υποστήριξη της αναζήτησης και του εντοπισμού του ψηφιακού υλικού.
Επειδή ακριβώς η ποιότητα του ψηφιοποιημένου αρχείου δεν είναι πάντα εγγυημένη, θα πρέπει να διαμορφώνεται μία στρατηγική συστηματικού ελέγχου της ποιότητας των σκαναρισμένων αρχείων και των σχετιζόμενων μεταδιδόμενων, ώστε να αξιολογείται η καταλληλότητα των ψηφιακών αρχείων για σκοπούς συντήρησης και διατήρησης. Προκειμένου να πραγματοποιηθεί η αξιολόγηση αυτή, θα πρέπει πρώτα να καθορίζονται τα κριτήρια βάσει των οποίων θα γίνεται ο έλεγχος ποιότητας και να γίνεται κατανοητός ο ρόλος των πόρων και της αποστολής των οργανισμών στον καθορισμό της ποιότητας της διατήρησης.
Διασφάλιση ποιότητας
Η συζήτηση για τη διασφάλιση της ποιότητας θα πρέπει να ξεκινά με μία σωστή αξιολόγηση των πολιτικών, των εργαλείων και των workflows που σχετίζονται με τον έλεγχο της ποιότητας, ώστε αυτά να ανταποκρίνονται στις ανάγκες και στην κλίμακα του εκάστοτε έργου. Τα υφιστάμενα πρωτόκολλα του ISO για την αξιολόγηση της απόδοσης του εξοπλισμού ψηφιοποίησης είναι μεν αξιόπιστα, όσον αφορά τις ανάγκες κατά το εγγύς μέλλον, δεν ανταποκρίνονται όμως απαραίτητα στις διευρυμένες απαιτήσεις που θέτουν έργα ψηφιοποίησης μεγάλης κλίμακας.
Παρόμοια έργα ενδέχεται να απαιτούν τον καθορισμό μίας νέας στρατηγικής, στα πλαίσια της οποίας είναι σημαντικό να δίνεται έμφαση στη δημιουργία αρχείων υψηλής ποιότητας κατά το στάδιο του αρχικού σκαναρίσματος. Ο έλεγχος ποιότητας θα πρέπει να λειτουργεί ως μηχανισμός εντοπισμού των κατ’ εξαίρεση προβλημάτων. Θα πρέπει να ασκείται η απαιτούμενη πίεση προς τους εξωτερικούς συνεργάτες κατά το στάδιο του καθορισμού των τεχνικών προδιαγραφών, ώστε τα λάθη να προλαμβάνονται παρά να αφιερώνεται χρόνος στον εντοπισμό και τη διόρθωσή τους. Θα πρέπει επίσης, να συνυπολογίζεται η πιθανότητα λάθους λόγω βλάβης στον εξοπλισμό, έλλειψης συντήρησης ή λανθασμένου χειρισμού.
Ο εντοπισμός ενός προβλήματος είναι συνήθως ευκολότερος από την επίλυσή του και την ενσωμάτωση του σχετικού αρχείου στην ψηφιακή συλλογή. Ακόμα και αν δεν υπάρχει προϋπολογισμός για τη διόρθωση των μη-αποδεκτών αρχείων, αξίζει να μπαίνει κανείς στη διαδικασία καταγραφής των σχετικών προβλημάτων, ώστε να διευκολύνονται μελλοντικές δράσεις. Ταυτόχρονα, ο έλεγχος ποιότητας δεν αποτελεί απαραίτητα μία σταθερή και συγκεκριμένη διαδικασία, αφού προκύπτουν συνεχώς νέες τεχνικές βελτίωσης της εικόνας.
Τέλος, ακόμα και μία απλοϊκή διαδικασία ελέγχου ποιότητας αποκαλύπτει λάθη που οφείλονται σε προβλήματα στο σημείο της ψηφιοποίησης, όπως η κακή λειτουργία ενός στοιχείου του εξοπλισμού ή λανθασμένες ρυθμίσεις σε εφαρμογές επεξεργασίας της εικόνας. Ένας φορέας που προβαίνει σε ψηφιοποίηση, θα πρέπει να εξετάζει τα ψηφιοποιημένα αρχεία που λαμβάνει άμεσα ώστε να μπορεί να προβαίνει εγκαίρως σε διόρθωση των συνθηκών που προκαλούν τα προβλήματα.
Το θέμα της επιλογής
Ένα ερώτημα που τίθεται συχνά αφορά το εάν θα πρέπει ένας οργανισμός να δεσμεύεται να διατηρήσει όλο το ψηφιακό υλικό που προκύπτει μετά από ένα έργο ψηφιοποίησης, να ακολουθεί μία διαδικασία επιλογής υλικού προς διατήρηση ή να ορίζει το επίπεδο της προσπάθειας ψηφιοποίησης ανάλογα με το βαθμό χρήσης. Σύμφωνα με τις στατιστικές, μόλις το 20% μίας φυσικής συλλογής είναι εκείνο που τυγχάνει του 80% της χρήσης της. Αναλόγως μεγάλο είναι το ποσοστό των αρχείων που ψηφιοποιείται και παραμένει στα αζήτητα. Στην ψηφιοποίηση του συνόλου του αρχείου οδηγεί συχνά και το γεγονός ότι η επιλογή και η αξιολόγηση υλικού προς ψηφιοποίηση αποτελεί κοστοβόρα και χρονοβόρα διαδικασία. Ένας παράγοντας που σε κάποιες, τουλάχιστον, περιπτώσεις υπαγορεύει τη διαδικασία της επιλογής είναι τα πνευματικά δικαιώματα.
Η απόφαση της Google να συμπεριλάβει υλικό που προστατεύεται από πνευματικά δικαιώματα στην πρωτοβουλία της αποτέλεσε νομική πρόκληση και θέμα πολλών συζητήσεων. Κάποιες από τις συνεργαζόμενες πανεπιστημιακές βιβλιοθήκες ήταν διατεθειμένες να καταστήσουν διαθέσιμες στο Google όλες τις συλλογές που πληρούσαν τις σχετικές προδιαγραφές. Άλλες, αποφάσισαν να περιοριστούν στο περιεχόμενο με ελεύθερα δικαιώματα πρόσβασης. Μία σχετική έρευνα κατέδειξε ότι το 80% του υλικού που ψηφιοποιήθηκε αρχικά, εξακολουθούσε να τελεί υπό πνευματικά δικαιώματα.
Ακόμα όμως, και όταν ένας οργανισμός επιλέγει να ψηφιοποιήσει το σύνολο των συλλογών του, οικονομικοί όροι επιτάσσουν την αξιολόγηση του ύψους των επενδύσεων που καταλήγουν στη συντήρηση και τη διατήρηση περιεχομένου που δεν χρησιμοποιείται.
Η διατήρηση και η συντήρηση του συνόλου του αρχείου που έχει ψηφιοποιήσει ένας οργανισμός αποδεικνύεται λοιπόν, συχνά ανέφικτη τόσο από οικονομικής όσο και λειτουργικής άποψης. Ειδικά σε έργα μεγάλης κλίμακας, ο φορέας της ψηφιοποίησης θα πρέπει να εξετάζει την έκταση και τον τύπο της επιθυμητής συντήρησης. Όσον αφορά τη συντήρηση, τίθενται δύο επιλογές: α) όλα τα αρχεία τυγχάνουν του ίδιου επιπέδου και βαθμού συντήρησης ή β) χρησιμοποιούνται μετρικές ώστε η απόφαση να λαμβάνεται βάσει τις εκτιμώμενης αξίας και χρησιμότητας του κάθε εγγράφου.
Το θέμα αυτό προσφέρεται για περαιτέρω διερεύνηση μέσω μίας ανάλυσης επικινδυνότητας των οικονομικότερων στρατηγικών συντήρησης περιεχομένου που δεν χρησιμοποιείται συχνά. Παράλληλα, θα πρέπει να συνυπολογίζεται και η αξία που προκύπτει όταν υλικό που, στη φυσική του μορφή δεν ήταν διαθέσιμο στην ερευνητική κοινότητα, οδηγεί -εφόσον ψηφιοποιείται- σε σημαντικές ανακαλύψεις ή εξελίξεις.
Τέλος, η εστίαση της προσοχής στο πρωθύστερο υλικό που πρέπει να ψηφιοποιηθεί δεν θα πρέπει να γίνεται σε βάρος του σύγχρονου υλικού που βρίσκεται μεν σε ψηφιακή μορφή, αλλά χρήζει της κατάλληλης αρχειοθέτησης και καταλογογράφησης. Αντίστοιχα, θα πρέπει να καθιερώνονται οι σωστές ισορροπίες σε θέματα πρόσβασης. Αν και οι έρευνες δείχνουν ότι οι χρήστες δείχνουν ολοένα και μεγαλύτερη προτίμηση στην ψηφιακή πληροφορία, οι φορείς που διαχειρίζονται την πληροφορία αυτή καλούνται να διατηρήσουν και τις παραδοσιακές τους υπηρεσίες.
Βελτίωση της πρόσβασης
Οι επενδύσεις σε ψηφιοποίηση αρχείων αποκτούν μεγαλύτερη αξία, όταν δίνεται έμφαση στις παραμέτρους της αναζήτησης και της πρόσβασης στο περιεχόμενο αυτό. Ένας αποτελεσματικός και αξιόπιστος μηχανισμός πρόσβασης είναι απαραίτητος για την εξασφάλιση της διαρκούς χρησιμότητας του ψηφιοποιημένου υλικού. Εξίσου σημαντικό είναι και το άνοιγμα σε νέους χρήστες μέσα από διευρυμένα εργαλεία για την ανακάλυψη και τη χρήση ψηφιακής πληροφορίας. Η αναζήτηση δεν θα πρέπει να βασίζεται αποκλειστικά σε λέξεις-κλειδιά, αλλά να περιλαμβάνει και τεχνικές για την ανάλυση του περιεχομένου, καθώς και να λαμβάνει υπόψη τις προτιμήσεις των ίδιων των χρηστών, όσον αφορά τη θεώρηση και τη μελέτη ψηφιακού περιεχομένου.
Επιπλέον, κάποιοι υποστηρίζουν ότι η μη-χρήση κάποιων αρχείων οφείλεται στη δυσκολία εντοπισμού τους και όχι στην έλλειψη ζήτησης από πλευράς των χρηστών. Έτσι, η διάθεσή τους σε ηλεκτρονική μορφή θα αυξήσει τη χρήση τους, αλλά και το όφελος που απορρέει από αυτήν. Στο πλαίσιο αυτό, η ζήτηση και η προσφορά θα πρέπει να εξετάζονται σε επίπεδο δικτύου και όχι μεμονωμένου φορέα, οργανισμού ή βιβλιοθήκης. Το παραπάνω συνεπάγεται, μεταξύ άλλων, ότι η καθιέρωση σχημάτων συνεργασίας μεταξύ των επιμέρους φορέων θα δημιουργήσει ζήτηση που δεν υπήρχε προηγουμένως.
Η ανάγκη για κεντρική καταγραφή
Άλλο ένα από τα βασικά ερωτήματα που τίθενται στα σύγχρονα έργα ψηφιοποίησης αφορά την έκταση των υπερκαλύψεων που θα πρέπει να υπάρχει μεταξύ των διαφορετικών πρωτοβουλιών επιλογής και ψηφιοποίησης φυσικού αρχείου. Ενδεικτικό παράδειγμα της έκτασης που μπορεί να παίρνει n υπερκάλυψη σε έργα ψηφιοποίησης μεγάλης κλίμακας είναι αυτό της πρωτοβουλίας Google Print για τις βιβλιοθήκες. Για τις πέντε βιβλιοθήκες που συμμετείχαν στην πρωτοβουλία αυτή το 2005, αφού αφαιρέθηκαν οι διπλές εγγραφές, ο αριθμός των τίτλων μειώθηκε από τα 32 στα 10,5 εκατομμύρια. Το 39% των τίτλων υπήρχαν τουλάχιστον σε δύο από τις πέντε βιβλιοθήκες. Αυτό σημαίνει ότι τέσσερα στα δέκα ψηφιοποιημένα βιβλία μπορεί να πλεονάζουν.
Το ενδεχόμενο της επανάληψης υπάρχει τόσο μέσα σε ένα συγκεκριμένο έργο (όπως με τις παραπάνω βιβλιοθήκες), αλλά και μεταξύ διαφορετικών πρωτοβουλιών. Καθώς οι σχετικές πρωτοβουλίες διευρύνονται, η ανάγκη για συνολική καταγραφή του ψηφιοποιημένου υλικού εντείνεται. Αν και ένας βαθμός πλεονασμού είναι επιθυμητός για τη διασφάλιση του ψηφιακού περιεχομένου με την πάροδο του χρόνου, όταν η κλίμακα μεγαλώνει τότε τίθενται θέματα συμφερόντων.
Ο προβληματισμός σχετικά με τα πλεονάζοντα αρχεία φέρνει και πάλι στο προσκήνιο το θέμα της ανάπτυξης και καθιέρωσης ενός ενιαίου σημείου για την καταγραφή του ψηφιοποιημένου υλικού. Το DLF/OCLC Registry of Digital Masters (RDM) αναπτύχθηκε ως ιδέα το 2001 με στόχο να αποτελέσει ένα κεντρικό σημείο, στο οποίο οι βιβλιοθήκες θα αναζητούν ψηφιοποιημένο υλικό. Αντίστοιχα, καταχωρώντας το ψηφιοποιημένο της αρχείο στο RDM, μία βιβλιοθήκη δηλώνει τη δέσμευσή της να συντηρήσει τις ψηφιοποιημένες της συλλογές. Το βασικό και προφανές όφελος που προκύπτει από την κεντρική αυτή καταγραφή είναι η διασφάλιση του ότι ένας συγκεκριμένος φορέας δεν θα χρειαστεί να επενδύσει χρόνο και χρήματα για την ψηφιοποίηση υλικού που ήδη υπάρχει καταγεγραμμένο στην κεντρική βάση.
Βήμα προς βήμα
Η δημιουργία ψηφιακού περιεχομένου περιλαμβάνει μία σειρά από διαφορετικές δραστηριότητες. Στον πίνακα αποτυπώνονται οι βασικές λειτουργικές περιοχές και δεξιότητες που απαιτούνται.
Επιλογή
- Επιλογή του υλικού προς ψηφιοποίηση βάσει έρευνας και/ ή ζήτησης για εκπαιδευτικό υλικό
- Αξιολόγηση του θέματος των πνευματικών δικαιωμάτων
Ανάλυση απαιτήσεων για τον καθορισμό των τεχνικών προδιαγραφών για:
- Ψηφιοποίηση
- Μεταδεδομένα
- Πρόσβαση και χρήση
- άλλες χρήσεις (π.χ. Εκτύπωση κατόπιν ζήτησης)
Προετοιμασία
- συντήρηση, λύσιμο, tagging
- οργάνωση του φυσικού όγκου ανάλογα με τον τύπο περιεχομένου ή format
Ψηφιοποίηση
- ψηφιοποίηση (εσωτερικά ή με ανάθεση σε τρίτο)
- επεξεργασία εικόνας
- δημιουργία βοηθητικών αρχείων αρχειοθέτησης και παραγώγων
- δημιουργία δομής
Έλεγχος ποιότητας
- ανάπτυξη στρατηγικής ελέγχου ποιότητας
- επιλογή εργαλείων ελέγχου ποιότητας
- ανάπτυξη workflow αξιολόγησης
- σχέδιο για τη διόρθωση και την επανενσωμάτωση μη αποδεκτών αρχείων
Μεταδεδομένα
- περιγραφικά, δομής, διοικητικά, συντήρησης
- ελεγχόμενο λεξιλόγιο, ταξονομίες, οντολογίες
- επιλογή και εφαρμογή προτύπων για τη διαλειτουργικότητα, ανακάλυψη, κ.λπ.
- συμβάσεις για την ονομασία των αρχείων και καθορισμός ταυτοτήτων
- OCR
Τεχνική ανάπτυξη
- σχέδιο αποθετηρίου και αποθήκευσης
- πλατφόρμα απόδοσης ψηφιακού περιεχομένου (βάση δεδομένων αρχείων εικόνας)
- εργαλεία ανακάλυψης και πλοήγησης
- Υπηρεσίες Web
- Σχεδιασμός και ανάπτυξη Web
Διαχείριση έργου
- συντονισμός workflow
- οικονομική διαχείριση
- αξιολόγηση και ανάλυση χρησιμότητας
- προώθηση
- υποστήριξη χρηστών
Life cycle management
- στρατηγικές και διαδικασίες συντήρησης
- συνεχιζόμενες προσθήκες περιεχομένου, μεταδεδομένων, αναθεώρηση εφαρμογών, κ.λπ.
Ψηφιοποίηση και ελληνική γλώσσα
Η Μαρία Ακριτίδου, Φιλόλογος, μιλά για το έργο Ψηφιοποίησης συλλογών Νεοελληνικής Γραμματείας και Τέχνης του Α.Π.Θ., στο οποίο εργάστηκε ως μεταπτυχιακή φοιτήτρια.
Η Ψηφιοποίηση των συλλογών Νεοελληνικής Γραμματείας και Τέχνης του Α.Π.Θ. ξεκίνησε τον Απρίλιο του 2005. Το αρχικό της στάδιο αφορούσε την ψηφιοποίηση των συλλογών: α) Ιδρύματος Μανόλη Τριανταφυλλίδη, β) Αρχείου Νεοελληνικής Λογοτεχνίας, γ) παλαιτύπων δωρεάς Τρικόγλου και δ) ελληνικών εφημερίδων του 19ου και 20ου αιώνα. Οι παραπάνω συλλογές περιέχουν άρθρα, παλαίτυπα, έργα τέχνης, φωτογραφικό υλικό, αλλά και προσωπικά/ ιστορικά αρχεία λογοτεχνών με χειρόγραφες σημειώσεις, τυπογραφικά δοκίμια, κ.λπ.
Μία από τις βασικές προκλήσεις στο συγκεκριμένο έργο ήταν η ανομοιογένεια των αντικειμένων προς ψηφιοποίηση. Η κάθε συλλογή είχε διαφορετικές απαιτήσεις τόσο ως προς το τεχνικό κομμάτι της ψηφιοποίησης όσο και ως προς την επιστημονική της τεκμηρίωση. Οι απαιτήσεις αυτές υπαγόρευσαν τη σύσταση μίας διεπιστημονικής ομάδας, απαρτιζόμενης από τεχνικούς Πληροφορικής, βιβλιοθηκονόμους και φιλόλογους.
Η ψηφιοποίηση των τεκμηριων ακολουθούσε τα στάδια της σάρωσης, της αποθήκευσης σε μορφή JPEG και στη συνέχεια σε PDF και της καταλογογράφησης με την εισαγωγή των απαραίτητων μεταδεδομένων, σύμφωνα με διεθνές βιβλιογραφικό πρότυπο. Τα ψηφιακά τεκμήρια έχουν αναρτηθεί στην ιστοσελίδα http://cds.lib.auth.gr υπό μορφή αρχείων pdf και είναι αναζητήσιμα με λέξεις-κλειδιά.
Η ψηφιοποίηση είναι πλέον απαραίτητη τόσο για τη διατήρηση σπάνιων συλλογών όσο και για τη διάθεση πρωτογενούς υλικού σε ένα ευρύτερο κοινό. Ζητήματα που πρέπει να επιλυθούν είναι αυτό των πνευματικών δικαιωμάτων (ως προς την ηλεκτρονική διάθεση των τεκμηρίων) και η περαιτέρω ανάπτυξη του διεπιστημονικού πεδίου του Humanities Computing στην Ελλάδα, ώστε να βρεθούν λύσεις σε θέματα ηλεκτρονικής τεκμηρίωσης και περιγραφής πολύπλοκων αρχειακών συνόλων, αλλά και στο ζήτημα της ηλεκτρονικής έκδοσης κειμένου, σύμφωνα με τις επιστημονικές αρχές της φιλολογίας. Το επόμενο βήμα θα ήταν η επεξεργασία των τεκμηρίων με ένα κατάλληλο πρόγραμμα OCR, ώστε να επεκταθεί η δυνατότητα αναζήτησης με λέξεις και φράσεις από το πλήρες κείμενο.