Τεχνολογικές επιλογές

Αυτή η ενότητα παρέχει οδηγίες σχετικά με την επιλογή και την υλοποίηση διαφόρων τεχνολογιών που χρησιμοποιούνται για την ανάπτυξη πλατφορμών ανοικτών δεδομένων, με ιδιαίτερη έμφαση στους καταλόγους ανοικτών δεδομένων, που αποτελούν τα διαδικτυακά συστήματα που χρησιμοποιούνται για τη διάθεση δεδομένων στους τελικούς χρήστες. Προορίζεται να υποστηρίξει τους ειδικούς της πληροφορικής που διαδραματίζουν ηγετικό ή συντονιστικό ρόλο στη διαχείριση της τεχνικής υποδομής πολιτικών και πρωτοβουλιών ανοικτών δεδομένων.

Οι όροι "κατάλογος", "πλατφόρμα" και "πύλη" είναι συχνά κάπως διφορούμενοι και μερικές φορές συγκεχυμένοι. Αυτή η ενότητα ορίζει τους όρους ως εξής:

• Ένας κατάλογος δεδομένων είναι μια λίστα των συνόλων δεδομένων που είναι διαθέσιμες σε μια πολιτική ανοικτών δεδομένων. Τα βασικά στοιχεία ενός καταλόγου δεδομένων περιλαμβάνουν την αναζήτηση, τα μεταδεδομένα, τις σαφείς πληροφορίες αδειοδότησης και την πρόσβαση στα ίδια τα σύνολα δεδομένων. Τυπικά, ένας κατάλογος δεδομένων είναι το διαδικτυακό κεντρικό σημείο μιας πολιτικής ανοικτών δεδομένων.

• Μια πλατφόρμα παρέχει μια διαδικτυακή "είσοδο" για τους χρήστες να έχουν πρόσβαση σε όλους τους πόρους που είναι διαθέσιμοι στο πλαίσιο μιας πολιτικής ανοικτών δεδομένων. Μια πλατφόρμα περιλαμβάνει τον κατάλογο δεδομένων μαζί με άλλες πληροφορίες και υπηρεσίες που αποτελούν μέρος του οικοσυστήματος ανοικτών δεδομένων. Αυτά περιλαμβάνουν συνήθως ένα ηλεκτρονικό φόρουμ για ερωτήσεις, τεχνική υποστήριξη και ανατροφοδότηση, μια βάση γνώσεων για το υπόβαθρο και τα εκπαιδευτικά υλικά και ένα blog για επικοινωνία και διάχυση γνώσης. Οι υπηρεσίες σε μια πλατφόρμα υλοποιούνται συχνά με μια σειρά τεχνολογιών, και όχι μεμονωμένες.

• Μια πύλη είναι ένας δικτυακός τόπος που χρησιμεύει ως κύριο σημείο εισόδου («cyber door») στο διαδίκτυο σε ένα συγκεκριμένο τομέα ενδιαφέροντος ή σε έναν κλάδο. Μια δικτυακή πύλη συνήθως παρέχει τουλάχιστον τέσσερις βασικές υπηρεσίες: (1) μηχανές αναζήτησης, (2) email επικοινωνίας, (3) συνδέσμους προς άλλους σχετικούς ιστότοπους και (4) εξατομικευμένο περιεχόμενο.

Με τι μοιάζει ένας ανοικτός κατάλογος δεδομένων;

Όπως περιγράφεται στις επόμενες παραγράφους, οι κατάλογοι δεδομένων μπορεί να είναι σχετικά απλοί και "αυτοδύναμοι" ή εξελιγμένοι και να διαλειτουργούν με άλλα συστήματα. Ωστόσο, οι περισσότεροι κατάλογοι ανοικτών δεδομένων μοιράζονται μερικά κοινά χαρακτηριστικά:

Εύκολη πρόσβαση. Οι κατάλογοι ανοικτών δεδομένων καθιστούν πολύ εύκολη την πρόσβαση των χρηστών γρήγορα και ελεύθερα. Η πρόσβαση στους καταλόγους ανοικτών δεδομένων συνήθως δεν απαιτεί εγγραφή ή σύνδεση, καθώς οι απαιτήσεις αυτές ίσως αποθάρρυναν την εξερεύνηση και τη χρήση[1].

Αναζήτηση. Οι ανοικτοί κατάλογοι δεδομένων κάνουν τα δεδομένα εύκολα στην εύρεση. Οι περισσότεροι κατάλογοι δεδομένων ταξινομούν δεδομένα ανά θέμα, φορέα ή τύπο και υποστηρίζουν την πλήρη αναζήτηση κειμένου των περιεχομένων του καταλόγου. Πολλοί κατάλογοι ανοικτών δεδομένων εμπεριέχουν μηχανή αναζήτησης βελτιστοποιημένων αποτελεσμάτων για να διαθέσουν δεδομένα σε συμβατικές μηχανές αναζήτησης.

Πρόσβαση σε μηχαναγνώσιμα δεδομένα. Τα δεδομένα είναι διαθέσιμα για λήψη σε μηχανικά αναγνώσιμες, (ιδανικά) μη ιδιοκτησιακά ηλεκτρονικές μορφές. Στο μέτρο του δυνατού, προτείνεται όλα τα δεδομένα να είναι διαθέσιμα ως ένα σύνολο δεδομένων και ένα ενιαίο αρχείο λήψης (πχ. με τη χρήση ΑΡΙ).

Μεταδεδομένα. Τα βασικά μεταδεδομένα, μεταξύ των οποίων η ημερομηνία δημοσίευσης και η άδεια χρήσης, προβάλλονται εμφανώς για κάθε σύνολο δεδομένων. Πολλοί κατάλογοι ανοικτών δεδομένων υλοποιούν το πρότυπο μεταδεδομένων Dublin Core[2] και καθιστούν τα μεταδεδομένα διαθέσιμα σε μηχανικά αναγνώσιμες μορφές.

Αναφορά αδειών δεδομένων. Οι άδειες δεδομένων εμφανίζονται ξεκάθαρα και εμφανώς για κάθε σύνολο δεδομένων. Αν τα δεδομένα έχουν λάβει άδεια σύμφωνα με το Creative Commons[3], την Άδεια Ανοικτών Δεδομένων[4] ή άλλα πρότυπα[5], συχνά συμπεριλαμβάνονται διαφανείς σύνδεσμοι με αυτές τις άδειες χρήσης.

Προεπισκόπηση/απεικόνιση δεδομένων. Πολλοί κατάλογοι ανοικτών δεδομένων περιλαμβάνουν κάποια δυνατότητα προεπισκόπησης των δεδομένων πριν από τη λήψη ή απεικόνισης των δεδομένων, χρησιμοποιώντας ενσωματωμένα εργαλεία γραφικών ή χαρτογράφησης.

Συμμόρφωση με τα πρότυπα. Οι περισσότεροι κατάλογοι ανοικτών δεδομένων έχουν ενσωματωμένη υποστήριξη για διάφορα πρότυπα, όπως μορφές δεδομένων (π.χ. CSV, XML, JSON) και μεταδεδομένα (δηλ. Dublin Core). Οι ανοικτοί κατάλογοι δεδομένων καθιστούν συνήθως κάθε σύνολο δεδομένων διαθέσιμο ως μοναδικό και μόνιμο URL, το οποίο καθιστά δυνατή την άμεση αναφορά και σύνδεση με τα δεδομένα.

Διεπαφή προγραμματισμού εφαρμογών (Application programming interface - API). Τα API επιτρέπουν στους προγραμματιστές λογισμικού να έχουν πρόσβαση στον κατάλογο ανοικτών δεδομένων - και συχνά τα ίδια τα δεδομένα - μέσω λογισμικού. Τα API διευκολύνουν την ανακάλυψη δεδομένων, την ανάλυση, την ενσωμάτωση καταλόγων, τη συλλογή μεταδεδομένων από εξωτερικούς ιστότοπους και πολλές εφαρμογές.

Ασφάλεια. Οι κατάλογοι ανοικτών δεδομένων υλοποιούνται ενσωματώνοντας μέτρα ασφαλείας για την προστασία δεδομένων και μεταδεδομένων από αλλαγές, από μη εξουσιοδοτημένους χρήστες. Οι κατάλογοι ανοικτών δεδομένων γενικά ακολουθούν ένα από τα δύο μοντέλα παροχής υπηρεσιών. Οι κατάλογοι ανοικτού κώδικα είναι ονομαστικώς «δωρεάν», επειδή μπορούν να αποκτηθούν μέσω λήψης χωρίς κόστος και μπορούν να τροποποιηθούν ή να προσαρμοστούν χωρίς τέλη περιορισμού ή αδειοδότησης. Αυτοί μπορούν να φιλοξενούνται στους αποκλειστικούς διακομιστές του ιδιοκτήτη ή σε υποδομή νέφους (cloud computing), αλλά και οι δύο προσεγγίσεις απαιτούν από τον διαχειριστή του καταλόγου την στενή παρακολούθηση. Ορισμένοι προμηθευτές παρέχουν υπηρεσία cloud hosting προϊόντων ανοικτού κώδικα. Αντίθετα, τα προϊόντα λογισμικού ως υπηρεσία (SaaS) διατίθενται από διάφορους προμηθευτές με μηνιαία ή ετήσια χρέωση και οι προμηθευτές αναλαμβάνουν την ευθύνη για τη διαχείριση του συστήματος, την ασφάλεια και τις ενημερώσεις λογισμικού. Οι πωλητές SaaS ενδέχεται επίσης να παρέχουν μέσα και λειτουργικότητα προσαρμογής του συστήματος σε πιθανές ειδικές ανάγκες του ιδιοκτήτη.

Τρία μοντέλα ενός ανοικτού καταλόγου δεδομένων

Τα παρακάτω τρία μοντέλα παρουσιάζουν διάφορους τρόπους στρατηγικής και υλοποίησης ενός συστήματος καταλόγου ανοικτών δεδομένων. Στόχος είναι να αναδειχτεί ο τρόπος που σχετίζονται διάφορα στοιχεία και υπηρεσίες μεταξύ τους και πώς αλλάζει το σύστημα σε διαφορετικές κλίμακες.

Μοντέλο 1-Ενιαία πλατφόρμα: Αυτό το μοντέλο αναδεικνύει μια απλή υποδομή πληροφορικής όπου ο κατάλογος δεδομένων και τα αρχεία δεδομένων φιλοξενούνται μέσα σε ένα περιβάλλον διακομιστή. Η διαχείριση του διακομιστή θα μπορούσε να γίνεται από στέλεχος του φορέα ή από υπηρεσίες υποδομών νέφους. Τα σύνολα δεδομένων που βασίζονται σε API, αν υπάρχουν, μπορούν να αποτελούν αντικείμενο διαχείρισης χωριστά, ανάλογα με την τεχνολογία που έχει χρησιμοποιηθεί. Το blogging, η υποστήριξη χρηστών και η ανατροφοδότηση είναι βασικά στοιχεία της εμπλοκής του χρήστη σε μια πρωτοβουλία ανοικτών δεδομένων και συχνά μπορούν να παρέχονται από την ίδια ή παρόμοια υποδομή με εκείνη που χρησιμοποιεί ο ίδιος ο κατάλογος. Εννοιολογικά, όμως, είναι ξεχωριστά συστήματα που συνδέονται μόνο χαλαρά με τον κατάλογο δεδομένων. Αυτό το μοντέλο είναι κατάλληλο όταν υπάρχει ένας μικρός αριθμός συνόλων δεδομένων (κάτω των 200) στον κατάλογο δεδομένων, τα σύνολα δεδομένων είναι μικρά (κάτω από 100Mb) και ένας μόνο φορέας χειρίζεται τον συντονισμό του καταλόγου δεδομένων και τη διαχείριση της τεχνολογικής υποδομής.

Μοντέλο 2-Ξεχωριστοί διακομιστές: Αυτό το μοντέλο καταδεικνύει τον τρόπο με τον οποίο ο κατάλογος δεδομένων και ο διακομιστής αρχείων μπορούν να αποτελούν αντικείμενο ξεχωριστής διαχείρισης είτε φιλοξενούνται εσωτερικά είτε φιλοξενούνται σε υποδομή νέφους. Αυτή η προσέγγιση είναι λίγο πιο πολύπλοκη από το Μοντέλο 1 και είναι πιο κατάλληλη για μεγαλύτερα σύνολα δεδομένων και καταλόγους. Η υποδομή που φιλοξενείται σε υποδομή νέφους είναι συχνά μια οικονομικά αποδοτική προσέγγιση, αλλά μπορεί να μην είναι πρακτική σε περιοχές όπου η ευρυζωνικότητα είναι περιορισμένη.

Μοντέλο 3-Συνδυασμένοι κατάλογοι: Αυτό το μοντέλο δείχνει πώς η ανοικτή διαχείριση καταλόγων δεδομένων μπορεί να αποκεντρωθεί σε ένα ή περισσότερα συμβαλλόμενα υπουργεία (ή άλλους κατάλληλους – τεχνολογικά) φορείς. Σε αυτήν την προσέγγιση, μερικά αρχεία δεδομένων ή/και υπηρεσίες API τα διαχειρίζονται ξεχωριστοί φορείς, ενώ τα μεταδεδομένα παρέχονται στον κεντρικό κατάλογο για να επιτρέπουν αναζήτηση και πρόσβαση σε κάθε φορέα. Ένας φορέας μπορεί να διαχειρίζεται ακόμη και δικό του κατάλογο (για παράδειγμα, γεωγραφικά δεδομένα ή στατιστικά στοιχεία), υποστηρίζοντας παράλληλα τον κεντρικό κατάλογο. Αυτό το μοντέλο είναι κατάλληλο όταν ένα ή περισσότεροι φορείς έχουν την ικανότητα και την εμπειρία να διαχειρίζονται τα δικά τους ανοικτά δεδομένα. Οι φορείς που δεν έχουν αυτή την ικανότητα μπορούν να επιλέξουν να βασίζονται στον κεντρικό οργανισμό υλοποίησης, όπως φαίνεται στο μοντέλο 1 ή το μοντέλο 2.

Κοινώς χρησιμοποιούμενες πλατφόρμες ανοικτών δεδομένων

CKAN Το CKAN είναι ένας κατάλογος δεδομένων ανοικτού κώδικα που υποστηρίζεται επίσημα από το Open Knowledge Foundation[6] και μπορεί να εγκατασταθεί σε οποιοδήποτε διακομιστή Linux, συμπεριλαμβανομένων cloud-hosted λύσεων. Το Open Knowledge Foundation προσφέρει επίσης υπηρεσίες φιλοξενίας με μηνιαία αμοιβή. Το CKAN είναι γραμμένο στη γλώσσα προγραμματισμού Python και έχει σχεδιαστεί για τη δημοσίευση και διαχείριση δεδομένων είτε μέσω διεπαφής χρήστη είτε μέσω API. Το CKAN διαθέτει μια αρθρωτή αρχιτεκτονική μέσω της οποίας μπορούν να προστεθούν επιπλέον ή/και προσαρμοσμένες επεκτάσεις. Για παράδειγμα, η επέκταση του εισαγωγέα DDI παρέχει υποστήριξη για το πρότυπο των μεταδεδομένων DDI, συμπεριλαμβανομένης της συλλογής μεταδεδομένων από καταλόγους μικροδεδομένων.

DKAN Το DKAN έχει σχεδιαστεί ώστε να είναι συμβατό με το CKAN. Αυτό σημαίνει ότι το υποκείμενο API είναι ίδιο και έτσι τα συστήματα που έχουν σχεδιαστεί για να είναι συμβατά με το API του CKAN λειτουργούν εξίσου καλά με το DKAN. Το DKAN είναι επίσης ανοικτού κώδικα, αλλά βασίζεται στο Drupal, ένα δημοφιλές σύστημα διαχείρισης περιεχομένου γραμμένο σε PHP αντί για Python. Αυτό μπορεί να είναι πιο ελκυστικό για φορείς που έχουν ήδη επενδύσει σε ιστοσελίδες που βασίζονται στο Drupal. Το Drupal έχει τη δική του αρθρωτή αρχιτεκτονική με χιλιάδες επεκτάσεις διαθέσιμες για λήψη. Παρέχει επίσης τη δυνατότητα για προσαρμογή των επεκτάσεων και μια μεγάλη κοινότητα προγραμματιστών.

Junar Το Junar είναι μια πλατφόρμα SaaS ανοικτών δεδομένων που βασίζεται σε υποδομές νέφους, έτσι ώστε τα δεδομένα να τα διαχειρίζονται συνήθως μέσα στην υποδομή του Junar (το μοντέλο "όλα σε ένα"). Το Junar μπορεί να παρέχει είτε έναν πλήρη κατάλογο δεδομένων είτε δεδομένα μέσω ενός API σε έναν ξεχωριστό κατάλογο χρηστών.

OpenDataSoft Το OpenDataSoft είναι μια πλατφόρμα SaaS που βασίζεται σε υποδομές νέφους και προσφέρει μια ολοκληρωμένη σουίτα εργαλείων ανοικτών δεδομένων και οπτικοποίησης. Το front end είναι ανοικτού λογισμικού. Η πλατφόρμα υποστηρίζει κοινές μορφές ανοικτών δεδομένων όπως CSV, JSON και XML, καθώς και γεωχωρικές μορφές όπως KML, OSM και SHP. Η λειτουργία αναζήτησης είναι εύκολη στη χρήση και η πλατφόρμα είναι διαθέσιμη σε πολλές γλώσσες.

Semantic Media Wiki Το Semantic Media Wiki είναι μια επέκταση του MediaWiki - της εφαρμογής wiki που είναι πιο γνωστή για την τροφοδοσία της Wikipedia. Ενώ τα παραδοσιακά wikis περιέχουν μόνο κείμενο, το Semantic MediaWiki προσθέτει σημασιολογικούς σχολιασμούς που επιτρέπουν σε ένα wiki να λειτουργεί ως συλλογική βάση δεδομένων και κατάλογος δεδομένων. Το Σημασιολογικό MediaWiki είναι μια εφαρμογή RDF, που σημαίνει ότι τόσο τα δεδομένα όσο και τα μεταδεδομένα αποθηκεύονται ως συνδεδεμένα δεδομένα και είναι προσβάσιμα μέσω συνδεδεμένων διεπαφών δεδομένων όπως το SPARQL.

Socrata Το Socrata είναι μια πλατφόρμα καταλόγου SaaS που βασίζεται σε υποδομές νέφους και παρέχει εργαλεία API, καταλόγου και επεξεργασίας δεδομένων. Ένα χαρακτηριστικό γνώρισμα του Socrata είναι ότι επιτρέπει στους χρήστες να δημιουργούν προβολές και οπτικοποιήσεις βάσει δημοσιευμένων δεδομένων και να τις αποθηκεύουν για χρήση από άλλους. Επιπλέον, η Socrata προσφέρει μια έκδοση ανοικτού κώδικα του API που προορίζεται να διευκολύνει τις μεταβάσεις για πελάτες που αποφασίζουν να απομακρυνθούν από το μοντέλο SaaS.

Πλατφόρμες γεωχωρικών δεδομένων

ArcGIS Open Data Το ArcGIS Open Data είναι μια πλατφόρμα SaaS που βασίζεται σε υποδομές νέφους, όπου οι χρήστες μπορούν να διερευνήσουν τόσο χωρικά όσο και μη χωρικά δεδομένα, επιτρέποντας τη λήψη σε πολλαπλές ανοικτές μορφές και API. Περιλαμβάνεται δωρεάν με το ArcGIS Online, αξιοποιεί τις υπηρεσίες ArcGIS και ενσωματώνει εκατοντάδες εφαρμογές ανοικτού κώδικα για κινητά, το διαδίκτυο και υπολογιστές. Το ArcGIS Open Data χρησιμοποιεί το Koop, έναν μηχανισμό ETL ανοικτού κώδικα που μετατρέπει αυτόματα τις υπηρεσίες web σε προσβάσιμες μορφές.

Επιπλέον υλικό για ανάγνωση:

Recommendations for Open Data portals: from setup to sustainability: Αυτή η αναφορά της Ευρωπαϊκής Ένωσης καθορίζει πώς μπορούν να προωθηθούν οι πύλες από την υλοποίηση στη βιωσιμότητα, με συστάσεις στους τομείς της διακυβέρνησης, της χρηματοδότησης, της αρχιτεκτονικής, των λειτουργιών και των μετρήσεων.