Συνδεδεμένα Ανοικτά δεδομένα

Ο Σημασιολογικός Ιστός δεν αφορά μόνο την τοποθέτηση δεδομένων στο διαδίκτυο. Πρόκειται για τη δημιουργία δεσμών, έτσι ώστε ένα άτομο ή μια μηχανή να μπορεί να εξερευνήσει τον ιστό των δεδομένων. Με τα συνδεδεμένα δεδομένα, όταν διατίθενται μερικά από αυτά, μπορούν να βρεθούν και άλλα σχετικά δεδομένα. Όπως και ο ιστός του υπερκειμένου (hypertext), ο ιστός δεδομένων κατασκευάζεται με έγγραφα στον ιστό. Ωστόσο, σε αντίθεση με τον ιστό του υπερκειμένου, όπου οι συνδέσεις είναι σχέσεις «άγκυρας» σε έγγραφα υπερκειμένου γραμμένα σε HTML, για δεδομένα συνδέονται μεταξύ αυθαίρετων πράξεων που περιγράφονται από το RDF. Τα URI αναγνωρίζουν οποιοδήποτε είδος αντικειμένου ή έννοια. Αλλά για HTML ή RDF, ισχύουν οι ίδιες προσδοκίες για να αυξηθεί ο ιστός:

• Χρήση URI ως ονόματα για πράγματα.

• Χρήση URI HTTP έτσι ώστε οι χρήστες να μπορούν να αναζητούν αυτά τα ονόματα.

• Όταν κάποιος ψάχνει ένα URI, παρέχει χρήσιμες πληροφορίες χρησιμοποιώντας τα πρότυπα (RDF *, SPARQL).

• Συμπερίληψη συνδέσμων προς άλλα URI ώστε να μπορούν να ανακαλυφθούν περισσότερα πράγματα.

Μπορεί να «φαίνεται απλό» αλλά στην πραγματικότητα, ένας εκπληκτικά μεγάλος όγκος δεδομένων δεν συνδέεται μεταξύ του, λόγω προβλημάτων με ένα ή περισσότερα από τα βήματα. Αυτή η ενότητα περιγράφει λύσεις σε αυτά τα προβλήματα, λεπτομέρειες εφαρμογής και παράγοντες που επηρεάζουν επιλογές σχετικά με τον τρόπο δημοσίευσης των δεδομένων.

Οι τέσσερις κανόνες

Τα παραπάνω βήματα μπορούν να αναφερθούν ως οι βασικοί κανόνες, αλλά είναι «προσδοκίες συμπεριφοράς». Το σπάσιμο τους δεν καταστρέφει τίποτα, αλλά χάνεται η ευκαιρία να διασυνδεθούν τα δεδομένα. Αυτό με τη σειρά του περιορίζει τους τρόπους με τους οποίους μπορεί αργότερα να επαναχρησιμοποιηθούν. Είναι ακριβώς αυτή, η απροσδόκητη επαναχρησιμοποίηση των πληροφοριών που δίνει προστιθέμενη αξία στον ιστό.

Ο πρώτος κανόνας, για να εντοπίσει κάποιος τα πράγματα με URI, είναι κατανοητός από τους περισσότερους ανθρώπους που ασχολούνται με τεχνολογίες σημασιολογικού ιστού. Εάν δεν χρησιμοποιεί το γενικό σύνολο συμβόλων URI, δεν το ονομάζουμε Σημασιολογικό Ιστό.

Ο δεύτερος κανόνας, για τη χρήση των URI HTTP, είναι επίσης ευρέως κατανοητός. Η μόνη απόκλιση που υπήρξε είναι, από την έναρξη του ιστού, μια συνεχής τάση για τους ανθρώπους να εφεύρουν νέα σχήματα URI (και επιμέρους σχήματα εντός του σχήματος urn:) όπως LSIDs, «handles», XRIs και DOI και ούτω καθεξής για διάφορους λόγους. Συνήθως, αυτά δείχνουν ότι δεν επιθυμούν να δεσμευτούν στο καθιερωμένο σύστημα ονομάτων τομέα (DNS) για την ανάθεση εξουσίας, αλλά για να κατασκευάσουν κάτι υπό ξεχωριστό έλεγχο. Μερικές φορές έχει να κάνει με την μη κατανόηση ότι τα URI HTTP είναι ονόματα (όχι διευθύνσεις) και ότι η αναζήτηση ονόματος HTTP είναι ένα σύνθετο, ισχυρό και εξελισσόμενο σύνολο προτύπων. Αυτό το ζήτημα ήδη έχει συζητηθεί σε μεγάλο βαθμό.

Ο τρίτος κανόνας, ότι κάποιος θα πρέπει να εξυπηρετεί πληροφορίες στον ιστό ενάντια σε ένα URI, παρακολουθείται για τις περισσότερες οντολογίες, αλλά, για κάποιο λόγο, όχι για κάποια σημαντικά σύνολα δεδομένων. Κάποιος μπορεί, γενικά, να αναζητήσει τις ιδιότητες και τις κατηγορίες που βρίσκουν στα δεδομένα και να πάρει πληροφορίες από τις οντολογίες RDF, RDFS και OWL, συμπεριλαμβανομένων των σχέσεων μεταξύ των όρων στην οντολογία. Η βασική μορφή εδώ για RDF / XML, με τη δημοφιλή εναλλακτική σειρά N3 (ή Turtle). Τα μεγάλα σύνολα δεδομένων παρέχουν μια υπηρεσία ερωτήματος SPARQL, αλλά και τα βασικά συνδεδεμένα δεδομένα πρέπει να παρέχονται επίσης. Πολλά έργα έρευνας και αξιολόγησης κατά τα λίγα χρόνια των τεχνολογιών του Σημασιολογικού Ιστού παρήγαγαν οντολογίες και σημαντικές αποθήκες δεδομένων, αλλά τα δεδομένα, αν είναι διαθέσιμα, είναι θαμμένα κάπου σε ένα αρχείο zip, αντί να είναι προσβάσιμα στον ιστό ως συνδεδεμένα δεδομένα. Το έργο Biopax, τα δεδομένα του CSAktive για τους ανθρώπους και τα ερευνητικά έργα στον τομέα της πληροφορικής ήταν δύο παραδείγματα. Υπάρχει επίσης ένα μεγάλο και αυξανόμενο ποσό των URI των μη οντολογικών δεδομένων που μπορούν να εξεταστούν. Τα σημασιολογικά wikis είναι ένα παράδειγμα. Οι οντολογίες του προγράμματος "Friend of a friend" (FOAF) και “Description of a Project” (DOAP) χρησιμοποιούνται για την οικοδόμηση κοινωνικών δικτύων στον ιστό. Οι τυπικές πύλες κοινωνικού δικτύου δεν παρέχουν συνδέσμους σε άλλους ιστότοπους ούτε εκθέτουν τα δεδομένα τους σε τυποποιημένη μορφή. Το LiveJournal και η Opera είναι δύο δικτυακοί τόποι της πύλης που δημοσιεύουν τα δεδομένα τους στο RDF στον ιστό.

Ο τέταρτος κανόνας, για τη δημιουργία δεσμών αλλού, είναι απαραίτητος για να συνδεθούν τα δεδομένα που κατέχει κάποιος σε έναν ιστό, έναν σοβαρό, απεριόριστο ιστό στον οποίο μπορούν να βρεθούν όλα τα είδη των πραγμάτων, ακριβώς όπως στον ιστό υπερκειμένων που καταφέρθηκε να οικοδομηθεί. Σε ιστοσελίδες υπερκειμένου θεωρείται γενικά μάλλον κακή πρακτική να μην συνδέεται με σχετικό εξωτερικό υλικό. Η αξία των οικείων πληροφοριών βασίζεται σε μεγάλο βαθμό στη συνάρτηση με αυτό που συνδέεται, καθώς και με την εγγενή αξία των πληροφοριών μέσα στην ιστοσελίδα. Έτσι είναι και στον Σημασιολογικό Ιστό. Παρακάτω καταγράφονται τρόποι σύνδεσης των δεδομένων, ξεκινώντας με τον απλούστερο τρόπο δημιουργίας ενός συνδέσμου.

Βασική αναζήτηση ιστού Ο πιο απλός τρόπος για να δημιουργήσει κάποιος συνδεδεμένα δεδομένα είναι να χρησιμοποιήσει σε ένα αρχείο ένα URI που δείχνει σε ένα άλλο. Όταν γράφει ένα αρχείο RDF: , τότε μπορούν να χρησιμοποιηθούν τα τοπικά αναγνωριστικά μέσα στο αρχείο, για παράδειγμα #albert, #brian και #carol. Στο Ν3 ίσως να γραφτεί fam: παιδί , . ή σε RDF / XML <rdf: Περιγραφή about = "# albert"
Η αρχιτεκτονική του WWW δίνει τώρα στον Albert τον παγκόσμιο αναγνωριστικό τίτλο "http://example.org/smith#albert". Αυτό είναι ένα πολύτιμο πράγμα που πρέπει να γίνει, καθώς οποιοσδήποτε στον πλανήτη μπορεί τώρα να χρησιμοποιήσει αυτό το παγκόσμιο αναγνωριστικό για να αναφερθεί στον Albert και να δώσει περισσότερες πληροφορίες. Για παράδειγμα, στο έγγραφο κάποιος μπορεί να γράψει: fam: παιδί , . ή σε RDF / XML <rdf: Περιγραφή about = "# denise"
Είναι σαφές ότι είναι λογικό όποιος συναντά το αναγνωριστικό «http://example.org/smith#carol» να:

• Δημιουργήσει το URI του εγγράφου με περικοπή πριν από το hash

• Αποκτήσει πρόσβαση στο έγγραφο για να λάβει πληροφορίες σχετικά με #carol Αυτό το ονομάζουμε «αποδιαμόρφωση του URI». Αυτός είναι ο βασικός σημασιολογικός ιστός.

Είναι τα Συνδεδεμένα Ανοικτά Δεδομένα «5 Star»; Για την περαιτέρω ενθάρρυνση των ανθρώπων - ιδίως των ιδιοκτητών δημόσιων δεδομένων - για καλύτερα συνδεδεμένα δεδομένα, αναπτύχθηκε από τον Tim Berners-Lee το παρακάτω σύστημα βαθμολόγησης αστεριών. Τα Συνδεδεμένα Δεδομένα ορίζονται παραπάνω. Τα Συνδεδεμένα Ανοικτά Δεδομένα (Linked Open Data - LOD) είναι Συνδεδεμένα Δεδομένα που παρέχονται με ανοικτή άδεια χρήσης, η οποία δεν εμποδίζει την επαναχρησιμοποίησή τους δωρεάν. Το Creative Commons CC-BY είναι ένα παράδειγμα ανοιχτής άδειας, όπως και η ανοικτή κυβερνητική άδεια του Ηνωμένου Βασιλείου. Συνδεδεμένα Δεδομένα, φυσικά, δεν σημαίνει ότι πρέπει γενικά να είναι ανοιχτά - υπάρχει χρήση εσωτερικών δεδομένων με μεγάλη σημασία, καθώς και δεδομένων προσωπικού χαρακτήρα. Κάποιος μπορεί να παρέχει συνδεδεμένα δεδομένα 5 αστέρων χωρίς να είναι ανοικτά. Ωστόσο, εάν ισχυρίζεται ότι είναι Συνδεδεμένα Ανοικτά Δεδομένα τότε πρέπει να είναι ανοιχτά, για να πάρει κάποιο αστέρι. Αστέρι Εάν οι πληροφορίες έχουν δημοσιοποιηθεί, ακόμη και αν πρόκειται για μια φωτογραφία μιας σάρωσης - αν έχει ανοικτή άδεια λαμβάνει ένα αστέρι. Λαμβάνονται περισσότερα αστέρια καθιστώντας τα σταδιακά πιο ισχυρά, πιο εύκολα για τους «καταναλωτές δεδομένων» να τα χρησιμοποιούν.

Διαθέσιμο στον ιστό (ανεξάρτητα από τη μορφή), αλλά με ανοικτή άδεια, για να είναι ανοιχτά δεδομένα

★★ Διατίθεται ως δομημένα δεδομένα, σε μηχαναγνώσιμη μορφή (π.χ. excel αντί για σάρωση εικόνας ενός πίνακα),

★★★ Όπως τα (2) συν μη κατοχυρωμένη μορφή (π.χ. CSV αντί excel)

★★★★ Όλα τα παραπάνω συν χρήση ανοικτών προτύπων από το W3C (RDF και SPARQL) για να εντοπιστούν οι πληροφορίες, έτσι ώστε οι χρήστες να μπορούν να τις επισημαίνουν

★★★★★ Όλα τα παραπάνω, συν σύνδεση των δεδομένων με δεδομένα άλλων παρόχων για την παραγωγή περιεχομένου