Linking Open Data

Last modified by Helmut Nagy on 2010/05/03 18:01

Linking Open Data ist ein Projekt der „W3C Semantic Web Education and Outreache Interest Group” (W3C SweoIG) und ist auch verbunden mit dem „Linking Open Data community project“, das seine Ziele wie folgt definiert:

"Linked Data is about using the Web to connect related data that wasn't previously linked, or using the Web to lower the barriers to linking data currently linked using other methods. More specifically, Wikipedia defines Linked Data as "a term used to describe a recommended best practice for exposing, sharing, and connecting pieces of data, information, and knowledge  on the Semantic Web using URIs and RDF."1

Um noch ein bisschen weiter zurückzugehen, steht am Anfang wieder ein Artikel von Tim Berners-Lee mit dem Titel „Linked Data”, in dem er die Bedeutung von verlinkten Daten darlegt und vier Grundregeln für das Erstellen von verlinkten Daten definiert: „The Semantic Web isn’t just about putting data on the web. It is about making links, so that a person or machine can explore the web of data. With linked data, when you have some of it, you can find other, related, data.”2 Die vier Grundregeln werden hier in einer adaptierten und aktualisierten Version von Michael Hausenblas wie folgt definiert:

  1. All items should be identified using URIs;
  2. All URIs should be dereferenceable, that is, using HTTP URIs allows looking up an item identified through the URI;
  3. When looking up an URI - that is, an RDF property is interpreted as a hyperlink - it leads to more data, which is usually referred to as the follow-your-nose principle;
  4. Links to other URIs should be included in order to enable the discovery of more data.3

Es geht also darum, den im vorigen Abschnitt angesprochenen Standards entsprechend, Daten für das Semantic Web zur Verfügung zu stellen und zu verknüpfen. In einem Paper für die vierte „European Semantic Web Conference“ 2007 formulierten Chris Bizer, Tom Heath u.a.: „A functioning Semantic Web is predicated on the availability of large amounts of data as RDF; not in isolated islands but as a Web of interlinked datasets. To date this prerequisite has not been widely met, leading to criticism of the broader endeavor and hindering the progress of developers wishing to build Semantic Web applications.”4 Sie präsentierten hier noch ein sehr überschaubares Netz von verknüpften Datensätzen (siehe unten), wobei die Größe der Kreise die Anzahl der Datensätze wieder spiegelt und die Anzahl der ein- und ausgehenden Pfeile die Verknüpfungen zu anderen Datensätzen. Insgesamt wurde der Umfang zu diesem Zeitpunkt mit über einer Milliarde RDF-Triples angegeben, was der gesamten Anzahl der Datensätze entspricht, und mit 120.000 RDF-Links, was der Gesamtzahl der Verbindungen zwischen den Datensätzen entspricht.

Linked Data 2007Linked Open Data Cloud, Stand Mai 2007

Wie rasant das Wachstum der verfügbaren Datensätze ist, zeigt der Vergleich zum Status von März 2009 also kaum zwei Jahre später (siehe unten). Die Linked Open Data Cloud ist nun schon um einiges umfangreicher und nicht mehr so einfach zu erfassen. In einem Artikel zum Einsatz von Linked Data führt Michael Hausenblas die Zahl der Datensätze mit über zwei Milliarden an, womit sie sich im Vergleich zu 2007 verdoppelt hat, und die Anzahl der Links zwischen den Datensätzen, die mit über drei Millionen gegenüber 2007 um ein Zigfaches gewachsen ist.5 Hier werden auch einige Beispiele für die Möglichkeiten zum Einsatz dieser Daten gegeben, wie z.B. faviki ein Social Bookmarking System, das über DBPedia Begriffe aus Wikipedia zum semantischen Tagging zur Verfügung stellt, oder DBpedia Mobil4, ein Programm, das basierend auf der momentanen Position eine Landkarte mit Informationen über in der Nähe liegende Orte und Sehenswürdigkeiten aus DBpedia (und damit aus Wikipedia) anzeigt.

Linked Data 2009Linked Open Data Cloud, Stand März 2009

Die oben angeführten Beispiele zeigen schon die Möglichkeiten und den Wert, den diese Daten bieten können, und auch, dass hier schon ein riesiger Pool an Daten vorhanden ist. In einem Nebensatz zur Verwendung der Regeln für verlinkte Daten schreibt Tim Berners-Lee: „It is the unexpected re-use of information which is the value added by the web.”6 Ihren Artikel „What is the Size of the Semantic Web?” beenden Michael Hausenblas und seine Mitautoren mit der Feststellung: „In a nutshell, the answer is: just as the surface of a sphere is bounded but unlimited, the Semantic Web is.”7

  1. ^ Heath 2009, Stand: 15.4.09
  2. ^ Berners-Lee 2006
  3. ^ Hausenblas 2009, Stand 12.5.2009
  4. ^ Bizer 2007, S. 1
  5. ^ Hausenblas 2009, Stand 12.5.2009
  6. ^ Berners-Lee 2006, Stand: 15.4.2009
  7. ^ Hausenblas 2009, Stand 12.5.2009