Von Metadaten zu Ontologien

Last modified by Helmut Nagy on 2010/05/03 18:01

Von Metadaten zu Ontologien

In der Einleitung zu diesem Kapitel wurde die Semantic Web Vision angeführt, aus der hervorgeht, dass das Semantic Web das bestehende Web nicht ersetzten, sondern darauf aufbauen wird. Im vorherigen Abschnitt wurde ausgeführt, dass dabei keine neuen Technologien eingesetzt werden, sondern bestehende Ansätze kombiniert werden und Standards eingeführt werden, die Interoperabilität gewährleisten sollen. In diesem Abschnitt wird versucht, ohne zu sehr in technische Details zu gehen, die Grundlagen des Semantic Web zusammenzufassen. Dem Ganzen vorangestellt sei dies:

[...] das heutige Web ist das Semantic Web in einer rudimentären Ausbaustufe. W3C [World Wide Web Consortium1] sieht das Semantic Web nicht als eine komplette neue Infrastruktur. Vielmehr setzt W3C darauf, dass sich immer mehr Inseln in Semantic Web Technologien bilden, die im Laufe der Zeit vernetzt werden.¹

Im Web wie im Intranet einer Organisation ist Information momentan primär so aufbereitet, dass sie für den Benutzer - das heißt für Menschen - zu entschlüsseln ist, nicht aber für Maschinen - das heißt für Suchmaschinen, Webcrawler usw. Mit Hilfe von Metadaten kann die Information im Web aber so angereichert werden, dass auch Maschinen bis zu einem gewissen Grad darauf schließen können, um welche Information es sich handelt, oder besser noch, welche Information benötigt wird. Nun sind Metadaten auch nichts Neues, sondern schon seit Jahrhunderten im bibliothekarischen Einsatz, auch hier um das Suchen und Finden von Information zu erleichtern. Es wurden Wissensorganisationssysteme entwickelt, um Inhalte über Metadaten zu beschreiben. So gesehen wäre das Semantic Web die Entwicklung eines Wissensorganisationssystems für das Web. Darum sollen hier auch kurz die Grundlagen von solchen Systemen zusammengefasst werden.² Wissensorganisationssysteme sind Modelle zur strukturierten Darstellung von Metadaten, wobei zwischen verschiedenen Arten von Metadaten unterschieden werden kann:

Beschreibende Metadaten
Liefern Information über den beschriebenen Inhalt, z.B. worum es geht.
Beinhaltende Metadaten
Liefern Information zur Klassifizierung des Inhalts, z.B. Format, Autor.
Verwaltende Metadaten
Liefern Information über den Status des Inhalts, z.B. ist öffentliches Dokument.

Die Struktur der Darstellung der Metadaten spiegelt sich wiederum in den Regeln, durch die die Information organisiert wird (Ordnungstypen, z.B. alphabetisch, zeitlich, hierarchisch usw.), und aus diesen Regeln ergeben sich wiederum die Möglichkeiten, Beziehungen (Relationstypen) zwischen Metadaten und Information herzustellen, wobei gilt: „Diese Relationstypen sind für die Komplexität eines Wissensorganisationssystems entscheidend. [...] Wissensorganisationssysteme werden mit der Anzahl an Relationstypen komplexer zu erstellen und zu bedienen.”³

gleichbedeutende Relationen
Begriffslisten, z.B. Glossare, Folksonomies
gleichbedeutende + hierarchische Relationen
Klassifikationen und Kategorien, z.B.: Klassifikationen/Taxonomien
gleichbedeutende + hierarchische + assoziative Relationen
Relationssysteme, z.B. Thesaurus, Ontologien

Mit der steigenden Komplexität der Systeme wächst aber auch die semantische Reichhaltigkeit, der durch sie repräsentierten Systeme. „Ontologien wurden im Umfeld der Künstlichen Intelligenz entwickelt und sind die zentralen Bausteine des Semantic Web: Mit ihnen kann Wissen einer Domäne formal repräsentiert werden und prinzipiell unabhängig von Programmen wieder verwendet werden. Sie beschreiben also Konzepte und ihre Beziehungen innerhalb einer Wissensdomäne und unterstützen Maschinen dabei, Inhalte im Web interpretieren zu können, anstatt sie einfach darzustellen und damit sämtliche Vernetzungstätigkeiten dem Menschen zu überlassen [...]”⁴

Das Semantic Web verwendet also Ontologien als zentrale Bausteine, um Inhalte auszuzeichnen. Da stellt sich nun die Frage, von wem werden diese Ontologien erstellt und gibt es eine Ontologie, die „die Welt im Ganzen beschreibt”? Thomas R. Gruber hat schon 1993 die auch heute noch allgemein anerkannte Definition für eine Ontologie geliefert: „An ontology is an explicit specification of a conceptualization.”⁵ Darin stecken zwei wichtige Aussagen:

Eine Ontologie ist eine explizite Spezifikation eines Konzepts.
Das bedeutet, im Idealfall das Ergebnis eines Verhandlungsprozesses, in dem man sich gemeinsam auf das „Vokabular” einigt, mit dem die Sachverhalte und Zusammenhänge, die das Konzept (oder die Domäne) beschreiben, bezeichnet werden. „Man“ sind in diesem Fall Domänenexperten, die das notwendige Fachwissen haben, um diese Definition treffen zu können, wobei viele der Ontologien im Umfeld des Semantic Web von der Open-Source-Community entwickelt werden, somit einerseits frei verfügbar sind und andererseits für jeden die Möglichkeit besteht, an der Entwicklung der Ontologie teilzunehmen.
Eine Ontologie beschreibt ein Konzept oder eine Domäne.
Es gibt wie weiter oben schon festgestellt keine Ontologie, die „die Welt im Ganzen beschreibt”, sondern eine Vielzahl von Ontologien, die einzelne Aspekte, eben Konzepte oder Domänen beschreiben. Dadurch ist natürlich eine gewisse Heterogenität gegeben, die es aber auch ermöglicht, einen Begriff, der in verschiedenen Domänen vorkommt, aber jeweils anders bezeichnet wird, zu realisieren. Diese Heterogenität kann aber wiederum überwunden werden, indem für die Ontologie eine einheitliche formale Repräsentation (Syntax) gewählt wird, was durch die für das Semantic Web entwickelten Standards gegeben ist.⁶

Eine weitere Frage, die sich stellt, ist, wie viel die Benutzer über diese Ontologien wissen müssen und wie sie sie einsetzten sollen. Denn eins ist klar: Das Semantic Web wird von den Benutzern nur gelebt werden, wenn es für sie einfach funktioniert und keinen wesentlichen Mehraufwand bedeutet. In ihrem Artikel „Das Social Semantic Web aus kommunikationssoziologischer Perspektive” halten Jan Schmidt und Tassilo Pellegrini zu den technischen Grundlagen des Semantic Web fest:

Das Semantic Web ist ein Art globales Mashup aus Content-Einheiten und Relationen. Es beruht auf einer Vielzahl von Methoden und Technologien, mit denen syntaktische Interoperabilität zwischen Maschinen hergestellt werden kann, um digitale Datenbestände und deren Zusammenhänge formal zu ordnen. Der funktionale Fokus des Semantic Web liegt auf der Daten- und Informationsintegration bzw. -logistik [...] Ontologien wirken hierbei als strukturgebendes Element. [...] Doch wo bleibt in einem solcherart formalisierten System die soziale Rückkopplung?⁷

In ihrem Artikel sprechen sie im weiteren davon⁸, dass es sich beim Semantic Web um eine „Back-End-Technologie” handelt. Das bedeutet nun eigentlich, dass die Benutzer wenig bis gar nichts davon mitbekommen werden oder sollen. Sie werden sehr wohl bei der Erstellung von Inhalten dadurch unterstützt, dass die von ihnen definierten Inhalte gleich mit maschinenlesbaren Metadaten versehen und mit Ontologien verknüpft werden. Mit Hilfe von Textmining und durch die verknüpften Ontologien werden also Vorschläge für Schlagworte (und damit Metadaten) gemacht und auf ähnliche Inhalte verwiesen. Inhalte werden mit eindeutigen Kennungen versehen, sodass sie eindeutig adressiert sind und jederzeit in einem anderen Kontext wieder verwendet werden können. Sie werden auch zum Semantic Web beitragen, denn die Metadaten, die sie generieren, und die Zusammenhänge, die sie herstellen, tragen wiederum dazu bei, dass die verwendeten Ontologien permanent erweitert, aktualisiert und an die Bedürfnisse der Benutzer angepasst werden. Sie wird aber wenig bis gar nichts von der dahinter stehenden Technologie wissen, geschweige denn wissen wollen.

^ Birkenbiehl 2006, S. 86
^ Geyer-Hayden 2009, S. 128ff
^ Geyer-Hayden 2009, S. 130
^ Blumauer 2006, S. 12
^ Gruber 1993, S.1
^ Ehrig 2006, S. 470
^ Schmidt 2009, S. 460-461
^ Schmidt 2009, S. 461 ff

Von Metadaten zu Ontologien