Neue Metadaten braucht das Land

From Seven
Jump to: navigation, search
Autor: Arnulf CHRISTL
Veröffentlicht in: Strobl, Blaschke, Griesebner: 
   Angewandte Geoinformatik 2010, 
   Beiträge zum 22. AGIT-Symposium. Salzburg ISBN: 978-3-87907-495-2.

Link zu den Folien wurde korrigiert
Download als editierbares Dokument (ODT) oder PDF. Der begleitende Foliensatz vom Vortrag auf der AGIT ist auch als editierbares Dokument (ODP) oder als PDF verfügbar.

Contents

Zusammenfassung

Als Metadaten oder Metainformationen werden allgemein Daten bezeichnet, die Informationen über andere Daten enthalten. Es gibt keine allgemeingültige Unterscheidung zwischen Metadaten und "gewöhnlichen" Daten, da die Bezeichnung eine Frage des Standpunkts ist. Metadaten sind in der digitalen Welt nicht von Daten unterscheidbar. Damit unterscheiden sich Metadaten von Dingen, wie z.B. eine Karteikarte von einem Buch, grundsätzlich von digitalen Daten, die beides gleichzeitig sind. Metadaten können in der digitalen Welt auch als ein Aspekt oder eine Sicht auf Daten und damit auch auf sich selbst verstanden werden. Diese Perspektive erschließt ganz neue Möglichkeiten. Die aktuelle Metadatenverarbeitung wie sie auch durch INSPIRE beschrieben wird, berücksichtigt die vielfältigen Vorteile digitaler (Meta)-Daten noch nicht. Nach einer kurzen Einführung in grundsätzlich Unterschiede zwischen der dinglichen und digitalen Welt wird kurz die Geschichte traditioneller, analoger Katalogtechniken angerissen. Anschließend werden die Besonderheiten digitaler Daten beleuchtet und kurz Techniken vorgestellt, die diese in Zukunft besser nutzen werden. Zum Abschluss wird auf die unter den Schlagwörtern Social Networking und Web 2.0 bekannte und noch etwas ungewohnte kulturelle Technik der sozialen Vernetzung verwiesen, die sich optimal eignet, um die neuen, digitalen (Meta)-Daten in Wert zu setzen.

Kataloge

Kataloge ermöglichen es, Gegenstände systematisch in knapper Form zu beschreiben und zu sortieren. Dafür wird zunächst ein festes Schema erstellt mit dem die Gegenstände beschrieben werden. Eine Systematik ordnet diese Beschreibungen in einer festen Struktur an.

Die Systematik von Bibliotheken

Über Jahrhunderte wurden Konzepte und Techniken für die Verwaltung von Metadaten in Katalogen entwickelt. Vor allem das Bibliothekswesen hat sehr früh angefangen, Metadaten zu erheben und Kataloge zu entwickeln, um Bücher zu verwalten und auffindbar zu machen. Dabei ist eine immer weiter ausgefeilte aber niemals vollständige Klassifikation entstanden, die über Ordnungsschemata sortiert wurde (Weinberger, 2008). Das am weitesten verbreitete Ordnungsschema ist die alphabetische Sortierung. Sie ist opak (undurchsichtig) weil das Alphabet kein inhaltlich-semantisches Ordnungskriterium ist, sondern ein selbstreferentielles. Die alphabetische Sortierung der Autorennamen in einer Literaturliste sagt nichts über den Inhalt, Relevanz, Qualität oder das Alter der Publikation aus. Um eine eindeutig benannte Information zu finden ist diese Art von Katalog durchaus geeignet, aber nicht um darin zu suchen, im Sinn von "stöbern". Festzuhalten bleibt, dass Kataloge primär dazu geeignet sind Dinge zu finden, die bereits bekannt sind.

Der Katalog der Industrie – die Registratur

In einer traditionellen, kleinen Schmiede oder Tischlerei konnten alle Gegenstände, die für die Produktion benötigt wurden, in überschaubaren (also visuell erfassbaren) Lagern vorgehalten werden. Mit der Industrialisierung wurden für die Produktion Teilelager erforderlich, und mit ihnen neue Anforderungen an die Verwaltung der Lager. Eine wachsende Anzahl unterschiedlicher Gegenstände musste sortiert und auffindbar gemacht werden. Hierfür wurde die traditionelle Katalogtechnik der Bibliotheken genutzt, angepasst und erweitert. Des weiteren wurde es erforderlich, unüberschaubare Mengen gleichartiger Dinge zu lagern. Diese Bestände mussten erfasst und die Mengen kontrolliert werden. Hierfür wurden Registraturen entwickelt, die optimal geeignet sind bekannte Inventare zu beschreiben und zu verwalten. Eine weitere Neuerungen war die stringente Arbeitsteilung in Einkauf, Produktion und Verkauf. Die Trennung von Anbieter und Nutzer pflanzte sich in die Organisationsstruktur fort. Die Registratur konnte unterschiedliche Nutzer bedienen, die ihren Bedarf nicht mehr direkt an den Anbieter kommunizieren mussten. Wird ein Teil aus dem Lager genommen, können Schwellenwerte überprüft und Lagerbestände aufgefüllt werden ohne explizit kommunizieren zu müssen.

Materielles und nicht-Materielles

Es ist für das weitere Verständnis von Ordnung und Sortierung wichtig, grundsätzliche Überlegungen zur materiellen und nicht-materiellen Welt anzustellen. Nicht-materielle "Dinge" wie digitale Daten und Informationen zeichnen sich durch eine Reihe von Eigenschaften aus, die sie grundlegend von der materiellen Welt unterscheiden. Dazu zählen vor allem Vervielfältigung (Kopieren), Ordnung (Sortieren) und Suchen (Finden).

Kopieren

Die Erstellung einer identischen Kopie eines Gegenstands ist in der materiellen Welt unmöglich. Kein Gegenstand ist niemals identisch, egal wie viel Sorgfalt aufgewendet wird. Die Herstellung jeder "Kopie" eines Gegenstands benötigt mindestens genau so viel Energie und Materie wie das Original. Mit Information und digitalen Daten verhält es sich grundsätzlich anders. Das Rohmaterial einer Information oder eines gedanklichen Zusammenhangs ist die Idee und deren Konkretisierung in einer Beschreibung. Ist die Information erst einmal erstellt (die Schaffung eines Werkes) und digital formatiert, kann sie beliebig oft vervielfältigt werden. Gleiches gilt für räumliche Beobachtungen und Daten. Sobald das Satellitenbild oder die Vermessung eines Grundstücks als Information erhoben wurde und digital bereit steht, kann sie beliebig oft dupliziert werden, ohne dass die Aufnahme selbst noch einmal erfolgen müsste.

Der Vorgang des massenhaften Kopierens hat sich in der Kulturhistorie erst spät entwickelt. Frühe Formen des Kopierens, z.B. die Erstellung handschriftlicher Bücher war mit außerordentlich viel Handarbeit und Zeit verbunden und unterschieden sich deshalb noch nicht sehr von der Herstellung des Ausgangsprodukts selbst. Mit dem Aufkommen der Drucktechnik wurde eine frühe Form der Vervielfältigung möglich. Der Fotokopierer stellt eine weitere Vereinfachung des Prozesses dar, die allerdings immer noch mit einem Qualitätsverlust einher ging. Heute ist das exakte Kopieren digitaler Daten mit minimalen Grenzkosten verbunden was z.B. auch das Phänomen der Open Source Bewegung ermöglichte und neue Fragen zu Eigentum aufwirft (Phelps, 2010). Gegenstände bleiben weiterhin nicht in dieser Form kopierbar (außer in Science Fiction Welten wie z.B. dem Star Trek Universums in dem Replikatoren die Erzeugung von Materie ermöglichen (Wikipedia, Juli 2010)).

Anordnen, suchen und sortieren

Gegenstände lassen sich anordnen. Dabei gibt es zwei deutlich unterscheidbare Möglichkeiten. Sie können entweder gleichberechtigt nebeneinander oder sich gegenseitig verdeckend hintereinander angeordnet werden. Werden zwei Dinge nebeneinander (oder übereinander) angeordnet sind sie gleichzeitig sichtbar. Stehen sie hintereinander, verdeckt das eine das andere. Diese Problematik optimal zu lösen ist z.B. die Aufgabe von Auslagen und Regalen in Verkaufsräumen und Lagern (Weinberger, 2008).

Die Suche (der Einfachheit halber wird hier nur die visuelle Suche berücksichtigt) nach einem Gegenstand erfolgt über das Erkennen. Wird ein Objekt von dem davor stehenden verdeckt, ist es ungleich schwieriger zu suchen und durch Erkennen zu finden.

Die Anordnung von Gegenständen kann auch nach einer bestimmten Sortierung erfolgen. Dabei muss das Schema der Sortierung, die Ordnung, vorher festgelegt werden. In der Lebensmittelabteilung stehen die Nudeln deshalb neben den Soßen. Im Heimwerkerbereich die Schrauben neben den Nägeln (Kategorie:Befestigungsmittel) und der Hammer neben dem Schraubendreher (Kategorie:Werkzeug). Der Hammer kann nicht gleichzeitig bei den Nägeln angeordnet sein.

In der digitalen, nicht-materiellen Welt ist das anders. Digital bereitgestellte Informationen können mit extrem wenig Aufwand umsortiert und anders angeordnet werden. Sie können beliebig oft dupliziert und mehrfach angeordnet werden. Die nicht-materiellen Metadaten eines Hammers können z.B. als Verweis oder als Kopie sowohl neben den Nägeln als auch bei den Werkzeugen gesetzt werden. Bei den Nägeln ist nicht nur ein Verweis auf den Hammer hinterlegt, sondern es kann zusätzlich ein Verweis auf Zangen gesetzt werden. Bei den Zangen werden aber auch Rohrzangen einsortiert, obwohl die nichts mit Nägeln zu tun haben. Und Rohrzangen haben einen Verweis zu Waschbecken, nicht aber zu Hämmern. Alle Bezüge können außerdem dynamisch, im Augenblick der Anfrage neu zusammengestellt werden, wie man es auch schon aus großen Verkaufsplattformen wie Amazon kennt. Die Ordnung nicht-materieller Gegenstände, die Sortierung und das Suchen unterliegen nicht den Beschränkungen von Raum und Materie und werden dadurch unendlich komplex.

Von der analogen in die digitale Welt

Mit dem Aufkommen der technischen Datenverarbeitung wurden auch Bibliotheken und Registraturen digital abgebildet und profitierten jetzt von Computern, die große Menge von Daten schnell verarbeiten konnten. Software kann jederzeit berechnen, ob die Produktion ausreichend mit Teilen versorgt ist. Preislisten können mit dem Rohmarktpreis verknüpft werden, Grenzkosten können ermittelt werden und so weiter. Der Übergang von der analogen in die digitale Welt ist dabei mehrstufig. Zunächst wurden Karteikarten (Metadaten) digital nachgebildet. Dadurch wurde der gesamte Katalog kopierbar. Als nächstes wurde die Sortierung erweitert und das bisher alles beherrschende Alphabet wurde durch andere Kriterien ergänzt und kombiniert.

Ein ähnlicher Prozess konnte bei den ersten Formularservern beobachtet werden. Zunächst wurde das Papierformular lediglich als Datei zum Herunterladen bereitgestellt. In einem weiteren Schritt wurden aus den Papierformularen digitale HTML-Eingabemasken und die Inhalte in zentralen Datenbanken gespeichert. Damit wurde die Information selbst digital. Erst dieser Schritt ermöglichte unbegrenzte Sortier- und Verknüpfbarkeit. Karten und digitale Geodaten

Karten wie ein Bebauungsplan (B-Plan) können wie Bücher durch Metadaten beschrieben werden. Dabei wird für ein Kartenblatt (der B-Plan) eine Karteikarte angelegt, die ihn beschreibt und über eine eindeutig Nummer auffindbar macht. Die Nummer und der Umring des B-Plans können auf einer Übersichtskarte vermerkt werden, die so selbst ein Teil der Metadaten wird. Dadurch kann die Suche auch räumliche Ordnungskriterien beinhalten. Die erste Phase der Überführung in die digitale Welt beschränkt sich auf den Scan, also die Erstellung einer analogen Kopie des B-Plans, einer Pixelgraphik (Stadtverwaltung Landau - Stadtbauamt 2010) und eines separat dazu existierenden Katalogeintrags (GeoPortal RLP, 2010). Die Semantik des Planes ist noch nicht maschinenlesbar, da ihr keine beschreibende Struktur zugrunde liegt. Erst wenn die Information selbst digital ist, greifen alle Vorteile digitaler Datenstrukturen.

Ohne einen Erläuterungstext (Stadt Landau in der Pfalz 2010), der ebenfalls digital erfasst werden muss, ist der B-Plan semantisch nicht vollständig. Die Syntax eines einfachen Textes ist derzeit digital ungleich einfacher zu erfassen als die Inhalte einer Karte, deshalb können Texte auch über ihren semantischen Zusammenhang gesucht werden. Der Text kann indexiert und sortiert werden und wird über Suchmaschinen auffindbar. In einem nächsten Schritt müssen auch die Rohdaten der B-Plan Karte digital bereitgestellt werden, wodurch sie ebenfalls indexiert und mit Verweisen (Links) ausgestattet werden können.

Akteure

Ein Problem digitaler Geodaten und ihrer Metadaten liegt in der unterschiedlichen Herangehensweise und Motivation der Hauptakteure "Anbieter" und "Nutzer". Typischerweise ordnet der Anbieter seine Produkte (oder Daten) nach einem Schema, das für die eigenen Geschäftsprozesse optimiert ist. Um Informationen finden zu können, müssen sich die Nutzer zunächst diese ihnen fremde Schemata, die aus völlig anderen Geschäftsprozessen stammen, zu Eigen machen. Des weiteren müssen sie die "richtigen" Parameter als Suchkriterium eingeben. Der Nutzer kann nicht mit den eigenen Ordnungskriterium und Klassifikation suchen, was die Möglichkeiten erheblich einschränkt.

Zusätzliche Metadaten werden sowohl von Anbietern als auch Nutzern häufig als Beiwerk betrachtet, denn man kennt ja seine eigenen Daten. Wozu also noch mal beschreiben? Die Mehrheit der Software-Anwendungen ist derzeit noch nicht in der Lage das durch INSPIRE verordnete Format (Open Geospatial Foundation, 2004) automatisch zu erzeugen, obwohl die meisten dafür erforderlichen Informationen bereits in den Daten enthalten sind. Die Erstellung solcher Metadaten ist also ein Mehraufwand, der den Datenanbietern keinen erkennbaren Nutzen bringt.

INSPIRE macht Metadaten zu einem notwendigen Übel mit gesetzlicher Verpflichtung. Wer Geodaten erstellt, pflegt oder einfach nur hat, wird gesetzlich verpflichtet sie in einem Standard-konformen Format zu beschreiben. Das Ergebnis ist ein neuer, separater Datenbestand, der meist weder in die aktuelle Softwarelandschaft noch in die Geschäftsprozesse integriert ist. Es wird erwartet, dass sich sowohl die Technologie-Anbieter als auch die Geschäftsprozesse der Anwender nach diesen neuen Formaten und Vorgaben richten. Durch INSPIRE in seiner jetzigen Form ist also keine grundlegende Verbesserung der Informationslage zu erwarten.

Die digitalen Daten inhärenten Eigenschaften beliebiger Ordnung, Verknüpfung und Sortierbarkeit kommen nicht zum Tragen. Die dafür erforderliche Technik ist bereits seit langem verfügbar, hat sich aber in der räumlichen Datenverarbeitung mangels Bekanntheit noch nicht durchgesetzt.

Technik

Das Hypertext System des Internet und die Auszeichnungssprache XML stellen die Technik bereit, um digitale Daten im globalen Netz (Internet) beliebig zu indexieren, anzuordnen und in der Folge zu durchsuchen. Die am weitesten verbreitete und zuverlässigste technische Ausprägung einer Verbindung im globalen Netz ist der Uniform Resource Locator (URL). Es gibt technische Lösungen, um die Dynamik von URL abzubilden, z.B. wenn eine Seite eine neue Adresse bekommt. Die HTTP-Statuscodes der 3er Serie (Umleitung) beinhalten in der Rückgabe den neuen Ort der Seite (Christl, 2010). Unabhängig davon ist bei der Erstellung von URL darauf zu achten, dass sie im weitesten Sinn "sinnvoll" und langlebig sind. Eine URL sollte sich ähnlich verhalten wie eine Adresse, die sich aus Land, Ort, Straße und Hausnummer und ggf. Postleitzahl zusammensetzt. So wie Länder, Orte und Straßen nicht im Raum "herumhüpfen" sollten auch URL eine hohe Persistenz haben.

Im oben beschrieben Fall wird der B-Plan digital als Dienst bereitgestellt. In einem nächsten Schritt sollte der B-Plan jedoch nicht nur als Pixelgraphik bereitgestellt werden, wie es der OGC WMS Standard erlaubt, sondern vollständig inklusive Geometrie und Alphanumerik, wie in den OGC Standards WFS und SLD spezifiziert. Der WFS liefert die Rohdaten der Karte die der OGC WMS liefert. Die vom WFS gelieferten Daten sind maschinenlesbar (in XML, GML und optional RDF) und eröffnen damit die Möglichkeit sie automatisiert zu indizieren. Metainformation und die Information selbst sind jetzt vollständig vermischt und ergänzen sich. Die Indexierung erlaubt die beliebige Sortierung und Klassifikation der Information und gestattet es Auszüge zu erstellen und die Information mit weiteren Quellen zu verbinden. Jedes Objekt eines B-Plans wird so über eine eindeutige Web-Adresse (URL) erreichbar und kann mit beliebigen weiteren digitalen Daten verknüpft werden. Diese Technik wird derzeit zunehmend unter dem Begriff Linked Data (http://linkeddata.org/) bekannt.

Ein Ausblick auf die "Soziale Vernetzung"

Zusammengefasst kann festgestellt werden, dass Metadaten nicht separat von den digitalen Datenbeständen gepflegt werden sollten, die sie beschreiben. Ihr volles Potential können sie nur entfalten, wenn sie direkt aus den Daten selbst extrahiert werden, im Idealfall zur Laufzeit. Hierbei gibt es zwei Möglichkeiten: Entweder werden die Metadaten von der Software automatisch abgeleitet und bereitgestellt, oder spezielle Indexierungssoftware analysiert und durchsucht selbständig Rohdaten die in einem offene Standard wie GML, RDF, Atom oder RSS hinterlegt werden. Zusätzliche Informationen, die nicht in den Daten selbst enthalten sind, also auch nicht automatisch extrahiert werden können (Autor, Qualität, Aktualisierungsrhytmus, etc.), müssen anderweitig dauerhaft an die Ursprungsdaten gekoppelt werden. Hier kommt wieder die flexible technische Lösung der URL zum Einsatz.

Je mehr Daten in dieser Weise über das Internet recherchierbar werden, um so mehr Anwendergemeinschaften können entstehen. Diese sozialen Netzwerke erstellen eigene Klassifikationen und Beschreibungen (Ontologien) und vernetzen sie mit Geodaten. Dabei ist es unerheblich, die Metadaten in einem exakt gleichen Schema vorzuhalten, wie es derzeit von INSPIRE gefordert wird. Es ist viel wichtiger, dass möglichst viel Information ausgezeichnet verlinkt, erreichbar und zugreifbar ist. Für den ersten Teil zeichnen die Anbieter verantwortlich, für den zweiten die Nutzer selbst. Nur so wird ein Angebot entstehen das den Nutzern bietet was sie brauchen, ohne die Anbieter mit zusätzlichen Aufgaben zu belasten, die ihnen keinen Mehrwert bei der täglichen Arbeit bieten.

Literatur

Christl, Arnulf, (2010) Neue Wege für Metadaten. In: FOSSGIS. Osnabrück. S.133-138.
GeoPortal RLP (2010), GeoPortal Rheinland Pfalz – Metadaten, Web: http://www.geoportal.rlp.de/mapbender/x_geoportal/mod_layerMetadata.php?id=24328 
OGC, (2004): CSW http://portal.opengeospatial.org/files/?artifact_id=6495 (20.04.2010)
Phelps, Nik, Copying is not Theft; Web: http://bit.ly/aLUfSc (20.04.2010)
Stadt Landau in der Pfalz, Flächennutzungsplan 2010 und rechtsverbindliche Bebauungspläne der Stadt Landau in der Pfalz, 
Web: http://webcam.landau.de/stadtplan1/BPlaene/BPlaene.htm (20.04.2010)
Weinberger, David, (2008), Das Ende der Schublade – Die Macht der neuen digitalen Unordnung. München.
Wikipedia, (März 2010): http://en.wikipedia.org/wiki/Replicator_(Star_Trek)