bibliotheks-und-archivinfor.../05_metadaten-modellieren-un...

6.9 KiB

Metadaten modellieren und Schnittstellen nutzen

  1. Transformation von Metadaten mit OpenRefine (15 Minuten)
  2. XSLT Crosswalks mit MarcEdit (25 Minuten)
  3. Austauschprotokolle für Metadaten (OAI-PMH, SRU) (45 Minuten)
  4. Weitere Tools zur Metadatentransformation (10 Minuten)
  5. Nutzung von JSON-APIs (20 Minuten)

Transformation von Metadaten mit OpenRefine

Aufgabe (ca. 4 Stunden): Library Carpentry Lesson zu OpenRefine

Von OpenRefine unterstützte Formate

  • Besonders geeignet für tabellarische Daten (CSV, TSV, XLS, XLSX und auch TXT mit Trennzeichen oder festen Spaltenbreiten)
  • Einfaches "flaches" XML (z.B. MARCXML) oder JSON ist mit etwas Übung noch relativ einfach zu modellieren
  • Komplexes XML mit Hierarchien (z.B. EAD) ist möglich, aber nur mit Zusatztools
  • Kann in Kombination mit MarcEdit für MARC21 benutzt werden

Einsatzmöglichkeiten von OpenRefine

  • Exploration von Datenlieferungen
  • Vereinheitlichung und Bereinigung (zur Datenqualität in der Praxis siehe Präsentation von Peter Király "Validating 126 million MARC records")
  • Abgleich mit Normdaten ("Reconciliation") in Wikidata, GND und VIAF
  • Für lokalen Einsatz ausgelegt (Installation auf Webservern und Automatisierung möglich, aber nur mit Zusatzsoftware)

XSLT Crosswalks mit MarcEdit

Aufgabe (ca. 4 Stunden): Library Carpentry Lesson zu MarcEdit (noch in Entwicklung, aber brauchbar)

Crosswalks? XSLT?

  • Crosswalks
    • Gängiger Begriff, um die Konvertierung von einem Metadatenstandard in einen anderen zu beschreiben.
    • Beispiel: MARC21 zu Dublin Core.
    • Der "Crosswalk" beinhaltet Regeln wie Elemente und Werte zugeordnet/verändert werden müssen.
    • Im Idealfall verlustfrei, aber meist keine 1:1-Zuordnung möglich.
  • XSLT

XSLT mit MarcEdit

Gruppenarbeit

Aufgabe (30 Minuten):

Austauschprotokolle für Metadaten (OAI-PMH, SRU)

Schnittstellen SRU, OAI-PMH und Z39.50

Es gibt zahlreiche Übertragungsprotokolle im Bibliotheks- und Archivbereich. Drei davon sind besonders weit verbreitet:

  • Z39.50 (Library of Congress)
  • SRU - Search/Retrieve via URL (Library of Congress)
  • OAI-PMH - Open Archives Initiative Protocol for Metadata Harvesting (Open Archives Initiative)

Note:

  • Z39.50 ist sehr alt, aber immer noch im Einsatz. Meist wird das modernere SRU als Ergänzung angeboten.
  • Während Z39.50 und SRU sich besonders für Live-Abfragen oder gezielten Datenabruf mit vielen Parametern eignet, zielt OAI-PMH vor allem auf größere Datenabzüge und regelmäßige Aktualisierungen.
  • Das Schöne an SRU und OAI-PMH ist, dass die Anfragen als Internetadresse (URL) zusammengestellt werden können und direkt über den Browser ohne Zusatzsoftware aufrufbar sind.

SRU und OAI am Beispiel von Swissbib

Das Projekt swissbib sammelt Metadaten aller schweizer Universitätsbibliotheken, der Nationalbibliothek und einiger Kantonsbibliotheken sowie weiterer Institutionen. Der gemeinsame Katalog ermöglicht eine übergreifende Suche, gleichzeitig bietet swissbib auch Schnittstellen an, über welche Metadaten der teilnehmenden Institutionen zentral bezogen werden können.

Aufgabe 1

Lesen Sie die Dokumentation zur SRU-Schnittstelle von Swissbib und stellen Sie eine Abfrage mit folgenden Parametern zusammen:

  • Katalog der Bibliothek der FH Graubünden
  • Suche über alle Felder nach Suchbegriff: open
  • Format:MARC XML - swissbib

Sie können dazu das Formular auf der Webseite http://sru.swissbib.ch verwenden oder die URL anhand der Dokumentation selbst zusammenbauen.

Aufgabe 2

Laden Sie die gleichen Daten in anderen Metadatenstandards (z.B. Dublin Core) und vergleichen Sie.

Tipp: Öffnen Sie zwei Browserfenster nebeneinander, um die Unterschiede leichter sehen zu können.

Note:

  • Swissbib nutzt XSL Stylesheets, um live bei einer Suchanfrage, die Daten in verschiedene Formate zu konvertieren.

Aufgabe 3

Lesen Sie die Dokumentation zur OAI-Schnittstelle von Swissbib.

Laden Sie einige Datensätze aus dem gesamten Swissbib-Verbund, die seit dem 01.06.2020 verändert wurden im Format MARC21. Speichern Sie die Daten in der Datei swissbib-2020-06-01.xml.

Bonusaufgabe

Finden Sie heraus, nach welchen Regeln die SRU-Schnittstelle von Swissbib MARC21 in Dublin Core transformiert.

Tipp: Nutzen Sie den Explain-Befehl der SRU-Schnittstelle

Weitere Tools zur Metadatentransformation

Zur Motivation

Metadaten-Management in der Praxis, hier beim Leibniz-Informationszentrum Wirtschaft (ZBW) in Hamburg:

Tools

Prof. Magnus Pfeffer (2016): Open Source Software zur Verarbeitung und Analyse von Metadaten. Präsentation auf dem 6. Bibliothekskongress. http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:0290-opus4-24490

Nutzung von JSON-APIs

Beispiel für API: lobid-gnd

https://lobid.org/gnd/api

  • Suchergebnisse als JSON
  • Datensätze über ID direkt als JSON abrufen
  • Bulk-Downloads mit JSON lines
  • Was kann man damit bauen? Beispiel Autovervollständigung

Beispiel für Tool: ScrAPIr

https://scrapir.org

  • Das Tool erlaubt Daten von bekannten Webseiten zu beziehen
  • genutzt werden dazu die APIs der Webseiten (in der Regel JSON)
  • es werden auch Vorlagen für Code (Javascript, Python) bereitgestellt
  • Beispiel YouTube: https://scrapir.org/data-management?api=YouTube_API