bibliotheks-und-archivinfor.../kapitel-4/45-weitere-daten-indexieren.md

18 lines
1.3 KiB
Markdown
Raw Normal View History

2017-11-29 00:38:49 +01:00
# 4.5 Bonus: Weitere Daten indexieren
2017-11-15 22:46:57 +01:00
Um eine Meta-Suche über verschiedene Datenquellen zu ermöglichen, müssen alle Daten nach dem gleichen Schema indexiert werden. Nur wenn es große Überschneidungen bei den Suchfeldern gibt, macht eine übergreifende Suche mit Filtermöglichkeiten (Facetten) Sinn.
Wir haben mit Dublin Core bereits ein Schema verwendet, dass als kleinster gemeinsamer Nenner auch für andere Daten gut geeignet ist. Damit wir weitere Daten indexieren können, müssen wir diese also ebenfalls so transformieren, dass Sie dem Dublin Core Schema folgen.
In Kapitel 3 haben wir im OpenRefine Tutorial mit Daten des Powerhouse Museum gearbeitet. Diese Daten können wir indexieren, wenn wir zuvor die Spalten gemäß der Feldbezeichnungen in unserem Schema umbenennen. Weiterhin benötigt Solr immer einen eindeutigen Identifier pro Datensatz (bei unseren Tabellendaten also pro Zeile).
## Aufgabe 1: Transformieren Sie die Daten des Powerhouse Museum mit OpenRefine
* Benennen Sie die Spalten so um, dass Sie auf die Feldbezeichnungen in unserem Schema (Dublin Core) passen.
* Erstellen Sie eine Spalte `id` mit einem eindeutigen Identifier pro Zeile
* Exportieren Sie die Daten als TSV
## Aufgabe 2: Indexieren Sie die Daten in Solr
* Verwenden Sie dazu den bekannten Befehl mit `curl` (vgl. Kap. 4.3/4.4)