Literatur ergänzt und Kapitel 7.6 bis 7.8 begonnen

This commit is contained in:
Felix Lohmeier 2016-11-17 19:53:43 +01:00
parent 2aa315afec
commit 1bb310c2cf
5 changed files with 43 additions and 1 deletions

View File

@ -8,6 +8,10 @@ OpenRefine "versteht" das MARC-Format nicht. Es interpretiert die Daten daher ge
siehe [Seite zur Facettierung in der Dokumentation von OpenRefine](https://github.com/OpenRefine/OpenRefine/wiki/Faceting)
## Literatur
* Library Carpentry OpenRefine: [Basic OpenRefine Functions I: Working with columns, sorting, faceting, filtering and clustering](https://data-lessons.github.io/library-openrefine/03-basic-functions-I/)
## Bonusaufgabe: Laden Sie die Arbeitstabelle der DNB in OpenRefine
Die Dokumentation der DNB steht auch als Tabellendokument zur Verfügung. Da OpenRefine auf die Bearbeitung von tabellarischen Daten ausgelegt ist, können Sie die Arbeitstabelle anstatt in Excel/LibreOffice auch gleich in OpenRefine als neues Projekt anlegen.

View File

@ -1,2 +1,7 @@
# 7.6 Daten bereinigen
## Literatur
* Owen Stephens: [A worked example of fixing problem MARC data: Part 4 OpenRefine](http://www.meanboyfriend.com/overdue_ideas/2015/07/worked-example-fixing-marc-data-4/)
* Library Carpentry OpenRefine: [Basic OpenRefine functions II](https://data-lessons.github.io/library-openrefine/04-basic-functions-II/)

View File

@ -1,2 +1,21 @@
# 7.7 Felder definieren
Jetzt wird es konkret: Welche Informationen wollen Sie in Ihrem Bibliothekskatalog anbieten? Welche Kurzinformationen sollen in der Trefferliste stehen? Welche Informationen sollen in der Vollanzeige dargestellt werden? Im Suchindex wird alles in Feldern abgelegt, die später im Relevanzranking auch gewichtet werden können. In der Software zur Anzeige (TYPO3-find in unserem Fall), können Sie auch später noch mehrere Felder kombiniert darstellen.
## Aufgabe 1: Identifizieren Sie wichtige Felder wie Titel, Autor/in, Ort, Erscheinungsjahr, Medientyp in den MARC-Daten
Hinweise:
* Wenn Sie im [OPAC der HAW Hamburg](https://kataloge.uni-hamburg.de/LNG=DU/DB=2/) in die Suche ```PPN .?``` eingeben, dann erhalten Sie alle rund 450.000 Treffer. Über den Menüpunkt Trefferanalyse können Sie sich dann einen groben Überblick über die enthaltenen Daten verschaffen. Mit der Suche können Sie auch direkt einzelne Datensätze aufrufen. Beispiel: ```PPN 834422018```.
* Nutzen Sie die [Arbeitstabelle der Deutschen Nationalbibliothek](http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/marc21FeldbeschreibungTitelExcel032016.zip) in der [Dokumentation des MARC21-Formats](http://www.dnb.de/DE/Standardisierung/Formate/MARC21/marc21_node.html), um die MARC-Felder zu übersetzen.
* Der Suchindex erwartet eine eindeutige Kennung (Identifier) in der ersten Spalte. Prüfen Sie, ob Sie eine vorhandene Nummer dafür verwenden können.
## Aufgabe 2: Bilden Sie neue Felder (bzw. Spalten) durch die Kombination von verschiedenen Feldern
...
## Aufgabe 3: Löschen Sie alle nicht benötigten Daten
Hinweise:
* Am schnellsten geht es über die Funktion zum Neusortieren der Spalten. Alternativ könnten Sie auch beim Export nur einzelne Spalten auswählen.

View File

@ -1,2 +1,12 @@
# 7.8 Daten exportieren
OpenRefine bietet viele Möglichkeiten die Daten in verschiedene Formate zu exportieren. Wie eingangs beschrieben, wollen wir das Format TSV nutzen, das sehr einfach ist und sich später gut in den Suchindex spielen lässt.
Hinweise:
* Der Klick auf den Menüpunkt Export / TSV startet sofort einen Download der Daten. Das reicht in den meisten Fällen aus. Probieren Sie aber auch die anderen Möglichkeiten aus.
## Literatur
* [Exporter in der OpenRefine Dokumentation](https://github.com/OpenRefine/OpenRefine/wiki/Exporters)

View File

@ -52,3 +52,7 @@ Hinweise:
## Lösung
...
## Literatur
* Die [FAQ aus der OpenRefine Dokumentation](https://github.com/OpenRefine/OpenRefine/wiki/FAQ) behandeln auch, wie OpenRefine programmatisch als Server genutzt werden kann.