From 1bb310c2cf257c5ddbc4bfd1a0b563e33737f2e6 Mon Sep 17 00:00:00 2001 From: Felix Lohmeier Date: Thu, 17 Nov 2016 19:53:43 +0100 Subject: [PATCH] =?UTF-8?q?Literatur=20erg=C3=A4nzt=20und=20Kapitel=207.6?= =?UTF-8?q?=20bis=207.8=20begonnen?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 07_1_facetten_und_text_filter.md | 4 ++++ 07_6_daten_bereinigen.md | 5 +++++ 07_7_felder_definieren.md | 19 +++++++++++++++++++ 07_8_daten_exportieren.md | 10 ++++++++++ 07_9_automatisierung.md | 6 +++++- 5 files changed, 43 insertions(+), 1 deletion(-) diff --git a/07_1_facetten_und_text_filter.md b/07_1_facetten_und_text_filter.md index c07b298..092176d 100644 --- a/07_1_facetten_und_text_filter.md +++ b/07_1_facetten_und_text_filter.md @@ -8,6 +8,10 @@ OpenRefine "versteht" das MARC-Format nicht. Es interpretiert die Daten daher ge siehe [Seite zur Facettierung in der Dokumentation von OpenRefine](https://github.com/OpenRefine/OpenRefine/wiki/Faceting) +## Literatur + +* Library Carpentry OpenRefine: [Basic OpenRefine Functions I: Working with columns, sorting, faceting, filtering and clustering](https://data-lessons.github.io/library-openrefine/03-basic-functions-I/) + ## Bonusaufgabe: Laden Sie die Arbeitstabelle der DNB in OpenRefine Die Dokumentation der DNB steht auch als Tabellendokument zur Verfügung. Da OpenRefine auf die Bearbeitung von tabellarischen Daten ausgelegt ist, können Sie die Arbeitstabelle anstatt in Excel/LibreOffice auch gleich in OpenRefine als neues Projekt anlegen. diff --git a/07_6_daten_bereinigen.md b/07_6_daten_bereinigen.md index 3d0c510..67bebb4 100644 --- a/07_6_daten_bereinigen.md +++ b/07_6_daten_bereinigen.md @@ -1,2 +1,7 @@ # 7.6 Daten bereinigen + +## Literatur + +* Owen Stephens: [A worked example of fixing problem MARC data: Part 4 – OpenRefine](http://www.meanboyfriend.com/overdue_ideas/2015/07/worked-example-fixing-marc-data-4/) +* Library Carpentry OpenRefine: [Basic OpenRefine functions II](https://data-lessons.github.io/library-openrefine/04-basic-functions-II/) \ No newline at end of file diff --git a/07_7_felder_definieren.md b/07_7_felder_definieren.md index 71460b0..6553f68 100644 --- a/07_7_felder_definieren.md +++ b/07_7_felder_definieren.md @@ -1,2 +1,21 @@ # 7.7 Felder definieren +Jetzt wird es konkret: Welche Informationen wollen Sie in Ihrem Bibliothekskatalog anbieten? Welche Kurzinformationen sollen in der Trefferliste stehen? Welche Informationen sollen in der Vollanzeige dargestellt werden? Im Suchindex wird alles in Feldern abgelegt, die später im Relevanzranking auch gewichtet werden können. In der Software zur Anzeige (TYPO3-find in unserem Fall), können Sie auch später noch mehrere Felder kombiniert darstellen. + +## Aufgabe 1: Identifizieren Sie wichtige Felder wie Titel, Autor/in, Ort, Erscheinungsjahr, Medientyp in den MARC-Daten + +Hinweise: + +* Wenn Sie im [OPAC der HAW Hamburg](https://kataloge.uni-hamburg.de/LNG=DU/DB=2/) in die Suche ```PPN .?``` eingeben, dann erhalten Sie alle rund 450.000 Treffer. Über den Menüpunkt Trefferanalyse können Sie sich dann einen groben Überblick über die enthaltenen Daten verschaffen. Mit der Suche können Sie auch direkt einzelne Datensätze aufrufen. Beispiel: ```PPN 834422018```. +* Nutzen Sie die [Arbeitstabelle der Deutschen Nationalbibliothek](http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/marc21FeldbeschreibungTitelExcel032016.zip) in der [Dokumentation des MARC21-Formats](http://www.dnb.de/DE/Standardisierung/Formate/MARC21/marc21_node.html), um die MARC-Felder zu übersetzen. +* Der Suchindex erwartet eine eindeutige Kennung (Identifier) in der ersten Spalte. Prüfen Sie, ob Sie eine vorhandene Nummer dafür verwenden können. + +## Aufgabe 2: Bilden Sie neue Felder (bzw. Spalten) durch die Kombination von verschiedenen Feldern + +... + +## Aufgabe 3: Löschen Sie alle nicht benötigten Daten + +Hinweise: + +* Am schnellsten geht es über die Funktion zum Neusortieren der Spalten. Alternativ könnten Sie auch beim Export nur einzelne Spalten auswählen. \ No newline at end of file diff --git a/07_8_daten_exportieren.md b/07_8_daten_exportieren.md index 3861aa5..dad3298 100644 --- a/07_8_daten_exportieren.md +++ b/07_8_daten_exportieren.md @@ -1,2 +1,12 @@ # 7.8 Daten exportieren +OpenRefine bietet viele Möglichkeiten die Daten in verschiedene Formate zu exportieren. Wie eingangs beschrieben, wollen wir das Format TSV nutzen, das sehr einfach ist und sich später gut in den Suchindex spielen lässt. + +Hinweise: + +* Der Klick auf den Menüpunkt Export / TSV startet sofort einen Download der Daten. Das reicht in den meisten Fällen aus. Probieren Sie aber auch die anderen Möglichkeiten aus. + + +## Literatur + +* [Exporter in der OpenRefine Dokumentation](https://github.com/OpenRefine/OpenRefine/wiki/Exporters) \ No newline at end of file diff --git a/07_9_automatisierung.md b/07_9_automatisierung.md index 8444a3b..62a2819 100644 --- a/07_9_automatisierung.md +++ b/07_9_automatisierung.md @@ -51,4 +51,8 @@ Hinweise: ## Lösung -... \ No newline at end of file +... + +## Literatur + +* Die [FAQ aus der OpenRefine Dokumentation](https://github.com/OpenRefine/OpenRefine/wiki/FAQ) behandeln auch, wie OpenRefine programmatisch als Server genutzt werden kann. \ No newline at end of file