From 70a95a39e605afaff52b0650eafde45f6a9840c2 Mon Sep 17 00:00:00 2001 From: Felix Lohmeier Date: Fri, 6 Jan 2017 17:48:10 +0100 Subject: [PATCH] Nachbesserungen Automatisierung Kapitel 7.7 und 7.8 --- 07_7_daten_exportieren.md | 16 +++++++++++++++- 07_8_automatisierung.md | 6 +++--- openrefine/07_7.json | 26 ++++++++++++++++++++++++++ scripte/transform+export.sh | 2 +- 4 files changed, 45 insertions(+), 5 deletions(-) create mode 100644 openrefine/07_7.json diff --git a/07_7_daten_exportieren.md b/07_7_daten_exportieren.md index db2095c..95ca1c3 100644 --- a/07_7_daten_exportieren.md +++ b/07_7_daten_exportieren.md @@ -10,7 +10,21 @@ Hinweise: ## Lösung -* Export: {%s%}Projekt in OpenRefine laden und im Menü oben rechts Export / Custom tabular exporter... auswählen. Dann Button "De-select All" klicken und nur die Felder auswählen, die in Kapitel 7.6 angelegt wurden: id, ISBN, ISSN, Sprache, LCC, DDC, Urheber, Medientyp, Ort, Verlag, Jahr, Datum, Beschreibung, Schlagwoerter, Beitragende, Reihe, Vorgaenger, Nachfolger, Link, Titel. Anschließend im Reiter Download auf den Download-Button klicken.{%ends%} +## Variante A: "Custom Tabular exporter" + +* {%s%}Projekt in OpenRefine laden und im Menü oben rechts Export / Custom tabular exporter... auswählen.{%ends%} +* {%s%}Dann Button "De-select All" klicken und nur die Felder auswählen, die in Kapitel 7.6 angelegt wurden: id, ISBN, ISSN, Sprache, LCC, DDC, Urheber, Medientyp, Ort, Verlag, Jahr, Datum, Beschreibung, Schlagwoerter, Beitragende, Reihe, Vorgaenger, Nachfolger, Link, Titel.{%ends%} +* {%s%}Anschließend im Reiter Download auf den Download-Button klicken.{%ends%} + +## Variante B: "Spalten löschen und normaler Export" + +* {%s%}Alle Spalten löschen außer diejenigen, die in Kapitel 7.6 angelegt wurden: id, ISBN, ISSN, Sprache, LCC, DDC, Urheber, Medientyp, Ort, Verlag, Jahr, Datum, Beschreibung, Schlagwoerter, Beitragende, Reihe, Vorgaenger, Nachfolger, Link, Titel{%ends%} +* {%s%}Export / Tab-separated value{%ends%} + +** Als JSON-Datei: [07_7.json](https://felixlohmeier.gitbooks.io/seminar-wir-bauen-uns-einen-bibliothekskatalog/content/openrefine/07_7.json)** + +## Upload und Prüfung der TSV-Datei + * Upload auf den Webserver: {%s%}vgl. Lösung in Kapitel 6.3, Aufgabe 1.{%ends%} * Zählung der Zeilen der TSV-Dateien (sollte der Anzahl der Records plus 1 entsprechen): {%s%}wc -l ~/tsv/haw-prozessiert.tsv{%ends%} * Erste Zeile der TSV-Dateien anzeigen (sollte die Spaltenüberschriften beinhalten): {%s%}head -n1 ~/tsv/haw-prozessiert.tsv{%ends%} diff --git a/07_8_automatisierung.md b/07_8_automatisierung.md index 253fa0c..0dd1563 100644 --- a/07_8_automatisierung.md +++ b/07_8_automatisierung.md @@ -205,15 +205,15 @@ Projekt anlegen: **Teil 3: mit Script** -* Script anpassen: {%s%}nano transform+export.sh und die Zeile jsonfiles=(07_3.json 07_5_minimal.json) durch jsonfiles=(07_5_minimal.json 07_6-2.json 07_6-4.json 07_6-5.json 07_6-6.json 07_6-7.json 07_6-8.json) ersetzen.{%ends%} +* Script anpassen: {%s%}nano transform+export.sh und die Zeile jsonfiles=(07_3.json 07_5_minimal.json) durch jsonfiles=(07_5_minimal.json 07_6-2.json 07_6-4.json 07_6-5.json 07_6-6.json 07_6-7.json 07_6-8.json 07_7.json) ersetzen.{%ends%} * Script ausführen: {%s%}./transform+export.sh{%ends%} ## Ergebnis -Die Datei ```haw-prozessiert-script.tsv``` im Ordner ~/refine/ ist das Endergebnis der Verarbeitung. Sie können diese Datei mit der vorher manuell erstellten Datei ```haw-prozessiert.tsv im Ordner``` ~/tsv/ vergleichen. Im Idealfall sollte das folgende Kommando keine Differenz zwischen den beiden Dateien feststellen können: +Die exportierte TSV-Datei im Ordner ~/refine/ ist das Endergebnis der Verarbeitung. Sie können diese Datei mit der vorher manuell erstellten Datei ```haw-prozessiert.tsv im Ordner``` ~/tsv/ vergleichen. Im Idealfall sollte das folgende Kommando keine Differenz zwischen den beiden Dateien feststellen können: ``` -diff ~/refine/haw-prozessiert-script.tsv ~/tsv/haw-prozessiert.tsv +diff ~/refine/*.tsv ~/tsv/haw-prozessiert.tsv ``` ## Literatur diff --git a/openrefine/07_7.json b/openrefine/07_7.json new file mode 100644 index 0000000..2b3771d --- /dev/null +++ b/openrefine/07_7.json @@ -0,0 +1,26 @@ +[ { "op": "core/column-reorder", "description": "Reorder columns", "columnNames": [ +"id", +"ISBN", +"ISSN", +"Sprache", +"LCC", +"DDC", +"Urheber", +"Medientyp", +"Ort", +"Verlag", +"Jahr", +"Datum", +"Beschreibung", +"Schlagwoerter", +"Beitragende", +"Reihe", +"Vorgaenger", +"Nachfolger", +"Link", +"Titel" + ] } ] + + + + diff --git a/scripte/transform+export.sh b/scripte/transform+export.sh index e66ee9c..6edfc5b 100644 --- a/scripte/transform+export.sh +++ b/scripte/transform+export.sh @@ -30,7 +30,7 @@ echo "Transformationsdateien: " ${jsonfiles[@]} echo "Arbeitsverzeichnis: " ${workdir} echo "OpenRefine auf Port: " ${port} echo "OpenRefine max. RAM: " ${ram} -echo "Codewort: " ${codewort} +echo "Codewort: " ${codewort} echo "" # Startzeitpunkt ausgeben