Korrekturen und Verbesserungen in Kapitel 3

This commit is contained in:
Felix Lohmeier 2017-04-07 23:01:36 +02:00
parent 4a47e6801b
commit 31969dbf5d
6 changed files with 29 additions and 18 deletions

View File

@ -166,11 +166,17 @@ wget https://github.com/felixlohmeier/seminar-praxis-der-digitalen-bibliothek/ra
OpenRefine führt unterschiedliche Datenstrukturen sinnvoll zusammen. Wenn die Dateien unterschiedlich viele Spalten oder eine andere Reihenfolge der Spalten haben, so ist das kein Problem. OpenRefine nimmt alle Spalten der ersten Datei auf und belegt diese mit neuen Zeilen. Sobald in einer weiteren Datei eine neue Spalte auftaucht, die OpenRefine noch nicht bekannt ist, so wird diese hinten angehängt.
Für das Laden der gesamten rund 580.000 Datensätze werden etwa 5 GB freier Arbeitsspeicher benötigt. Starten Sie OpenRefine mit dem zusätzlichen Parameter ```-m 5G```, damit OpenRefine über mehr Speicher verfügen kann. Sollten Sie auf Ihrer virtuellen Maschine nicht über genügend freien Arbeitsspeicher verfügen, dann reduzieren Sie den Wert im Parameter ```-m``` und laden Sie nur einen Teil der Daten.
Für das Laden der gesamten rund 580.000 Datensätze werden etwa 5 GB freier Arbeitsspeicher benötigt. Starten Sie OpenRefine mit dem zusätzlichen Parameter ```-m 5G```, damit OpenRefine über mehr Speicher verfügen kann.
```
~/openrefine-2.7-rc.2/refine -m 5G
```
Sollten Sie auf Ihrer virtuellen Maschine nicht über genügend freien Arbeitsspeicher verfügen, dann reduzieren Sie den Wert im Parameter ```-m``` und laden Sie nur einen Teil der Daten.
* OpenRefine beenden und alle Fenster schließen. Freien Arbeitsspeicher mit ```free -m``` anzeigen und Wert in Zeile "-/+ buffers/cache" in Spalte "free" notieren und auf Gigabyte abrunden.
* Zahl bei -m 3G im Startbefehl anpassen. Beispiel für 1 GB freien Arbeitsspeicher: -m 1G
Erstellen Sie ein neues Projekt und laden Sie die im vorigen Schritt erstellten TSV-Dateien aus dem Ordner ```output``` hoch.
* Create Project / Durchsuchen... / TSV Dateien auswählen / Next / Configure Parsing Options
* Parse data as CSV / TSV / separator-based files

View File

@ -11,13 +11,19 @@ tar zxf solr-6.5.0.tgz
siehe auch: [Offizielle Installationsanleitung](https://cwiki.apache.org/confluence/display/solr/Installing+Solr)
## Solr mit Beispieldaten starten
* Geben Sie im Terminal folgende Befehle ein:
## Solr mit Beispielkonfiguration starten
* Geben Sie im Terminal folgenden Befehl ein, um Solr mit der Beispielkonfiguration "schemaless" zu starten:
```
cd solr-6.5.0
bin/solr -e techproducts
~/solr-6.5.0/bin/solr -e schemaless
```
* Laden Sie anschließend ein paar mitgelieferte Beispieldaten, damit in der integrierten Suchoberfläche schon einmal etwas zu sehen ist:
```
~/solr-6.5.0/bin/post -c gettingstarted ~/solr-6.5.0/example/exampledocs/books.csv
```
siehe auch: [Offizielle Anleitung "Running Solr"](https://cwiki.apache.org/confluence/display/solr/Running+Solr)
@ -25,7 +31,7 @@ siehe auch: [Offizielle Anleitung "Running Solr"](https://cwiki.apache.org/confl
## Administrationsoberfläche
Nach einer kurzen Wartezeit (max. 1 Minute) sollten folgende Oberflächen im Browser erreichbar sein:
Nach einer kurzen Wartezeit (max. 1 Minute) sollten folgende Oberflächen im Browser (nur innerhalb der virtuellen Maschine! Menü Anwendungen/Internet/Firefox Web Browser) erreichbar sein:
* Administrationsoberfläche: http://localhost:8983/
* Integrierte Suchoberfläche: http://localhost:8983/solr/gettingstarted/browse

View File

@ -7,7 +7,7 @@ Ab Solr Version 6.0 ist das sogenannte "managed schema" (auch "schemaless mode"
Hinweise:
* Prinzipiell muss für alle Spalten in den TSV-Daten ein Feld im Schema definiert werden.
* Im folgenden Abschnitt werden wir die Daten in Solr indexieren. Dabei erkennt Solr die allermeisten Felder automatisch. Es müssen nur die Felder ```ISBN``` und ```DDC``` manuell definiert werden, weil die automatische Erkennung hier Fehler produziert. Alle anderen Felder sollte Solr automatisch erkennen. Wenn Sie lieber auf Nummer sicher gehen wollen, dann legen Sie alle Felder manuell an.
* Im folgenden Abschnitt werden wir die Daten in Solr indexieren. Dabei erkennt Solr die allermeisten Felder automatisch. Es müssen nur die Felder ```ISBN```, ```DDC``` und ```Datum``` manuell definiert werden, weil die automatische Erkennung hier Fehler produziert. Alle anderen Felder sollte Solr automatisch erkennen. Wenn Sie lieber auf Nummer sicher gehen wollen, dann legen Sie alle Felder manuell an.
* Anlegen von Feldern: Admin-Oberfläche aufrufen. Im Menü "Core Selector" den Index "gettingstarted" auswählen. Dann im zweiten Menü "Schema" aufrufen.
* Groß- und Kleinschreibung ist wichtig.
@ -18,19 +18,18 @@ Minimal:
* Administrationsoberfläche: {%s%}http://localhost:8983/solr/#/gettingstarted/schema{%ends%}
* Feld ISBN ergänzen: {%s%}Button "Add Field" drücken, ISBN in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld DDC ergänzen: {%s%}Button "Add Field" drücken, DDC in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Datum ergänzen: {%s%}Button "Add Field" drücken, Datum in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
Vollständig:
* Feld Sprache ergänzen: {%s%}Button "Add Field" drücken, Sprache in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld LCC ergänzen: {%s%}Button "Add Field" drücken, LCC in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld ISSN ergänzen: {%s%}Button "Add Field" drücken, ISSN in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Urheber ergänzen: {%s%}Button "Add Field" drücken, Urheber in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Titel ergänzen: {%s%}Button "Add Field" drücken, Titel in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Medientyp ergänzen: {%s%}Button "Add Field" drücken, Medientyp in das Feld name eingeben, als field type "string" auswählen und NICHT als multiValued markieren{%ends%}
* Feld Sprache ergänzen: {%s%}Button "Add Field" drücken, Sprache in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Ort ergänzen: {%s%}Button "Add Field" drücken, Ort in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Verlag ergänzen: {%s%}Button "Add Field" drücken, Verlag in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Jahr ergänzen: {%s%}Button "Add Field" drücken, Jahr in das Feld name eingeben, als field type "TrieLong" auswählen und NICHT als multiValued markieren{%ends%}
* Feld Datum ergänzen: {%s%}Button "Add Field" drücken, Datum in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Jahr ergänzen: {%s%}Button "Add Field" drücken, Jahr in das Feld name eingeben, als field type "tlongs" auswählen und NICHT als multiValued markieren{%ends%}
* Feld Beschreibung ergänzen: {%s%}Button "Add Field" drücken, Beschreibung in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Schlagwoerter ergänzen: {%s%}Button "Add Field" drücken, Schlagwoerter in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}
* Feld Beitragende ergänzen: {%s%}Button "Add Field" drücken, Beitragende in das Feld name eingeben, als field type "string" auswählen und als multiValued markieren{%ends%}

View File

@ -2,7 +2,7 @@
## Konfiguration neu einlesen
* Menü "Core Admin" http://localhost:8983/solr/#/~cores/gettingstarted
* Menü "Core Admin" aufrufen: http://localhost:8983/solr/#/~cores/gettingstarted
* Button "Reload" drücken
## Index leeren (im Terminal)
@ -23,15 +23,14 @@ curl "http://localhost:8983/solr/gettingstarted/update/csv?commit=true&separator
## Prüfen Sie das Ergebnis
Rufen Sie die Browsing-Oberfläche auf (http://localhost:8983/solr/gettingstarted/browse). Es sollten über 200.000 Dokumente gefunden werden. Machen Sie ein paar Beispielsuchen, um sicherzugehen, dass die Daten richtig indexiert wurden.
Rufen Sie die Browsing-Oberfläche auf (http://localhost:8983/solr/gettingstarted/browse). Es sollten etwa 360.000 Dokumente gefunden werden. Machen Sie ein paar Beispielsuchen, um sicherzugehen, dass die Daten richtig indexiert wurden.
## Solr beenden und starten
Solr wurde als Prozess gestartet, der bis zum nächsten Neustart des Rechners weiterlaufen sollte. Sie können Solr jederzeit manuell beenden und starten. Vor der Ausführung der Befehle müssen Sie in das Verzeichnis von Solr wechseln.
Solr wurde als Prozess gestartet, der bis zum nächsten Neustart des Rechners weiterläuft. Sie können Solr jederzeit manuell beenden und starten:
* In Verzeichnis wechseln: ```cd ~/solr-6.5.0```
* Solr beenden:```bin/solr stop```
* Solr starten:```bin/solr start```
* Solr beenden:```~/solr-6.5.0/bin/solr stop```
* Solr starten:```~/solr-6.5.0/bin/solr start```
Etwa 15-30 Sekunden nach dem Startbefehl sollte die Administrations- und die Browsingoberfläche unter den gewohnten Adressen erreichbar sein.

View File

@ -18,6 +18,7 @@ Die öffentlichen Lerntagebücher haben zwei Ziele:
* Carolin Marx: https://somebib.wordpress.com
* Peggy Semper: https://peggysemper.wordpress.com
* Melf Sorgenfrei: http://melfspace.wp.hs-hannover.de/test/
* Hanna Steinmeyer: https://digibibblog.wordpress.com
* Romy Stelter: https://digibibmadness.wordpress.com
* Iris Tannhäuser: https://digibibsite.wordpress.com
* Tabea Weinberg: https://gazelleauftour.wordpress.com

View File

@ -209,7 +209,7 @@
"785 : t",
"787 : t",
"856 : q",
"856 : u",
"856 : u"
]
}
]