Kapitel 1.2 und 1.3 ergänzt

This commit is contained in:
Felix Lohmeier 2017-03-10 10:06:47 +01:00
parent 86a8cbeb4e
commit c3ae323d87
11 changed files with 166 additions and 6 deletions

4
1-0.md
View File

@ -1,7 +1,7 @@
# Kapitel 1
Bitte nehmen Sie sich für die folgenden Abschnitte etwa 4 Stunden Zeit:
Bitte nehmen Sie sich für die folgenden Abschnitte jeweils etwa 1 Stunde Zeit:
* [1.1 Einführung in Discovery-Systeme in Bibliotheken](1-1-einfuehrung-in-discovery-systeme-in-bibliotheken.md)
* [1.2 Open-Source-Software für Bibliothekskataloge](1-2-open-source-software-fuer-bibliothekskataloge.md)
* [1.3 Grundinstallation der Arbeitsumgebung](1-3-grundinstallation-der-arbeitsumgebung.md)
* [1.3 Grundinstallation der Arbeitsumgebung](1-3-grundinstallation-der-arbeitsumgebung.md)

View File

@ -7,10 +7,9 @@ Fragen:
* Was unterscheidet Discovery-Systeme von vorherigen Bibliothekskatalogen (OPACs)?
* Wenn es Discovery-Systeme schon seit etwa 10 Jahren gibt, wo stehen wir heute? Was sind aktuelle Probleme und Lösungsansätze?
* Welche Software ist derzeit auf dem Markt im Einsatz?
* Was bedeutet "(Open) Discovery" im Titel des Seminars?
Inhalte:
1. [OPAC vs. Discovery-System](1-1-1-opac-vs-discovery-system.md)
2. [Zwischenbilanz mit Problemen und Lösungsansätzen]() (Christensen 2014)
3. [Marktüberblick]()
2. [Zwischenbilanz mit Problemen und Lösungsansätzen](1-1-2-zwischenbilanz-mit-problemen-und-loesungsansaetzen.md) (Christensen 2014)
3. [Marktüberblick](1-1-3-marktueberblick.md)

View File

@ -40,4 +40,4 @@ Es gibt Bestrebungen, die Discovery-Systeme möglichst unabhängig von Bibliothe
In den USA hat die ["Open Discovery Initiative (ODI)"](http://www.niso.org/workrooms/odi/) des Standardisierungsgremiums NISO eine umfangreiche Empfehlung dazu herausgegeben:
[NISO RP-19-2014: A Recommended Practice of the National Information Standards Organization](http://www.niso.org/workrooms/odi/publications/rp/rp-19-2014)
Im Seminar verfolgen wir einen herstellerunabhängigen, modularen Ansatz. Daher das "(Open) Discovery" im Titel des Seminars.
Im Seminar verfolgen wir einen herstellerunabhängigen, modularen Ansatz.

View File

@ -0,0 +1,15 @@
# 1.2 Open-Source-Software für Bibliothekskataloge (26.09.2016)
Ziel: Potentiale für den Einsatz von Open Source Software im Bibliothekswesen realistisch einschätzen können
Fragen:
* Was spricht für und was gegen den Einsatz von Open Source Software?
* Welche Open Source Software ist für den Bau von Bibliothekskatalogen verfügbar?
* Welche Software nutzen wir im Seminar und warum?
Inhalte:
1. [Pro & Contra von Open Source](1-2-1-pro+contra-von-open-source.md)
2. [Open Source Software zur Verarbeitung und Analyse von Metadaten](1-2-2-open-source-software-fuer-verarbeitung-von-metadaten.md) (Christensen 2014)
3. [Auswahl der Software für das Seminar](1-2-3-auswahl-der-software-fuer-das-seminar.md)

View File

@ -0,0 +1,34 @@
# 1.2.1 Pro & Contra von Open Source
## Vorteile von Open Source Software
* Keine Lizenzkosten
* Geringe Abhängigkeit vom Anbieter
* Individuelle Erweiterungen und Anpassungen möglich
* ...
## Nachteile von Open Source Software
* schwieriger Wartungsverträge zu erhalten
* in der Regel höherer Einarbeitungs- und Pflegeaufwand
* oft nur englische Oberfläche vorhanden
* ...
## Diskussion
* Wie wirken sich die Vor- und Nachteile bei einem Bibliotheksprojekt aus?
* Unter welchen Voraussetzungen (und in welchem Kontext) lohnt es sich, in welchem vielleicht eher nicht?
Bei der Beantwortung dieser Fragen spielen zwei Punkte eine herausgehobene Rolle:
1. Die strategische Entwicklung der Bibliothek: Der Einsatz von Open-Source-Software verlangt die dauerhafte Widmung von Ressourcen, entweder für Dienstleister oder für eigenes IT-Personal. Nur dann zahlt sich die Anpassbarkeit der Software wirklich aus.
2. Die Bedeutung von Open Source Communities: Für wichtige Dienste sollte nur Software eingesetzt werden, die von einer lebendigen Community aus Interessierten und Nutzenden weiterentwickelt wird. So ist gewährleistet, dass Sicherheitsupdates erhältlich sind und Entwicklungsaufwände ggf. unter den Nutzenden geteilt werden können.
Beispiele für Bibliotheken, die ihren Programmcode öffentlich teilen, hat die Arbeitsgruppe code4lib aus den USA zusammengetragen: http://wiki.code4lib.org/Libraries_Sharing_Code
## Literatur
* Bodem, Claudia & Blenkle, Martin (2014): Mission Possible? Erfahrungen & Empfehlungen zur Einführung von Discovery-Systemen. Präsentation auf dem 103. Deutschen Bibliothekartag in Bremen 2014. [urn:nbn:de:0290-opus-16205](http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:0290-opus-16205)
* Maaß, Phillip (2016): Free/Libre/Open-Source Software in wissenschaftlichen Bibliotheken in Deutschland. Eine explorative Studie in Form einer Triangulation qualitativer und quantitativer Methoden. Zugl. Masterthesis im Fach Bibliotheks- und Informationswissenschaft. Vorgelegt am
25.02.2016 an der Technischen Hochschule Köln, Fakultät Informations- und Kommunikationswissenschaften am Institut für
Informationswissenschaft. http://hdl.handle.net/10760/29324
* Pott, Brigitte (21.2.2005): Open Source Software Pro und Contra. Zugleich in: Hobohm, Hans-Christoph & Umlauf, Konrad (Hrsg.): Erfolgreiches Management von Bibliotheken und Informationseinrichtungen, Hamburg: Dashöfer 2011 (Abschnitt 9.3.2). http://www.dasbibliothekswissen.de/Open-Source-Software-%E2%80%93-Pro-und-Contra.htm

View File

@ -0,0 +1,33 @@
# 1.2.2 Open Source Software zur Verarbeitung und Analyse von Metadaten
## Präsentation Magnus Pfeffer (2016)
Prof. Magnus Pfeffer (2016): Open Source Software zur Verarbeitung und Analyse von Metadaten. Präsentation auf dem 6. Bibliothekskongress. http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:0290-opus4-24490
[![Screenshot Pfeffer (2016)](images/screenshot-pfeffer-2016.png)](http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:0290-opus4-24490)
## Kernpunkte
Der erste Schritt zum selbstentwickelten Bibliothekskatalog ist die Analyse und Verarbeitung der Metadaten. Welche Medien sollen im Katalog angezeigt werden und welche Daten liegen dazu bereits vor? Oftmals müssen die beschreibenden Daten über die Objekte (Metadaten) erst aufbereitet werden, um sie in einen Suchmaschinenindex laden zu können.
Aufgrund der zunehmenden Komplexität an Datenformaten, Regelwerken und Datenquellen ist eine ganze Reihe von Open Source Werkzeugen entstanden. Magnus Pfeffer stellt in seiner Präsentation die Vielfalt der verfügbaren Software dar, die sich zum Einsatz in der Lehre eignet.
Die einzusetzende Software sollte für den Zweck der Lehre drei Arbeitsschritte ermöglichen (das gilt auch für dieses Seminar):
1. Validierung und einfache Analyse von Datenlieferungen (z.B. konsistente Feldbelegungen, Erkennen von Unstimmigkeiten, statistische Analysen)
2. Anpassung von Datenlieferungen (Filtern von Datensätzen, Anpassen einzelner Felder)
3. Durchführen eines ETL-Prozesses ([Extract, Transform, Load](https://de.wikipedia.org/wiki/ETL-Prozess): Daten aus dem Bibliothekssystem extrahieren, anpassen und in einen Suchindex laden)
Magnus Pfeffer unterscheidet drei Kategorien von Software:
* Einzelne Programme: MABLE+/MARCEL, MAB-Tools, MARCTools, MarcEdit usw.
* Toolkits: Metafacture, Catmandu, MarcXimiL
* Web-basierte Software: OpenRefine, d:swarm
Schwierigkeiten für den Einsatz in der Lehre bestehen darin, dass oftmals die Dokumentation nicht für Einstieger geeignet ist, teilweise sehr spezielle Systemvoraussetzungen bestehen, die Anwendungen teilweise frustrierend zu bedienen sind und realistische Workflows nur mit Kombinationen von unterschiedlichen Programmen umsetzbar sind. Im Modul Metadatenmanagement an der HDM Stuttgart plant er daher typische Workflows mit der Software Librecat/Catmandu und OpenRefine nachzustellen.
## Was bedeutet das für dieses Seminar?
Es gibt zahlreiche Profi-Software, die für die Aufbereitung der Metadaten zum Einsatz kommen kann.
In diesem Seminar (zum Bau eines Bibliothekskatalogs) bietet sich besonders OpenRefine an, weil das Programm vergleichsweise einfach zu bedienen ist, eine grafische Oberfläche bietet und Transformationsergebnisse direkt sichtbar werden. Gleichzeitig ist es ein vielgenutztes Werkzeug auch über die Bibliothekscommunity hinaus (z.B. im Datenjournalismus beliebt) und somit vielfältig einsetzbar.
Im konkreten Arbeitsalltag in den IT-Abteilungen der Bibliotheken kommt je nach Anwendungsfall und Vorliebe des Personals oft spezialisierte Software zum Einsatz. Die Arbeitsprozesse sind aber ähnlich und lassen sich am Beispiel von OpenRefine gut erlernen.

View File

@ -0,0 +1,37 @@
# 1.2.3 Auswahl der Software für das Seminar
## Software, die wir im Seminar verwenden werden
**Verarbeitung und Analyse der Metadaten**: [OpenRefine](http://openrefine.org)
OpenRefine bietet eine grafische Oberfläche zur Analyse und Transformation von Daten, die ähnlich wie eine klassische Tabellenverarbeitungssoftware (MS Excel, LibreOffice Calc, usw.) aufgebaut ist. Wir verwenden diese Software im Seminar um die Ausgangsdaten aus dem Bibliothekssystem zu manipulieren und in ein passendes Format für den Suchmaschinenindex zu transformieren.
**Suchmaschinenindex**: [Solr](http://lucene.apache.org/solr/)
Apache Solr ist eine der Standardsuchmaschinen, die auch in vielen kommerziellen Discovery-Systemen zum Einsatz kommt. Die Indexierung der Daten in Solr ermöglicht sehr schnelle und flexible Suchen. Der Suchmaschinenindex läuft im Hintergrund, wird von den Nutzerinnen und Nutzern also nie direkt aufgerufen.
**Katalogoberfläche**: [TYPO3-find](https://github.com/subugoe/typo3-find)
Das, was die Nutzerinnen und Nutzer zu sehen bekommen, ist schließlich die Katalogoberfläche. Im Grunde handelt es sich um eine Webseite mit Suchfunktion. Wir verwenden im Seminar die Software TYPO3-find, eine Erweiterung für das Content-Management-System TYPO3, die an der Staats- und Universitätsbibliothek Göttingen entwickelt wurde. TYPO3-find kommuniziert mit dem Suchmaschinenindex Solr über die Software [Solarium](http://www.solarium-project.org/), die ebenfalls Open Source ist.
## Schaubild zum Datenfluss
```
Transform Search Website
+----------------+ +------------+ +------+ +------------+
| | Extract | | Load | | Solarium | |
| Library System | +-----> | OpenRefine | +-----> | Solr | +--------+ | TYPO3-find |
| | | | | | | |
+----------------+ +------------+ +------+ +------------+
PICA+ -> TSV
```
## Alternativen, die auch interessant wären
Es gibt eine ausgereifte Komplettlösung, die alle drei Funktionen (Verarbeitung der Metadaten, Suchmaschinenindex und Katalogoberfläche) in einer Open-Source-Lösung vereint: [VuFind](http://vufind-org.github.io/vufind/). Diese Lösung kann am ehesten als vollständiger Ersatz für ein kommerzielles Discovery-System gelten (mal abgesehen vom "Central Index" für elektronische Artikel). Wir verwenden VuFind in diesem Seminar nicht, weil die Software zu viele Schritte im Hintergrund erledigt, die das Verständnis der zugrundeliegenden Prozesse erschweren würden. VuFind ist international an vielen Bibliotheken im Einsatz und hat eine sehr aktive Community. In Deutschland finden regelmäßig Anwendertreffen statt, [im Oktober 2016 beispielsweise in Freiburg](https://www.ub.uni-freiburg.de/ihre-ub/veranstaltungen/vufind-anwendertreffen/). Die lange Historie von VuFind (Entwicklung seit 2008) ist gleichzeitig Hauptkritikpunkt: Der Code ist "gewachsen" und entsprechend schwierig zu warten. Die Komplettlösung ist wenig modular aufgebaut und damit schwieriger in andere Systeme integrierbar.
Neu auf dem Markt ist auch die Komplettlösung [Lukida](https://www.lukida.org/), die vom Bibliotheksverbund GBV als Service angeboten wird und auch als [Open Source](https://github.com/gbv/Lukida) zur Verfügung steht. Die Software ist in PHP entwickelt und zeichnet sich durch einen neuen Ansatz in der Darstellung der Suchergebnisse aus.
Alternativen für die Verarbeitung und Analyse der Metadaten wurden im vorigen Kapitel bereits vorgestellt. Für das Ziel des Seminars kämen vor allem Catmandu und d:swarm in Frage. [Catmandu](http://librecat.org/) muss über die Kommandozeile gesteuert werden und hat damit eine höhere Einstiegshürde für diejenigen, die grafische Oberflächen aus Windows gewohnt sind. [d:swarm](http://www.dswarm.org) hingegen bietet einen optischen Zugang, ist jedoch noch in einem frühen Entwicklungsstadium und hat eine relativ komplexe Systemarchitektur.
Als Alternative für die Katalogoberfläche ist noch [Blacklight](http://projectblacklight.org/) zu nennen, das in Universitätsbibliotheken in den USA weit verbreitet ist.

View File

@ -0,0 +1,6 @@
# 1.3 Grundinstallation der Arbeitsumgebung
Ziel: Arbeitsumgebung einrichten und sich auf der Linux Konsole zurechtfinden
Inhalte:
* ...

View File

@ -0,0 +1 @@
# 1.3.1 Installation der virtuellen Maschine

View File

@ -0,0 +1,15 @@
# 1.3.2 Einführung in die Linux Konsole
Wer Webserver administrieren möchte, der kommt an der [Kommandozeile](https://de.wikipedia.org/wiki/Kommandozeile) von Linux nicht vorbei. In Textform lassen sich Server einfach sicherer und schneller steuern als über grafische Oberflächen.
Bevor wir in Kapitel 1.3.3 in die praktischen Übungen einsteigen, hier ein paar Literaturtipps vorab:
Eine gute Einführung in die Linux-Kommandozeile bietet [http://linuxcommand.org](http://linuxcommand.org) von William E. Shotts, der auch ein kostenfreies [540-Seiten-Buch](http://linuxcommand.org/tlcl.php) darüber geschrieben hat.
Es gibt sehr viele praktische kleine Programme auf der Kommandozeile. Zur Übersicht eignet sich daher ein Spickzettel ("Cheatsheet") sehr gut. Ein Beispiel für die unzähligen Cheatsheets: [http://cheatsheetworld.com/programming/unix-linux-cheat-sheet/](http://cheatsheetworld.com/programming/unix-linux-cheat-sheet/).
Nicht vergessen werden sollte, dass ein Linux-Server im Internet trotz der guten Sicherheitsarchitektur von Linux ein beliebtes Angriffsziel darstellt und missbraucht werden könnte. Auch bei Linux werden regelmäßig neue Sicherheitslücken und Einfallstore aufgedeckt. Es wäre daher keine gute Idee, einen Server ohne Updates und Überwachung monatelang im Internet herumdümpeln zu lassen. Wer einen Server dauerhaft im Netz belassen möchte, sollte weitere Vorkehrungen treffen. Hier ein paar Einsteigertipps:
* https://developer-blog.net/10-tipps-wie-man-seinen-server-absichert/
* https://www.thomas-krenn.com/de/wiki/Absicherung_eines_Debian_Servers
* https://plusbryan.com/my-first-5-minutes-on-a-server-or-essential-security-for-linux-servers

View File

@ -0,0 +1,20 @@
# 3.6 Übung: Text durchsuchen und Wörter zählen
## Schritt 1: "War and Peace" von Leo Tolstoy herunterladen und anzeigen
* ```curl http://www.gutenberg.org/files/2600/2600-0.txt > war_and_peace.txt```
* ```cat war_and_peace.txt | less```
Der Anhang ```| less``` am zweiten Befehl zeigt den Text so an, dass Sie mit den Pfeiltasten scrollen können. Beenden können Sie die Ansicht mit der Taste ```q```.
## Schritt 2: Zeilen, Wörter und Zeichen zählen mit wc
* ```wc war_and_peace.txt```
Die drei Nummern sind Zeilen, Wörter und Zeichen (in dieser Reihenfolge).
## Schritt 3: Suche nach Vorkommnissen der Wörter "war" and "peace"
* ```cat war_and_peace.txt | grep -i -ow war | wc```
* ```cat war_and_peace.txt | grep -i -ow peace | wc```
## Siehe auch
1. Ausführlichere Übung im Blog des Projekts Librecat/Catmandu: https://librecatproject.wordpress.com/2014/12/04/day-4-grep-less-and-wc/. Dabei bitte beachten: Die dort referenzierte Textdatei ist anders strukturiert als die obige *war_and_peace.txt* und liefert daher andere Zählergebnisse.
2. Dreistündiger Einführungskurs "Shell Lessons for Librarians" im Projekt "Library Carpentry" http://data-lessons.github.io/library-shell/