bibliotheks-und-archivinfor.../05_discovery-system-vufind-...

10 KiB

Discovery-System VuFind und Suchmaschine Solr

Nachträge zu Themen aus den Lerntagebüchern

Zu Tag 4 (06.11., OpenRefine, MarcEdit, SRU, OAI, ...):

  • Unterscheidung von Programmen (z.B. MarcEdit, OpenRefine) und Standards (z.B. XSLT, SRU) ist wichtig:
    • Ein Standard wird von einem Gremium spezifiziert oder entwickelt sich mit der Zeit durch die hohe Verbreitung zu einem Industriestandard (auch De-facto Standard genannt, Beispiel: SQL).
    • Entwickler*innen von Programmen implementieren dann diese Standards (im Idealfall vollständig, manchmal aber auch nur teilweise).
    • Auf welchen Wegen können Sie a) XSLT-Crosswalks schreiben und b) anwenden?
    • Mit welchen Anwendungen können Sie eine SRU-Schnittstelle abfragen?
  • Ein Lerntagebuch hat den Wikipedia-Eintrag zu SRU diskutiert: https://de.wikipedia.org/wiki/Search/Retrieve_via_URL. Im Prinzip ein Pluspunkt für das Bewertungskriterium "Kontextualisierung", aber achten Sie dabei auf die Details. Hinterfragen Sie die Angaben oder prüfen Sie ggf. noch eine zweite Quelle, bevor etwas übernehmen:
  • Was ist der Unterschied zwischen kostenfreier Software wie MarcEdit und Open-Source-Software?

Gastvortrag von Noémie Ammann (ETH-Bibliothek) zu Primo und SLSP

LinkedIn Profil: https://www.linkedin.com/in/noémie-ammann-4aa18418b/

  • seit über 5 Jahren IT-Spezialistin an der ETH-Bibliothek
  • Diploma of Advanced Studies in Bibliotheks- und Informationswissenschaft (2013) und Master in Germanistik (2008)
  • Dozentin an der Uni Zürich im MAS Bibliotheks- und Informationswissenschaft
  • zertifiziert für Alma und Primo

ETH wird im Rahmen von SLSP nicht nur von Aleph zu Alma, sondern auch von Primo zu Primo VE migrieren. Primo VE ist eine in Alma integrierte Discovery Lösung, für welche zwar das gleiche User Interface eingesetzt wird, die aber im Hintergrund ganz anders konzipiert ist.

Präsentation

Präsentationsfolien in Moodle: https://moodle.fhgr.ch/mod/resource/view.php?id=247387 (zugriffsbeschränkt)

Ergänzungen zur Präsentation

Primo-PNX anzeigen (funktioniert bei allen Primos): Am Ende der Internetadresse (URL) Folgendes anfügen:

&showPnx=true

Normalisierung und Anreicherung wird zukünftig in Alma umgesetzt (nicht mehr in Primo) - hier gibt es Überschneidungen zwischen den Produkten, weil Primo (ohne VE) auch mit anderen Bibliothekssystemen eingesetzt werden kann

Videotrainings in Dokumentation zu Alma im Ex Libris Knowledge Center

Marktüberblick Discovery-Systeme

Jährlicher Library Systems Report von Marshall Breeding im ALA Magazine: https://americanlibrariesmagazine.org/2019/05/01/library-systems-report-2019/

Funktionen von Suchmaschinen am Beispiel von Solr

Die Studierenden hatten die Aufgabe das offizielle Solr Tutorial zu bearbeiten: https://lucene.apache.org/solr/guide/8_2/solr-tutorial.html

Im Tutorial wird das Programm curl verwendet, dass bei uns noch nicht installiert ist. Mit folgendem Befehl kann es installiert werden:

sudo apt install curl

Aus der Diskussion:

  • Datenimport: Solr kann verschiedene Dateiformate (.doc, .xml .json, .ppt usw.) importieren
  • Schema: Üblicherweise sollte vor Import der Daten in einem Schema festgelegt werden welche Felder existieren und welche Datentypen diese beinhalten dürfen
  • Solr hat zwar eine integrierte Suchoberfläche, aber die ist nur zu Demo-Zwecken gedacht
  • Primo und VuFind basieren beide auf Solr

VuFind

Zur Einführung:

VuFind-Installationen weltweit: https://vufind.org/wiki/community:installations

Tutorial

Wir bearbeiten die Kapitel 3-9 von folgendem Tutorial: https://felixlohmeier.gitbooks.io/vufind-tutorial-de/content/03_Installation_VuFind.html

Das Tutorial wurde ursprünglich von Stefan Niesner im Rahmen einer Projektarbeit entwickelt und von mir für VuFind 4.1 aktualisiert.

Achtung: VuFind 4.1 läuft nicht unter Lubuntu 18.04 (im Tutorial ist vorgesehen VuFind unter 16.04 zu installieren). Unter 18.04 wird automatisch eine neuere Java-Version (11) installiert, VuFind benötigt aber eine ältere Version (8). Es gibt auch noch weitere Probleme. Wir installieren daher VuFind 6.0.1 abweichend vom Tutorial nach der offiziellen Installationsanleitung.

Gruppenarbeit zu Metadatenflüssen

Konzeption Metadatenflüsse für Gruppenarbeit

Einfache Möglichkeit für Datentransfer: https://send.firefox.com

Exkurs: Architektur der Suchmaschine DuckDuckGo

  • DuckDuckGo verwendet vorrangig Programmierschnittstellen (APIs) von anderen, größeren Suchmaschinen (Yahoo, Bing, Yandex, Wolfram Alpha) aber auch zahlreiche weitere Quellen und auch eigene Webcrawler. Nach eigener Angabe sollen es über 400 verschiedene Quellen sein.
  • Genaue Informationen zur aktuellen Systemarchitektur sind nicht zu finden. Nur ein Teil des Codes ist Open Source. Aus einem Artikel von 2013 ist zu entnehmen, dass damals Solr und PostgreSQL für die Datenhaltung eingesetzt wurden. Es wird so dargestellt, dass manche Quellen in Solr und manche in PostgreSQL und weitere in anderer Form abgelegt werden.
  • Bei der eigenen Datenhaltung handelt es sich ohnehin offenbar nur um einen Cache, um Suchanfragen zu beschleunigen. Der Cache wird vermutlich spätestens nach 24 Stunden erneuert, um aktuelle Suchtreffer anbieten zu können.
  • Google wird offenbar überhaupt nicht als Datenquelle genutzt. Das Layout und die Funktionen sehen zwar ähnlich aus, aber es ist offenbar alles "nachgebaut".

Quellen: