Harvesting von OAI-PMH-Schnittstellen und Transformation in METS/MODS für das Portal noah.nrw.
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Felix Lohmeier 659ad70ec6 fix #37 abweichender MIME-type bei Datensätzen mit Dateiendung .pdf in URL 5 months ago
bielefeld fix #37 abweichender MIME-type bei Datensätzen mit Dateiendung .pdf in URL 5 months ago
muenster Vorläufig ohne Zeitschriftenhefte #31 und nur mit einem Direktlink #25 9 months ago
siegen resolve #26 Refactoring nach Vorlage openrefine-task-runner 9 months ago
wuppertal resolve #26 Refactoring nach Vorlage openrefine-task-runner 9 months ago
.gitignore resolve #26 Refactoring nach Vorlage openrefine-task-runner 9 months ago
LICENSE Initial commit 11 months ago
README.md Ergänzung pub.uni-bielefeld.de in Doku 6 months ago
Taskfile.yml Neue Datenquelle: PUB UB Bielefeld #18 7 months ago
flowchart.mmd Ergänzung pub.uni-bielefeld.de in Doku 6 months ago
flowchart.svg Ergänzung pub.uni-bielefeld.de in Doku 6 months ago

README.md

Datenintegration für noah.nrw

Harvesting von OAI-PMH-Schnittstellen und Transformation in METS/MODS für das Portal noah.nrw

⚠️ Dies ist ein Prototyp für die Beta-Version des Portals.

Datenfluss

Datenflussdiagramm

Verwendete Tools

Systemvoraussetzungen

  • GNU/Linux (getestet mit Fedora 32)
  • JAVA 8+
  • cURL, xmllint

Installation

  1. Git Repository klonen

    git clone https://github.com/opencultureconsulting/noah.git
    cd noah
    
  2. metha 0.2.20

    a) RPM-basiert (Fedora, CentOS, SLES, etc.)

    wget https://github.com/miku/metha/releases/download/v0.2.20/metha-0.2.20-0.x86_64.rpm
    sudo dnf install ./metha-0.2.20-0.x86_64.rpm && rm metha-0.2.20-0.x86_64.rpm
    

    b) DEB-basiert (Debian, Ubuntu etc.)

    wget https://github.com/miku/metha/releases/download/v0.2.20/metha_0.2.20_amd64.deb
    sudo apt install ./metha_0.2.20_amd64.deb && rm metha_0.2.20_amd64.deb
    
  3. Task 3.2.2

    a) RPM-basiert (Fedora, CentOS, SLES, etc.)

    wget https://github.com/go-task/task/releases/download/v3.2.2/task_linux_amd64.rpm
    sudo dnf install ./task_linux_amd64.rpm && rm task_linux_amd64.rpm
    

    b) DEB-basiert (Debian, Ubuntu etc.)

    wget https://github.com/go-task/task/releases/download/v3.2.2/task_linux_amd64.deb
    sudo apt install ./task_linux_amd64.deb && rm task_linux_amd64.deb
    
  4. Install task ausführen, um OpenRefine 3.4.1 und openrefine-client 0.3.10 herunterzuladen

    task install
    

Nutzung

  • Vorab ggf. ulimit erhöhen, um Abbruch durch "too many open files" zu vermeiden

    ulimit -n 20000
    
  • Alle Datenquellen (parallelisiert)

    task
    
  • Eine Datenquelle

    task siegen:main
    
  • Zwei Datenquellen (parallelisiert)

    task --parallel siegen:main wuppertal:main
    
  • Trotzdem Verarbeitung starten, auch wenn Checksummenprüfung ergibt, dass nichts zu tun wäre

    task siegen:main --force
    
  • Zur Fehlerbehebung: Befehle ausgeben, aber nicht ausführen

    task siegen:main --dry --verbose --force
    
  • Links einer Datenquelle überprüfen

    task siegen:linkcheck
    
  • Cache einer Datenquelle löschen

    task siegen:delete
    
  • Verfügbare Tasks auflisten

    task --list
    

Konfiguration

  • Der Workflow einer Datenquelle wird im jeweiligen spezifischen Taskfile.yml definiert
  • Die im Workflow verwendeten OpenRefine-Transformationsregeln liegen im Unterordner config der jeweiligen Datenquelle
  • Allgemeine Tasks (z.B. Validierung) werden im Taskfile.yml des Hauptordners definiert.

OAI-PMH Data Provider

Für die Bereitstellung der transformierten Daten wird der dateibasierte OAI-PMH Data Provider oai_pmh genutzt. Installations- und Nutzungshinweise sind dort zu finden.