noah/tasks/wuppertal.yml

105 lines
5.1 KiB
YAML
Raw Normal View History

2021-01-15 17:01:48 +01:00
# https://taskfile.dev
version: '3'
tasks:
default:
desc: Elpub Wuppertal
vars:
PROJECT: wuppertal
MINIMUM: 1300 # Mindestanzahl der zu erwartenden Datensätze
2021-01-15 17:01:48 +01:00
cmds:
- task: harvest
2021-01-15 17:01:48 +01:00
- task: refine
# Folgende Tasks beginnend mit ":" sind für alle Datenquellen gleich in Taskfile.yml definiert
- task: :check
vars: {PROJECT: '{{.PROJECT}}', MINIMUM: '{{.MINIMUM}}'}
- task: :split
vars: {PROJECT: '{{.PROJECT}}'}
- task: :validate
vars: {PROJECT: '{{.PROJECT}}'}
- task: :zip
vars: {PROJECT: '{{.PROJECT}}'}
- task: :diff
vars: {PROJECT: '{{.PROJECT}}'}
2021-01-15 17:01:48 +01:00
harvest:
dir: data/{{.PROJECT}}/harvest
vars:
URL: http://elpub.bib.uni-wuppertal.de/servlets/OAIDataProvider
FORMAT: oai_dc
PROJECT: wuppertal
2021-01-15 17:01:48 +01:00
cmds:
- METHA_DIR=$PWD metha-sync --format {{.FORMAT}} {{.URL}}
- METHA_DIR=$PWD metha-cat --format {{.FORMAT}} {{.URL}} > {{.PROJECT}}.xml
2021-01-15 17:01:48 +01:00
refine:
dir: data/{{.PROJECT}}/refine
ignore_error: true # provisorisch verwaisten Java-Prozess bei Exit vermeiden https://github.com/go-task/task/issues/141
vars:
2021-01-15 17:01:48 +01:00
PORT: 3335
RAM: 4G
2021-01-15 17:01:48 +01:00
PROJECT: wuppertal
cmds:
- task: :openrefine-start
vars: {PROJECT: '{{.PROJECT}}', PORT: '{{.PORT}}', RAM: '{{.RAM}}'}
2021-01-15 17:01:48 +01:00
# Import (erfordert absoluten Pfad zur XML-Datei)
- $OPENREFINE_CLIENT -P {{.PORT}} --create "$(readlink -e ../harvest/{{.PROJECT}}.xml)" --recordPath Records --recordPath Record --storeEmptyStrings false --trimStrings true --projectName {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Vorverarbeitung: Identifier in erste Spalte; nicht benötigte Spalten (ohne differenzierende Merkmale) löschen; verbleibende Spalten umbenennen (Pfad entfernen)
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/vorverarbeitung.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Entfernen von HTML-Tags und Transformation von subscript und superscript in Unicode (betrifft dc:description, dc:source und dc:title)
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/html.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# DDC einheitlich auf drei Ziffern vereinheitlichen (betrifft dc:subjects und oai:setSpec)
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/ddc.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# dc:publisher setzen
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/publisher.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# URNs, DOIs und PDF-Links aus dc:identifier extrahieren
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/identifier.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Direktlinks generieren durch Abgleich der URNs mit nbn-resolving und Datensätze ohne Direktlink auf ein PDF löschen
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/nbn.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Aufteilung dc:subject in ioo und topic
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/subjects.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Standardisierte Rechteangaben Teil 1 (Links zu CC-Lizenzen)
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/rights.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Datenstruktur für Templating vorbereiten: Pro Zeile ein Datensatz und leere Zeilen löschen
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/join.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Zusammenführung gleichsprachiger Titelangaben zu Title/Subtitle
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/subtitle.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Sprachangaben nach ISO-639-2b (betrifft dc:language sowie die xml:lang Attribute für dc:coverage, dc:description und dc:title)
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/language.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Standardisierte Rechteangaben Teil 2 (Canonical Name für CC-Lizenzen)
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/rights-cc.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Anreicherung HT-Nummer via lobid-resources
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/hbz.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Sortierung mods:nonSort für das erste Element in dc:title
- $OPENREFINE_CLIENT -P {{.PORT}} --apply ../../../rules/{{.PROJECT}}/nonsort.json {{.PROJECT}}
2021-01-15 17:01:48 +01:00
# Export in METS:MODS mit Templating
- |
$OPENREFINE_CLIENT -P {{.PORT}} --export --template "$(< ../../../rules/{{.PROJECT}}/template.txt)" --rowSeparator "
2021-01-15 17:01:48 +01:00
<!-- SPLIT -->
" --suffix "
" --output {{.PROJECT}}.txt {{.PROJECT}}
- task: :openrefine-stop
vars: {PROJECT: '{{.PROJECT}}', PORT: '{{.PORT}}'}
2021-01-15 17:01:48 +01:00
sources:
- ../harvest/{{.PROJECT}}.xml
- ../../../rules/{{.PROJECT}}/*.json
- ../../../rules/{{.PROJECT}}/template.txt
#TODO - ../../../rules/common/*.json
2021-01-15 17:01:48 +01:00
generates:
- openrefine.log
- '{{.PROJECT}}.txt'
- '{{.PROJECT}}.openrefine.tar.gz'
2021-01-15 17:01:48 +01:00
linkcheck:
desc: Elpub Wuppertal links überprüfen
cmds:
- task: :linkcheck
vars: {PROJECT: "wuppertal"}
2021-01-15 17:01:48 +01:00
delete:
desc: Elpub Wuppertal cache löschen
2021-01-15 17:01:48 +01:00
cmds:
- task: :delete
vars: {PROJECT: "wuppertal"}