bibliotheks-und-archivinfor.../kapitel-3/34-tutorial-zu-openrefine.md

1.7 KiB

3.4 Tutorial zu OpenRefine

Bevor wir die im vorigen Abschnitt heruntergeladenen MARC21-Daten verarbeiten, sollten wir uns erst noch gründlicher mit OpenRefine vertraut machen und an das sehr kurze erste Erlebnis aus Kapitel 1.6 anknüpfen.

Für OpenRefine gibt es eine riesige Fülle von Tutorials, die den Einstieg erleichtern. Um die Funktionsweise kennenzulernen, ist es am einfachsten eins dieser Tutorials durchzuarbeiten.

Wir bearbeiten jetzt das folgende selbsterklärende Tutorial:

Seth van Hooland, Ruben Verborgh and Max De Wilde 2013-08-05: "Cleaning Data with OpenRefine" In: Programming Historian. http://programminghistorian.org/lessons/cleaning-data-with-openrefine

Hinweise zur Arbeit mit dem Tutorial

Die im Tutorial benannte Ausgangsdatei phm-collection.tsv ist unter folgender Adresse erreichbar: http://data.freeyourmetadata.org/powerhouse-museum/phm-collection.tsv

Wir verwenden die neue OpenRefine Version 2.7, die andere Standardeinstellungen hat, daher ist abweichend vom Tutorial folgende Einstellung beim Import der TSV-Datei vorzunehmen:

  • Checkbox bei "Parse cell text into numbers, dates, ..." aktivieren

Die Checkbox bei "Quotation marks are used to enclose cells containing column separators" muss deaktiviert werden, das steht so aber auch im Tutorial.