VuFindHarvest

In der heutigen Vorlesung ging es darum, mit VuFindHarvest (ein OAI Harvester aus dem VuFind-Projekt) Metadaten, die über die OAI-PMH-Schnittstelle der bereits kennengelernten Systeme Koha und Archivesspace angeboten werden, zu «ernten». Dazu musste zuerst sichergestellt werden, dass die Schnittstellen von Koha und Archivesspace auch wirklich abrufbar sind. Wie erwartet lief Koha noch und Archivesspace musste im Terminal neu gestartet werden, da die Benutzeroberfläche nur läuft, wenn das Programm gleichzeitig im Terminal aktiv ist.

Bei Koha hatte ich allerdings, wie andere anscheinend auch, das Problem, dass die Schnittstelle nicht funktionierte, die Einstellungen unter Administration aber nicht mehr aufrufbar waren. Da ich die Vorlesung nachgeschaut habe, konnte ich das Problem vorerst nicht lösen.

Ich habe dann trotzdem weitergemacht mit der Installation von VuFindHarvest 4.1.0, was auch gut funktionierte. Das spezielle an VuFindHarvest ist, dass diese Software keine grafische Oberfläche hat und nur in der Kommandozeile funktioniert.

Übung

Die in den vorherigen Veranstaltungen eingespeisten Daten sollten in Koha im Marc21-XML Format und in Archivesspace im EAD Format abgerufen werden.

Für Archivesspace funktionierte die Übung problemlos, indem ich im Befehl php bin/harvest_oai.php --url=http://example.com/oai_server --metadataPrefix=oai_dc my_target_dir die Url durch http://localhost:8082 ersetze und für den metadataPrefix statt oai_dc oai_ead schrieb. Ich fand die Dateien im EAD Format danach auch abgelegt im Ordner my_target_dir.

Für Koha versuchte ich das gleiche, wie erwartet, funktioniert es aber nicht, da die Schnittstelle ja schon nicht abrufbar war. Daher werde ich für die weiteren Übungsschritte die zur Verfügung gestellten Datensätze nutzen.

XSLT Crosswalks mit Marcedit

Mit Marcedit sollten dann die Metadatenstandards von einem Format in ein anderes umgewandelt werden, auch Crosswalk genannt. Dies geht oft nicht verlustfrei, weil verschiedene Formate nicht für den gleichen Zweck gemacht sind, so ist Marc21-XML beispielweise für die Bibliothek geignet, wo es eher um die Medien selbst geht und EAD für Archive, wo es um den Entstehungszusammenhang geht.

So hat dublin core beispielswese nur 12 Felder, wenn man das in Marc21 konvertieren möchte, das viel mehr Felder hat, kann es schon zu Problemen kommen. Es gibt aber auch Standards/Regeln für das Mapping, wie beispielsweise im MARC to Dublin Core Crosswalk der library of congress, wo sich eine Empfehlung findet, welche Marc Felder welchem Dublin Core Element zugeordnet werden können/sollen.

Dann ging es darum, Marcedit, eine frei verfügbare und weit verbreitete Software, zu installieren und zu editieren. Besonders interessant fand ich hier, dass diese Software von einer Person entwickelt wurde und gepflegt wird. Hier kann der “Worklog” von Terry Reese gelesen werden.

Die Konvertierung vom Metadatenstandardformat EAD zu Marc21-XML erfolgte in zwei Schritten. Zuerst wurde in Marcedit EAD zu Marc21 und dann Marc21 zu Marc21-XML konvertiert. zuerst funktionierte es nicht, bis ich die Fehlermeldung erhielt, dass der Pfad nicht gefunden werden kann, tatsächlich hatte ich mich beim modifizieren des Pfads (dies war nötig, weil Marcedit für Windows entwickelt wurde, das nicht case sensitive ist, Linux dagegen schon, also sind für Linux xlst und XLST nicht das gleiche) vertippt und xlst stat xslt geschrieben. Nach der Korrektur waren beide Schritte schnell ausgeführt.

Beim Vergleich von ABb.1 und Abb.2 wird schon deutlich, dass die ursprüngliche EAD Datei länger war, als die konvertierte im Format Marc21-XML. So fehlen in der konvertierten Datei Beispielweise Angaben wie der Name der Collection «Weihanchtsbriefe» oder auch der Umfang «50 Cubic Feet». Eine Konvertierung vom Metadatenstandardformat EAD zum Format Marc21-XML ist also möglich, jedoch nicht verlustfrei.

Auch der Vergleich der ursprünglichen Daten von DSpace im Dublin Core Format zur konvertierten Version im Marc21-XML Format (Abb. 3 und Abb.4) zeigt, dass die Konvertierung nicht verlustfrei lief.

6-1

Abb.1: Aus Archivesspace heruntergeladene Datei im EAD Format

6-2

Abb.2: EAD Datei konvertiert in Marc21-XML

6-3

Abb.3: Datei aus DSpace im Dublin Core Format

6-4

Abb.4: Dublin Core Format konvertiert in Marc21-XML