Tag 8: Suchmachinen und Discovery-Systeme

Suchmaschinen und Discovery Systeme

In der Vorlesung 8 ging es um Suchmaschinen und Discovery Systeme. Es gibt die Suche über einfache Zeichenketten (Strings), die genau nach der eingegebenen Zeichenfolge suchen, wie das in Datenbanken funktioniert und es gibt Discovery Systeme, die lexikalisch suchen können, beispielsweise auch nach Begriffen mit ähnlichem Sinn.

Ein solches Discovery System ist VuFind, eine weit verbreitete, open source Software, die unterschiedliche Gestaltungen zulässt und einfach erweitert werden kann. Ein Beispiel dafür wäre das Hinzufügen einer Tektonik des Bestandes. In der Übung 3 wurde bereits gezeigt, wie VuFind über Konfigurationsdateien selbst angepasst werden kann.

VuFind basiert auf Solr, das die eigentliche Suchmaschine darstellt. VuFind stellt dann eine Schnittstelle dar, auf der über eine Suchmaske Daten abgefragt werden können.

Übung 1

In der Administrationsoberfläche von Solr sind verschiedenen Optionen vorhanden. Unter der Funktion Schema beispielsweise können alle Suchfelder angewählt werden und es wird angezeigt, was das jeweilige Suchfeld enthalten kann (Abb.1). Mit der Funktion Query ist auch eine Suche direkt in Solr möglich.

Abb.1: Detaillierte Infos zum Suchfeld «author» in Solr

In einer Übung wurde die Suche nach dem gleichen Begriff (Psychology) einmal auf dem Interface von VuFind und einmal in Solr selbst durchgeführt. Ein Vergleich zeigt, dass bei beiden Anfragen drei Ergebnisse in der gleichen Reihenfolge gefunden wurden, was auch nicht wirklich erstaunlich ist, da die VuFind Oberfläche ja auf Solr basiert und somit die dort enthaltenen Daten durchsucht. Anders ist nur die Darstellung. Wo in Solr der gesamte Datensatz mit allen Informationen angezeigt wird, ist dieser in VuFind bereits gefiltert und besser lesbar dargestellt (Abb.2 und 3).

Abb.2: Benutzerfreundliche Darstellung der Suchergebnisse in VuFind

Abb.3: Suchergebnis in Solr mit detailliertem Datensatz

Sehr interessant war auch einmal zu sehen, was im Hintergrund passiert bei einer solchen Abfrage. Dies konnte im Terminal der virtuellen Maschine nachverfolgt werden. So wurde Beispielsweise sichtbar, wie das Relevanzranking zustande kommt. Beispielsweise bedeutet title^500, dass ein Ergebnis 500-mal mehr gewichtet wird, wenn der Suchbegriff im Titel steht als wenn er in einem Suchfeld ohne Zahl steht oder doppelt so viel wie ein Feld, dass mit ^250 gewichtet wurde. Die Felder mit hohem Faktor werden dann höher oben in den Suchergebnissen angezeigt. Wie in href="https://larapfister.github.io/bain-lerntagebuch/2021/12/10/%C3%9Cbung.html">Übung 3</a> bereits gesehen, kann dieses Relevanzranking für VuFind in der Konfigurationsdatei searchspecs.yaml auch selbst festgelegt werden.

Übung 2

Bei der zweiten Übung ging es darum, die Datensätze aus Koha, Archivesspace, Dspace und OpenRefine, die alle in vorherigen Vorlesungen in MARCXML konvertiert wurden, in VuFind zu importieren um so einen übergreifenden Katalog mit verschiedenen Datentypen zu erstellen. Dazu wurden zuerst die immer noch vorhandenen Testdateien gelöscht und dann die Beispieldateien von Koha in VuFind importiert. Dabei wurde nur eine von zwei vorhandenen Dateien importiert, weil der anderen eine id fehlte, was aber in VuFind ein Pflichtfeld darstellt. Dies war im Terminal in der Fehlermeldung: «Document is missing mandatory uniquekey field: id» ersichtlich.

Zwischenfazit

Nun haben wir die ganzen Schritte des Schaubildes, das in der ersten Lehrveranstaltung gezeigt wurde (Abb.4) durchlaufen und tatsächlich ergibt das Bild für mich langsam Sinn.

Abb.4: Schaubild Lerninhalte (Quelle: Gemeinsames Dokument)

Es ging darum, mit den drei verschiedenen Systemen aus den Bereichen Bibliothek (Koha), Archiv (Archivesspace) und Repository (DSPace) Metadaten mit VuFindHarvest über die OAI-PMH-Schnittstellen der jeweiligen Systeme zu «erneten» und diese verschiedenen Datenformate wie EAD und Dublin Core dann mit MarcEdit ins Marc21-XML Format zu bringen. Zusätzlihch wurden aus OpenRefine Tabellendaten im Format Marc21-XML exportiert. Nun lagen alle Dateien im Marc21-XML Format vor und konnten via Solr in VuFind importiert werden, um so alle Daten in einem Interface abfragen zu können.