Pharus: TH-weite intelligente Suchmaschine

Aus THM-Wiki
Wechseln zu: Navigation, Suche

Der Projektantrag ist eine Gemeinschaftsarbeit einer Gruppe von acht MNI- und BliZ-Studierenden. Die Gliederung des Antrags entspricht den ZQE-Vorgaben.


  • Langbezeichnung des Projekts:
    • "Intelligente Suchmaschine für die hochschulweite, barrierefreie Informationsrecherche für Studieninteressierte, Studierende und Lehrende der FH Gießen-Friedberg"
  • Kurzbezeichnung des Projekts (max. 20 Zeichen): "FH-Suchmaschine"
  • Zuordnung zu Ziffer im Katalog der Sachgebiete zur Kategorisierung der Projektanträge:
    • Ziffer 1.1: "Verbesserung der Studienberatung" (Studienberatung)
    • Ziffer 5.2: "Verbesserung der allgemeinen EDV/IT-Ausstattung an der Hochschule" (EDV/IT-Ausstattung)
    • Ziffer 5.4: "Barrierfreies Studium" (Barrierefreiheit IS)
  • Antragsteller: FB MNI
  • Projektverantwortlicher: Dr. Klaus Quibeldey-Cirkel, Professor für Praktische Informatik im FB MNI
  • Projektbeteiligte: IT Services für die Betriebsführung der Suchmaschinen-Server, Technologietransfer-Stelle für die Integration des Suchdialoges auf der Startseite der FH

Projekt-Logo

Kurzbeschreibung des Vorhabens

Projektlaufzeit

01.01.2010 bis 31.12.2010

Erläuterung der Problemlage

Über die letzten Jahre ist der Informationspool unserer FH durch den Einsatz moderner Content-Management-Systeme in den Fachbereichen und Service-Einrichtungen enorm angewachsen. Die Suche in den Internetauftritten der Fachbereiche, in diversen Dateiformaten für Modulhandbücher, Prüfungsordnungen, Stundenpläne und Skripten, auf den FH-Lernplattformen Moodle und eStudy oder im FH-Handbuch ist meist nur aufwändig, redundant und unvollständig mit lokalen Suchmaschinen möglich. Ein Teil der Content-Management-Systeme bleibt für die öffentliche Suche gänzlich verschlossen, obwohl dort durchaus öffentliche Informationen vorhanden sind. Ein Großteil der derzeit recherchierbaren Informationen liegt mehrfach in unterschiedlichen Versionen vor. Alle auf den Fachbereichsseiten eingesetzten Suchmaschinen sind Informations-Inseln – verstreut und isoliert. Darüber hinaus unterstützen sie aufgrund ihrer unterschiedlichen Benutzerkonzepte und Rechtesysteme nicht einheitlich die Zielgruppen unserer FH: Studieninteressierte, Studierende, Lehrende und Mitarbeiter.

Das folgende Beispiel zeigt, wie sich die Suche für einen Besucher auf der FH-Startseite aktuell darstellt. Es wird ein von Google bekanntes Ergebnis geliefert, welches auf reinem Textvergleich basiert. Dies ist insofern nicht zufriedenstellend, da weitere Informationen im Intranet der FH vorhanden sind, zum Beispiel auf den Lernplattformen, diese aber mit der Anfrage nicht erreicht werden. Der Besucher wird aus einem Bruchteil des Informationspools der FH bedient und das mit einer unübersichtlichen Trefferliste:

FH-Suche aktuell

Besonders negativ für unser Hochschul-Marketing: Auch SchülerInnen, die auf die Startseite unserer FH gelangen, stehen vor dem gleichen Problem. Studienrelevante Informationen sind kaum in der Trefferliste auszumachen oder werden über die Suche vorenthalten. Dies wirft zwangsläufig die Frage auf: "Bin ich an dieser Fachhochschule gut aufgehoben, finde ich mich hier zurecht?"

Für die Qualität eines Suchergebnisses ist die Art und Weise ausschlaggebend, wie der Suchalgorithmus den Informationspool analysiert und die Treffer auf Suchanfragen priorisiert. An dieser Stelle setzt das Projekt "FH-weite intelligente Suchmaschine" mit Solr an, einem professionellen Open-Source-Suchserver für den unternehmensweiten Einsatz. Große Firmen wie Apple Computer nutzen für den betriebseigenen Campus und den globalen Web-Auftritt eine auf Solr basierende Suchmaschine. Ebenso haben bekannte Webportale wie Wikipedia den Mehrwert erkannt und bieten eine Suchstrategie an, die im Kern auf Solr zurückgeht. Das Open-Source-Projekt Solr ist etabliert, gut gepflegt und wird von einer aktiven Entwickler-Community unterstützt.

Auf der Startseite der FH sollen mit Solr alle relevanten Informationen zielgruppenbezogen mit wenigen Klicks hochschulweit auffindbar sein. Nicht nur die Syntax der Suchanfrage wie bei Google (Meinten Sie? Logische Verknüpfungen etc.), sondern auch die Semantik der Suchbegriffe (Wird eine Funktion gesucht, zum Beispiel "Zur Prüfung anmelden", oder ein Dokument wie "Mein Notenauszug"?) und die Pragmatik des Suchenden (Wer sucht? Studieninteressent? Studierender? Lehrender? Mitarbeiter?) sollen in die Suchanfrage mit einfließen. Dabei wird das Rechtesystem der jeweiligen Informationsquelle erkannt und der Benutzerin und dem Benutzer nur die Information angezeigt, die für ihn oder sie bestimmt ist.

Das Projekt adressiert zugleich den barrierefreien Zugang zum Informationspool der FH für Sehbehinderte und Blinde: Der Suchdialog wird von jedem Screenreader vorlesbar sein und die priorisierte Trefferliste wird in sogenannten "Facetten" angeboten. Näheres in der folgenden Darstellung des Lösungsansatzes.

Lösungsansatz

Wer schnell an Informationen kommen will, scheitert oft am Resultat der Suchmaschine: So sind mehrere hundert Treffer keine Seltenheit auf der FH-Startseite. Es stellt sich die Frage, warum nicht die besten Ergebnisse zuerst angezeigt werden, sondern inmitten irrelevanter Einträge untergehen. Niemand macht sich die Mühe, alle Webseiten in der Trefferliste anzusehen, um deren Brauchbarkeit zu beurteilen. Intelligente Suchmaschinen sind zwar kein Patentrezept für dieses Problem, aber eine sinnvolle Möglichkeit, sich besser in der Vielfalt von Informationen in der Trefferliste zurechtzufinden.

Der renommierte Usability-Experte Jakob Nielsen teilt User in zwei Kategorien ein: die einen Nutzen die Navigation, die anderen die Suche. Letztere Gruppe dürfte vor allem der Grund dafür sein, dass laut seiner Untersuchung von 24 Websites aller Couleur, von denen 19 eine Suche anbieten, diese in keinem Fall ungenutzt bleibt. Suchaffine User erwarten also eine maßgeschneiderte Suchfunktion auf der Webseite, sonst steht zu befürchten, dass sie schnell aufgeben. Eine schlechte Suchfunktion ist nach Nielsen der häufigste Grund für das Scheitern einer Informationsrecherche, noch vor der Informationsarchitektur (Navigation mit Menüs, Kategorien, Links) und der Lesbarkeit des Seiteninhalts. Das Seitendesign – Layout und Grafiken – wird dagegen von Webdesignern überbewertet, es ist für die Benutzbarkeit relativ unwichtig.[1]

Mit dem Apache-Solr-Projekt wurde auf Open-Source-Basis ein intelligenter, voll ausgewachsener Suchserver realisiert, optimiert für hohe Last und Verfügbarkeit. Durch seine Vielzahl von Funktionen grenzt er sich von anderen Suchmaschinen, beispielsweise Google, deutlich ab.

Facetten-Suche

Beispiel einer Ergebnisseite mit Facetten-Suche

Eine wesentliche Errungenschaft von Apache Solr ist die facettierte Suche. Bei dieser wird das Suchergebnis nach und nach verfeinert, indem vorher "freie" Suchfelder fest belegt werden.

Beispiel: Max sucht über die FH-Suche nach dem Schlagwort "Stundenplan". Die zum Schlagwort passenden Seiten werden über vordefinierte Felder zusammengefasst und als Kategorien angezeigt. Nun bietet sich Max die Möglichkeit, die Suche anhand dieser Kategorien zu verfeinern. Interessiert er sich beispielweise für den Stundenplan Informatik im Bachelor-Studiengang, so hat er die Option, seine Suche einzugrenzen, indem er die Kategorien Informatik und Bachelor auswählt. Somit verkleinert sich mit einem Klick die angezeigte Treffermenge, denn irrelevante Datensätze anderer Fachbereiche zum Thema Stundenplan entfallen.

Facetten sind besondere Parameter, die bei der Übermittlung der Suchanfrage übergeben und in der Berechnung des Ergebnisses als Muss-Kriterien berücksichtigt werden. Sie gehen nicht in die Gewichtung ein, wie die anderen Terme einer Abfrage. Facetten haben also den Effekt, dass eine Suche auf einer Teilmenge des Gesamtindexes sehr gute und unverfälschte Suchergebnisse liefert.

Neben der facettierten Suche bietet Solr einen umfangreichen Satz an weiteren Funktionen. Performant öffnet und indexiert Solr viele diverse Dateiformate: Meta-Informationen aus Bilddaten können interpretiert, exotisch gepackte Verzeichnisse geöffnet sowie alle gängigen Office- und Webformate ausgelesen werden.[2]

Social Bookmarking

Ein weiteres innovatives Feature ist die Unterstütztung sogenannter Social Bookmarks, Lesezeichen, die im Internet durch Gemeinschaftliches Indexieren erschlossen werden. Gerade in der Zielgruppe der jüngeren Generation, also der Studierenden in spe, erfreuen sich diese Dienste einer steigenden Beliebtheit. Durch die Anbindung an die großen Social-Bookmarking-Portale können interessante Links aus den Suchergebnissen gespeichert und mit anderen geteilt werden, ein nicht zu unterschätzender Marketing-Effekt, wie folgendes Beispiel zeigt:

Lisa, eine Abiturientin, die sich für ein Studium an der FH Gießen-Friedberg interessiert, gelangt über die neue Suchmaschine auf das Modulhandbuch des Studiengangs Informatik. Dieses findet Sie interessant und hinterlegt den Link bei Ihrem Social-Bookmarking-Dienst. Durch die Speicherung bei diesem Dienst werden automatisch alle Freunde von Lisa informiert, dass sie auf etwas Interessantes im Internet gestoßen ist. Nicht selten sind die so genannten "Power-User", also die sehr aktiven Benutzer, mit mehreren hundert Personen verknüpft. Suchen ebenfalls Freunde von Lisa einen Studienplatz, werden sie also darauf aufmerksam, dass sich Lisa für den Studiengang Informatik an der FH Gießen-Friedberg interessiert und schauen sich mit großer Wahrscheinlichkeit ebenfalls das Modulhandbuch an.

Geplante Arbeitsschritte und erwartete Ergebnisse

Die Implementierung der neuen FH-Suchmaschine soll dem Benutzer ein einfaches Suchfeld zur Verfügung stellen und ihm die Vielfalt der Informationen der verschiedenen FH-Auftritte an einer Stelle zugänglich machen. Der Grundaufbau der Suchlokalität der Suchquellen ist gleich: Alle Systeme basieren auf SQL-Datenbanken. Die historisch gewachsene Struktur der Content-Management-Systeme wird dabei nur passiv durchsucht und bleibt in ihrem Bestehen unverändert. Die Zusammenführung der Suche stellt einen noninvasiven Eingriff auf den Quelltext der Programme dar (Joomla!, eGroupWare, Typo3, Moodle, eStudy etc.); der Code bleibt unberührt.

Solr Globale Suche

Beispiel für die Suche mit Apache Solr: Bei einer Suche nach dem Text "Modulhandbuch Bachelor Informatik" wird die Suchanfrage semantisch analysiert und intelligent ausgewertet. Das Suchergebnis führt den Suchbegriff auf Rang 1 der Liste. Der Anfrager bekommt nur relevante Ergebnisse angezeigt und findet schnell die gewünschte Information.

Suchen mit Solr

Serverarchitektur: Der zentrale Suchserver wird die Datenbanken der FH-Informationssysteme indizieren und dem Benutzer die globale Suchanfrage unter Berücksichtigung seiner Zugriffsrechte gemäß Benutzergruppe erlauben. Das vollständige Scannen der Datenbanken erfolgt nachts, wenn die Dialoglast gering ist.

Server-Architektur

Beabsichtigte Wirkung

  • Direktes Suchen statt Navigieren: Unsere FH stellt ein umfangreiches Portfolio an Informationen und Service-Angeboten online zur Verfügung, welches zurzeit leider nicht optimal genutzt werden kann. Der Informationspool ist auf zahlreichen offenen und geschlossenen Content-Management-Systemen verteilt und bremst den Studierenden bei seinen Recherchen aus, da die gewünschte Information oder der gewünschte Service nicht von einer Stelle aus erreichbar ist. Um die Qualität der Informationsgewinnung und damit ein effizienteres Studieren zu fördern, soll dieses Manko durch eine zentrale Suchanfrage beseitigt werden.
  • Barrierefreies Suchen: Die derzeitige Suche der FH, basierend auf Google, arbeitet als reine Volltextsuche. Das heißt, es werden Wörter (Strings) verglichen und nach Vorkommen und Häufigkeit als Suchergebnis platziert. Für Blinde und Sehbehinderte, die mit Sprachausgabe (Screenreader) oder Braillezeile arbeiten, kann es schwierig sein, mit der Trefferliste zum gesuchten Ziel zu gelangen. Der Einsatz einer facettierten Suche kann diese Barriere reduzieren, nämlich durch eine klare und geordnete Führung entlang von Teilmengen des Suchergebnisses. Neben der herkömmlichen Darstellung der Facetten (Trefferkategorien) in der Fläche des Bildschirms wird sehgeschädigten Studierenden ein Drop-down-Menü für die Facetten angeboten. Die Facetten-Suchtechnik stellt auch für normalsichtige Personen eine komfortable Möglichkeit dar, um übersichtlich, systematisch und schnell zur gewünschten Information zu gelangen. In Zusammenarbeit mit blinden Studierenden wurden bereits im Vorfeld Diskussionen über Barrierefreiheit bei Suchmaschinen geführt. Diese haben gezeigt, dass hier sehr große Defizite bestehen und bisher keine barrierefreie Lösung existiert. Im Zuge des Gleichbehandlungs-Gesetzes hat unsere FH die Pflicht, Informationsangebote barrierefrei zu gestalten, um Sehbehinderten und Blinden einen gleichwertigen Zugang zu ermöglichen.
  • Alleinstellungsmerkmal für unser Hochschul-Marketing: Deutsche Sozialorganisationen, wie die Aktion Mensch, verleihen jährlich den BIENE-Award für die besten deutschen barrierefreien Websites nach Kategorien wie zum Beispiel Bildung. Die Projektbeteiligten haben den Ehrgeiz, als erste Hochschule mit der "Goldenen BIENE" im nächsten Jahr ausgezeichnet zu werden.

Begründung für die im Finanzierungsplan beantragten Mittel

Zwei redundante Hochleistungs-Server, auf denen die Suchmaschine Solr läuft, und mehrere File-Server für die Suchindexe: ca. 20.000 €.

Werkverträge für Entwickler und Tester: 12.000 €

Das Vorhaben wird im Rahmen eines Masterprojekts und eines Gruppen-Bachelorprojekts mit acht Informatik-Studierenden umgesetzt unter Beratung blinder und stark sehbehinderter BliZ-Studierender.

Folgende Aufgaben sind über die Werkverträge umzusetzen:

Ist-Analyse der Informationssysteme (Datenbankstrukturen):

  • ca. 60 Std.

Implementierung der Solr-Search-Engine:

  • ca. 120 Std.

Implementierung der Teilprojekte:

  • Facetten-Suche
  • Social Tagging
  • Multi-Indizierung
  • Auto-Suggest-Unterstützung bei der Suchanfrage
  • ca. 140 Std.

Funktionstests, Usabillity-Tests, WAI-Tests:

  • ca. 60 Std.

Gesamtsumme der erforderlichen Sachmittel: 32.000 €

Evaluation der Ergebnisse

Der Masterkurs "Web-Engineering" im Sommersemester 2010 begleitet das Projekt "FH-weite Suchmaschine". Die Studierenden des Kurses werden die Qualitätssicherung und Evaluation des Projekts als Studienleistung übernehmen.

Weblinks

Einzelnachweise