Ein häufiges Problem bei der Auswertung von Suchfeldern besteht darin, dass Nutzer bei ihrer Suche oft keine präzisen Begriffe verwenden, sondern in einem oder mehreren Wörtern nur so ungefähr ausdrücken, was sie eigentlich meinen. Nachdem Teil 1 dieser Artikelreihe den Umgang mit verschiedenen Schreibweisen zum Thema hatte, geht es heute in Teil 2 darum, wie eine Software wie die CONTEXTSUITE auch komplexere Szenarien abdeckt: Wie können auch mehrdeutige Begriffe zuverlässig aufgelöst werden? Wann verbessern Synonyme ein Suchergebnis? Sind auch Abweichungen von der grammatikalischen Grundform erlaubt?

Es gibt eine ganze Reihe von sprachlichen Besonderheiten, die sich auf Benutzereingaben auswirken können.

Wie kann die korrekte Bedeutung eines Wortes im Kontext identifiziert werden?

  • Ambiguität von Wörtern:
    ein Wort hat mehrere Bedeutungen:
    Wirtschaft: Ökonomie – Gastwirtschaft
    Gericht: Justiz – Speise
    Golf: Auto – Sportart – Meeresbucht
    Montage: Wochentag – Zusammenbauen (unterschiedliche Betonung)

Besteht die Eingabe aus nur einem oder wenigen Wörtern, ist die Auflösung der Mehrdeutigkeit sehr schwierig. Ohne Zuhilfenahme eines hinweisgebenden Kontexts kann die richtige Lesart und damit die passende Domäne nur abgeschätzt werden. Dabei helfen folgende Überlegungen:
In welchem thematischen Umfeld liegt die Anwendung, was ist der häufigere Sprachgebrauch des ambigen Begriffs, ist es ein aktueller Trend-Begriff, gibt es Hinweise aus vorausgegangenen Eingaben des Benutzers? Möglich ist auch eine Rückfrage des Programms an den Benutzer:
Meinten Sie: Golf → Auto, Golf → Sport, Golf → Meeresbucht?

  • Synonyme der Bedeutung:
    für einen Begriff gibt es mehrere Wörter (regionale Unterschiede, sprachgeschichtliche Ursachen)
    Semmel – Brötchen,
    Postbote – Briefträger,
    Streichholz – Zündholz,
    oft – häufig,
    vertikal – senkrecht
    Apfelsine – Orange
    ?
    Altersvorsorge – Altersversorgung – Altersversicherung ??
    Fahrrad – Rad ???
    24 – 2 x 12 – “8×4”

Hier könnte die Benutzereingabe um sämtliche Bedeutungssynonyme ergänzt werden und so eine höhere Trefferausbeute gelingen.
Aber handelt es sich wirklich um völlig gleichwertige Bezeichnungen, die sich reziprok verwenden lassen?
Beispiele:
Orange könnte auch für die Farbe Orange stehen und somit nicht relevante Treffer mitliefern. Durcheinander – Chaos – Tohuwabohu sehen auf den ersten Blick sehr geeignet aus, aber gibt es neben dem Verkehrschaos auch ein Verkehrsdurcheinander oder ein Verkehrstohuwabohu? Zwischen Rad und Fahrrad gibt es die Beziehung “Oberbegriff” und “Untermenge”: überall, wo Fahrrad steht, könnte man auch Rad verwenden, aber nicht umgekehrt.

Ist der Thesaurus eine Lösung?

Ein Thesaurus (z.B. der deutsche OpenThesaurus) enthält Synonyme für einen Begriff, aber auch Ober- und Unterbegriffe sowie Assoziationen zu verwandten Begriffen. Er ist also eher ein Wortnetz als ein Wortverzeichnis. Zwar besteht ein großes Angebot an interessanten “Pseudo”-Synonymen, doch deren Qualität ist eher von Hand zu prüfen, als dass man sie unbesehen und automatisiert verwenden könnte.

Hat die Computerlinguistik eine Lösung?

Hier ist insbesondere das Konzept des Word Embedding (Worteinbettung) nützlich. Grob gesagt wird ein Wort über einen breiten Bereich seiner linken und rechten Wort-Nachbarn beschrieben. Der Computer ermittelt bzw. lernt (Machine Learning) dies anhand sehr großer Mengen an Trainingsdokumenten und mittels spezieller Algorithmen. Einer der gebräuchlichsten Ansätze dazu ist das Word2Vec – Modell, bei dem ein Wort in Textdarstellung auf Zahlenwerten bzw. einem mehrdimensionalen Vektor abgebildet wird. Haben zwei Wörter einen so gut wie identischen Wort-Vektor – also einen überaus ähnlichen Kontext, so sind sie Kandidaten für Synonyme.

Beispiel für die Abbildung von Wörtern auf Zahlenpositionen

Interessanterweise liefert diese Methode etliche Synonyme, die man normalerweise übersieht, oder auch Wörter, die sehr oft im Zusammenhang benutzt werden wie z.B.:
Firmenfusion – Millionenhöhe
Autolack – Insektenrest

  • grammatikalische Grundform oder mit Flexion:
    Fahrräder → Fahrrad
    eines grünen Baums → ein grüner Baum
    gelanggelingen

Ein gutes Prüfprogramm für Benutzereingaben sollte über ein hochwertiges Wörterbuch verfügen, in welchem für jede Wortart alle gültigen Konjugationen, Deklinationen und Komparationen eingetragen sind. Dann können auch Eingaben, die nicht in der grammatikalischen Grundform (meist: Nominativ, Singular, Präsens) stehen, erkannt werden.
Folglich wäre es auch sinnvoll, die Wörter in den zu durchsuchenden Dokumenten über deren Grundform zu finden. Dies bedeutet mehr Treffer, aber auch mehr Aufwand.

In der Praxis ist die Zurückführung auf die Grundform allerdings nur bei Einzelwörtern trivial. Bei mehrgliedrigen Ausdrücken (Phrasen) müssen grammatikalische Besonderheiten der deutschen Sprache berücksichtigt werden:
Kongruenz über mehrere Wörter hinweg z.B. bei unbestimmten und bestimmten Artikeln:
eines grünen Baums → ein grüner Baum / der grüne Baum
abtrennbare Erstteile eines Verbs am Satzende, usw.:
das Gremium schlug heute vor → das Gremium vorschlagen heute

Löwenzahn
Katzenkopfpflaster
  • Zusammengesetze Wörter (Komposita):
    Filterkaffee, Kaffeefilter
    Eingabezeichenkette, Zeichenketteneingabe
    Schweinebraten, Schweinsbraten (Schwein + s/e + Braten)
    Fahrgast (fahren + Gast)
    Fleischereierzeugnis (Fleischerei + Eier + Zeugnis ?)

In kaum einer anderen Sprache wie im Deutschen ist es so einfach und beliebt, Einzelwörter zu einem neuen, bedeutungstragenden Wort zu verbinden. Die Variationsmöglichkeiten sind unendlich, sodass ein Wörterbuch gar nicht alles aufnehmen könnte. Wie behilft man sich nun bei einem unbekannten Kompositum? Man zerlegt es in seine ursprünglichen Einzelwörter und arbeitet damit weiter.
Doch dies ist mit einigem Aufwand verbunden: Berücksichtigen von Fugenelementen (Abfahrtszeitanzeige), der Grundform der Bestandteile (Kronprinzbediensteter: Krone + Prinz + Bediensteter; Gänsebratenmesser: Gans + Braten + Messer, Gänsebraten + Messer, Gänse + Bratenmesser), Wortreihenfolge (Filterkaffeepulver Pulverkaffeefilter) und Sinnhaftigkeit (Bananensattel, Hirschgeweihlenker, Blumenideenwelt).

  • Pseudonyme und Amtsnamen:
    sowie Deck-, Tarn- und Künstlernamen
    Loriot – Viktor von Bülow – Vicco von Bülow
    Marilyn Monroe – Norma Jean Baker
    Angela Merkel – Bundeskanzlerin – Bundeskanzlerin der BRD – CDU-Vorsitzende – CDU-Bundesvorsitzende
    Papst Franziskus – Papst – Bischof von Rom – Oberhaupt der römisch-katholischen Kirche – Heiliger Vater – Ponitfex Maximus – Jorge Mario Kardinal Bergoglio SJ

Synonym-Verzeichnisse für Amtsnamen sind an Zeiträume gebunden und müssen aktuell gehalten werden. Doch es besteht ein gewisser Aufwand in der Behandlung von älteren Dokumenten, in denen noch die alte Gültigkeit bzw. vergangene Amtsperioden vorkommen.

Sicherlich lassen sich noch weitere Schwierigkeiten und Fallen für Benutzereingaben finden. Doch lassen wir es mit den erläuterten häufigsten Szenarien gut sein.

Der Vollständigkeit halber sei erwähnt, dass ein Eingabeprüfprogramm in der Regel als ersten Schritt folgende Arbeiten macht:

  • Bereinigen der Eingabe-Zeichenkette:
    Entfernen von mehrfachen Leerzeichen und allen nicht relevant erscheinenden sichtbaren und unsichtbaren (Steuer-)Zeichen, die die Tastatur eines einfallsreichen oder abgelenkten Benutzers hergibt
  • Erkennen der Sprache, in der die Eingabe gemacht wurde (falls dies nicht bereits über eine vorausgegangene Sprachauswahl festgelegt wurde)
    Winter in England (deutsch?, englisch?)

Welche Möglichkeiten hat der Benutzer selbst, seine Eingabe zu optimieren?

  • Präzisierung:
    vom Oberbegriff zum detaillierten Unterbegriff
    Verschluss, Kettenverschluss, Goldkettenverschluss, Goldhalskettenverschluss
  • Spezialisierung:
    Anwendung, Material, Herstellung, Größe, Qualität
    Netz: Haarnetz, Fischernetz, Verkehrsnetz, soziales Netz, Gitternetz, Spinnennetz, Moskitonetz, Einkaufsnetz, Rechnernetz …
  • Kontext:
    Adjektive, Adverbien
    Fön: Haartrockner, Föhn: Wetterlage
    preiswerter Föhn →
    Korrektur zu: preiswerter Fön
    Fön im Alpengebiet →
    Korrektur zu: Föhn im Alpengebiet

Somit wird deutlich, dass bei einer Software mit Beachtung des Mensch-Maschine-Interface wie der CONTEXTSUITE nicht nur der Hauptalgorithmus wichtig ist, sondern insbesondere auch dessen Zulieferer: dem Programm zum Entgegennehmen, Prüfen, “Entschlüsseln” und Aufpolieren der manuellen Benutzereingabe.