Suche ist allgegenwärtig und User sind durch das Sucherlebnis bei Google verwöhnt. Sie erwarten daher, dass auch andere Suchen entsprechend gut sind. Doch das ist einfacher gesagt als getan. Bereits im Erstkontakt – dem Verhalten des Suchschlitzes – spürt ein Nutzer, ob die Suchmaschine ihn versteht oder nicht. In unserer kleinen Artikelreihe stellen wir vor wie ein intelligenter Suchschlitz zur Nutzerzufriedenheit beiträgt – und was dafür im Hintergrund auf technischer Ebene erfolgen muss. In diesem ersten Teil beschreiben wir die Herausforderungen auf Ebene der unterschiedlichen Schreibweisen. Teil 2 geht auf Mehrdeutigkeit, Synonyme und grammatikalische Formen ein. Im abschließenden Artikel zeigen wir, wie ein “mitdenkender” Suchschlitz gestaltet werden kann.

Benutzer sind oft unsicher, ob sie bei einer manuellen Eingabe in ein Programm – z.B. einen Suchterm in Google – alles richtig hinsichtlich Rechtschreibung oder individueller Schreibweise gemacht haben. Auf welche Besonderheiten der deutschen Sprache muss eine Software wie die CONTEXTSUITE eingehen, um einen Fehler zu erkennen und sogar zu korrigieren? Welche “künstliche Intelligenz” ist nötig, um selbst bei mehrdeutigen Begriffen und komplexen Fehlerarten herauszufinden, was eigentlich gemeint ist?

Kennen Sie diese Situation? Man möchte einen Suchbegriff eintippen, ist sich aber über die korrekte Schreibweise nicht sicher. Heißt es nun email, e-Mail oder E-Mail?
Da wäre es doch praktisch, wenn man sich das Nachschlagen im Duden ersparen könnte und ein intelligentes, wohlwollendes Prüfprogramm den unperfekten Suchbegriff als solchen erkennt und ihn in die korrekte Schreibweise bzw. in einen passenderen, bedeutungsgleichen Begriff umwandelt.

Wie arbeitet ein herkömmliches Programm, das die Eingabe eines Benutzers in Empfang nimmt und überprüft? Im Normalfall vergleicht das Programm die Eingabe auf völlige Deckungsgleichheit (Zeichenketten- bzw. String-Matching) mit den Einträgen in seinem eigenen Standard-Wörterbuch und sucht dann im Fall eines Treffer in den zu durchsuchenden Dokumenten, Listen und Webseiten. Was jedoch für den Menschen noch als “einigermaßen gleich” angesehen wird, ist für den Rechner keine Übereinstimmung!

  • Zusammengeschrieben oder durch Leerzeichen bzw. Bindestrich getrennt:
    korrekt: E-Mail (siehe Duden-Eintrag)
    falsch: Email, EMail, email, eMail, E mail, E Mail, e mail, e Mail, E-mail, e-mail, e-Mail
  • Groß- und Kleinschreibung:
    korrekt: Start-up
    falsch: Start-Up, start-up, start-Up, Startup, startup, Start up …
    der gefangene floh (der Gefangene floh?, der gefangene Floh?)
  • Umlaute:
    Menü Menue
    Düsseldorf oder Duesseldorf (z.B. weil eine englische Tastatur kein äöü hat)
  • Wörter, die fast jeder unwissentlich falsch schreibt:
    Amalgam Amalgan, Eiffelturm Eifelturm, Föderation Förderation, Herzinfarkt Herzinfakt, Quarzuhr Quartzuhr, Rückgrat Rückgrad, Verwandtschaft Verwandschaft
    Eigennamen:
    Libyen Lybien, Tchibo Tschibo, Telekom Telecom
  • alte und neue Rechtschreibung:
    dass oder daß, aufwändig oder aufwendig, Bestellliste oder Bestelliste, Börsentipp oder Börsentip
  • ph oder f:
    Foto oder Photo, Christof oder Christoph, Physik Fysik
  • Schreibweisen beim Umschreiben von Ziffern und Sonderzeichen:
    Hartz IV, Hartz 4, Hartz Vier, Hartz vier, Hartz-IV, Hartz-4 …
    Erste Hilfe, erste Hilfe, 1. Hilfe, 1ste Hilfe
    Einmaleins, EinMalEins, Ein-mal-Eins, 1×1, 1X1, 1 x 1, Ein x eins …

Es gibt also sehr viele Gelegenheiten in der deutschen Sprache, ein Wort falsch bzw. nicht ganz dudengerecht zu schreiben. Wie lässt sich hier das strenge Programm, das die Eingabe prüft, überlisten?
In der Regel durch das Anlegen von Schreibweisen-Synonymen:
E-Mail –> Email, EMail, email, eMail, E mail, E Mail, e mail, e Mail, E-mail, e-mail, e-Mail

Das Prüfprogramm sieht nun zuerst in seiner Synonym-Liste nach. Findet es die Benutzereingabe bei den Alternativen, kann es den zugehörigen korrekten Dudeneintrag abgreifen und dann damit – wesentlich erfolgreicher – in den Dokumenten suchen.

Doch das Anlegen und Pflegen von Listen mit eigenen Schreibweisen-Synonymen ist enorm aufwändig. Laut Duden wird “der Umfang des Wortschatz der deutschen Gegenwartssprache auf zwischen 300 000 und 350 000 Wörter angesetzt.” Hinzu kommen ständig weitere Wörter, seien es neue Wortschöpfungen, Fremdwörter, Eigennamen oder Zeichenspielereien.
Eine Möglichkeit, die Synonym-Listen nicht mehr von Hand, sondern vom Computer aufbauen zu lassen, ist das Konzept des Word Embedding; dazu mehr in Teil 2) dieses Blog-Beitrags.

Steht eine Benutzereingabe weder im Wörterbuch noch bei den Schreibweisen-Synonymen, gibt es weitere, aber aufwändige Methoden für eine Analyse und Korrektur:

  • phonetischer Vergleich:
    Wörter bzw. Zeichenketten mit sehr ähnlicher Aussprache werden als übereinstimmend anerkannt; sehr gut bei Eigennamen
    Maier, Mayer, Mayr
    Margerite, Margarethe
  • approximativer Vergleich:
    Wörter bzw. Zeichenketten gelten auch dann noch gleich, wenn sie nur an n Stellen voneinander abweichen; schlecht bei kurzen Wörtern
    Desoxyribonukleinsäure, Desoxirybonuklinsäure
    Berg, Burg
  • Zeichendreher und Tippfehler über die Tastatur:
    vertauschte Tastaturanschläge
    Einbeziehen von Buchstaben, die auf der Tastatur nahe beieinander liegen
    Regenwurm, Ergenwjrm

Es gibt noch weitere Kategorien von Benutzereingaben, bei denen ein Duden nicht unbedingt weiterhilft:

  • gängige Abkürzungen:
    Mwst, MwSt, Mw.-St., Mehrwertsteuer
    DHH, Doppelhaushälfte
    BAB, Bundesautobahn
  • Schreibweisen bei Währungen, Maßeinheiten und Datumsangaben:
    hundert Euro, 100 EUR, 100.00 € …
    halber Kubikmeter, 1/2 Cubikmeter, 0.5 cbm …
    24.12.2019, 24-12-19, 2019/12/24, 24. Dez. 2019, Heilig Abend ’19 …

In der ersten Fallgruppe mit den Abkürzungen nimmt mit dem Kürzerwerden eines Eingabewortes dessen Mehrdeutigkeit zu. Ist mit BAB wirklich die Bundesautobahn gemeint oder doch Betriebsabrechungsbogen, Berufsausbildungbeihilfe oder Bachelor of Arts in Business? Und es stellt sich die Frage, ob ein abgekürztes Wort in einem Trefferdokument nicht eher als nebensächlich angesehen werden kann.

In der zweiten Fallgruppe mit den zahlreichen Eingabevarianten würden Listen mit Schreibweisen-Synonymen aus allen Nähten platzen. Man stelle sich allein die Möglichkeiten vor, ein einzelnes Tagesdatum hinzuschreiben und dies noch 365 mal und dies noch für jedes Kalenderjahr …

Deshalb wird bei Eingaben, die eine Währung, ein Datum oder eine Maßeinheit wiedergeben, eine Normalisierung angewendet: das verarbeitende Programm hat ein eigenes, der Anwendung angepasstes Standardformat, z.B. ‘tt.mm.jjjj‘ für ein Datum. Die Eingabe wird nun in dieses Format umgewandelt und dann wird damit weitergearbeitet. Das setzt natürlich voraus, dass erkannt wird, ob eine Eingabe ein Datum darstellen soll.
Die Währungs-, Datums- und Maßeinheiten-Erkennung samt einer Prüfung der Plausibilität (92. Jan. 2019, +92° geogr. Breite) lösen Regex-Pattern und/oder regelbasierte Algorithmen.

Meistens sind aber diese Art von Benutzereingaben eher in Spezialanwendungen zu finden wie z.B. im Bankwesen, in der Hotelreservierung oder im wissenschaftlichen Bereich. Dort ist über den Kontext des Eingabefeldes auch definiert, dass hier eine Währung, ein Datum oder eine Maßeinheit erwartet wird.

Schwierige Kategorien von Benutzereingaben sind Synonyme der Bedeutung (Briefträger – Postbote, Lift – Fahrstuhl – Aufzug), mehrdeutige Begriffe (Wirtschaft: Ökonomie – Gastwirtschaft, Golf: Auto – Sportart – Meeresbucht), Komposita (Fleischereierzeugnisladen) und Abweichungen von der grammatikalischen Grundform (roter Riese – roten Riesen). Dies wird Thema von Teil 2 dieser Artikelreihe sein.