Es ist immer wieder erstaunlich und faszinierend, wie rasant Computer selbst mit größten Datenmengen umgehen können und wie „smart“ sie dann ihre Ergebnisse präsentieren. Dies gelingt, wenn es – vereinfacht betrachtet – um numerisch kodierte Werte geht, eingebettet in Algorithmen aus eindeutigen Anweisungen und Formeln, Definitionen, logischen Vergleichen und „Wenn-Dann-Ansonsten“-Entscheidungen. Doch lassen sich solche Algorithmen auch auf die menschliche Sprache, egal ob akustisch oder schriftlich, anwenden? Wie kann man einem Computer eine natürliche Sprache erklären?

Sicherlich reicht es nicht aus, jedem Buchstaben, Symbol oder Interpunktionszeichen einen Zahlenwert zuzuordnen und dann damit zu „rechnen“. Jede natürliche Sprache hat ein Eigenleben, eine individuelle innere Struktur sowie nicht immer logisch erscheinende Merkmale und Gebrauchsmuster, welche sich über viele Jahrhunderte lang eingeschliffen und durch verschiedenartigste Einflüsse auch wieder abgewandelt haben. Und es wäre noch ein weiterer Intelligenz-Sprung zu meistern, nämlich die Bedeutung eines Wortes oder Satzes zu „errechnen“.

Dieser mehrteilige Blogbeitrag zeigt an Beispielen die Herausforderungen für die digitale Verarbeitung natürlicher Sprachen  und entsprechende Lösungsansätze. Dies ist ein Fachgebiet der Computerlinguistik und man spricht von Natural Language Processing (NLP) oder weitergehend von Natural Language Understanding (NLU) – also einem computer-gestützten Verständnis menschlicher Sprache. In unserem Beitrag geht es in erster Linie um Anschaulichkeit und Denkanstöße und nicht um die korrekte oder vollständige sprachwissenschaftliche Analyse. Und unser Beitrag fokussiert weniger das Fremdsprachen-Lernen und Übersetzen, bei dem der Computer mit seinem vielfältigen Interaktionsangebot mittlerweile ein hervorragender Lehrerersatz für den Menschen geworden ist – sondern vielmehr das Verstehen der Sprache an sich.

Dies sind die zentralen Fragenstellungen:

  • Was macht eine natürliche Sprache für den Computer so schwierig?
  • Warum kann eine Sprache nicht so einfach in ein digitales Modell übersetzt werden?
  • Themen wie Sprachgebrauch und Sprachwandel kann ein Computer gut erkennen, was kann er sonst noch entschlüsseln?

Ein Mensch braucht üblicherweise zum Erlernen einer Fremdsprache neben Lehrer und Lehrbuch ein großes Vokabelheft, besser noch ein Wörterbuch. Das Vokabellernen ist der mühsamste Teil, während der stoische Computer mit seinem Überfluss an Speicherplatz und den enorm schnellen Zugriffszeiten eindeutig im Vorteil ist. Doch hier erweist sich ausgerechnet das Wörterbuch selbst als das Problem.

Eine Herausforderung: Es gibt kein vollständiges Wörterbuch!

Jede natürliche Sprache befindet sich in einem ständigen Wandel. Die Ursachen sind vielfältig. Beispiele sind:

  • Akustische Prozesse:
    Lautverschiebungen, deren Auslöser noch nicht geklärt sind, lassen in Sprachfamilien neue Zweige entstehen;
    die Aussprache von „the“/„ðə“ schleift sich zu „se“ ab, weil das Englische als universeller Sprachen-Kitt weltweit im Gebrauch ist
  • Wechsel bei der Wortart:
    aus dem eigenständigen germanischen Wort „haidu“ für „Art und Weise“ wurde über „heid“ und „heit“ die Wortendung „-heit
  • Änderung der Wortbedeutung:
    das Substantiv „Rasse“ vollzog einen Wandel vom neutral belegten Begriff in der Genetik zu einer umstrittenen und negativen Bedeutung während des Dritten Reiches und der aktuellen Antirassismus-Bewegung

    Vom Computer (Software CONTEXTSUITE) ermittelte Wortumfelder zum Begriff „Rasse“ in zwei verschiedenen Kontexten: „Tiere“ (links) und „Gesellschaft“ (rechts)

  • Ausformung von Subsprachen mit Spezialausdrücken je nach Berufs-, Sozio- oder Altersgruppe
  • gelegentliche menschengemachte Rechtschreibreformen
  • das Phänomen, das wir tagtäglich erleben und mitgestalten: die Entstehung neuer Wörter und das Verschwinden von Wörtern

Der letzte Unterpunkt ist genauer zu betrachten. Unsere konsumorientierte und vernetzte Welt braucht ständig neue und einzigartige Wortschöpfungen für Produkte, Startups, Vereinigungen, Trends und das Weltgeschehen an sich (Gender-Sternchen, Geisterspiel). Da wir uns aktuell immer mehr vom hörenden zum lesenden Wortkonsumenten entwickeln, nutzen diese Neu-Wörter und Abkürzungen auch Groß- und Kleinbuchstaben, Ziffern und Sonderzeichen (o2, H&M, BiFi, 8×4, Coffee2Go, 4you, AdCommerce, E.ON) oder bilden Akronyme (LOL, FAQ). Zusätzlich liefert die Globalisierung eine Flut an Fremdwörtern aus aller Welt, allen voran die Anglizismen (Urban Gardening, Sale, To-Do-Liste).

Jeder von uns produziert per WhatsApp, Twitter und E-Mails Texte wie am Fließband. Dichterische Freiheiten sowie spontan erfundene, kurzlebige Seifenblasenwörter, die Grammatik und Rechtschreibung genügen, sind jedermann erlaubt und können sich sogar etablieren. Denken Sie nur an die vielen neuen Wortkreationen im Zusammenhang mit Corona.

Ein Merkmal der deutschen Sprache, das „exponentiell“ zum Entstehen neuer Wörter beiträgt, ist die Bildungsfreudigkeit von zusammengesetzten Wörtern, den Komposita. Hier dürfen alle Wortarten mitmachen (Vergissmeinnicht, Grünspecht, honigsüß), die Reihenfolge (Wandregal, Regalwand) spielt eine Rolle, ebenso der Bindestrich bzw. die Betonung bei der Aussprache (Welt-Wassertag, Weltwasser-Tag), das Fugen-„s“ (Kindskopf), Singular oder Plural (Kinderkopf), die Anzahl (Bauherrenmodell, Regenwaldretterhubschrauber) und viele weiteren sprachlichen Finessen.

Eine derartige Wörter-Überversorgung macht das Erstellen oder Aktualisieren eines Wörterbuchs zu einer Sisyphusaufgabe. Das Rechtschreibwörterbuch der deutschen Sprache, der Duden, enthält zurzeit 148.000 Einträge, die Online-Variante einiges mehr. Ist ein neues Wort über einen längeren Zeitraum in häufigem Gebrauch, dann darf es in den Duden. Umgekehrt werden aus der Mode gekommene oder in Vergessenheit geratene Wörter (Wählscheibe, Jägersmann) gelöscht. Das setzt ein ständiges Analysieren von deutschen Texten aller Medienarten durch das Duden-Team und seinen Rechenzentren voraus.

Braucht nun jedes Unternehmen, das Texte mit dem Computer verarbeiten will, Zugriff auf den Duden oder das American Heritage Dictionary oder den Le Petit Robert? Oder muss aufwändig ein eigenes digitales Wörterbuch mit vielen Informationen über Bedeutung, Herkunft, Trennregeln, Grammatik, Kollokationen (häufige umgebende Wörter) sowie Thesaurus- und Ontologie-Daten angelegt werden? Käme man auch ohne ein Wörterbuch aus?

Vom Wörterbuch-Ansatz zum dynamischen Lernen – Künstliche Intelligenz macht’s möglich

In der Tat ist es so, dass die tradierten Praktiken zur Pflege von Wörterbüchern in professionellen Software-Lösungen von neuesten Entwicklungen im Bereich der Künstlichen Intelligenz und dem Maschinellen Lernen vollständig überholt wurden. Computer – anders als Menschen – ermüden nicht und können daher beliebig große Mengen von Texten lesen und im Gesamtzusammenhang auswerten. Neuartige Algorithmen des sog. deep learning können damit über große Mengen an Text ermitteln, welche Wörter in sinnverwandten Zusammenhängen auftreten. Es können Synonyme identifiziert werden, noch bevor diese jemals Eingang in den Duden gefunden haben. Ebenso können sehr verlässlich in Beziehung stehende Terme ermittelt werden. Dass „Abstandsregelung“ in einem Bezug zur Corona-Pandemie steht und in diesem Zusammenhang auch eine besondere Konnotation hat und in Österreich beispielsweise mit dem Ausdruck „Babyelefant“ beschrieben wird – diese Entwicklung lernt eine Maschine schneller und verlässlicher als ein Mensch. Nicht weil sie intelligenter ist, sondern weil sie um Größenordnungen mehr an Daten verarbeitet als eine Redaktion das je könnte.

Damit rücken rein Wörterbuch-basierte Ansätze zunehmend in den Hintergrund. Die Pflege von Wörterbüchern – sowohl auf Ebene des grundlegenden Sprachwortschatzes (Duden) wie auch für den Unternehmenskontext (Stichwort: Thesauri und Ontologien) – war schon immer extrem aufwändig. Und die dynamische Entwicklung von Sprache führt dazu, dass es mit einer einmaligen Erstellung (oder Modellierung) des Wörterbuchs oder Thesaurus nicht getan ist.    Redaktionen können diese Aufgabe nicht mehr in einem wirtschaftlich angemessenen Maße leisten. Stattdessen übernehmen auch hier zunehmend Computer diese Aufgabe.

Ihr Vorteil ist auch, dass sie sehr schnell unterschiedliche Kontexte filtern und somit auch den kontext-spezifischen Sprachgebrauch ermitteln können. In Unternehmen ist das an allen Schnittstellen relevant, um Beschreibungen von Produkten mit den Bedürfnissen in Einklang zusammenzubringen. Die Sprache des Marketings mit der der Entwickler abzugleichen. Übertragen auf den Duden bedeutet dies, nicht nur einen Standard-Duden herauszubringen – und vielleicht einen für Jugendsprache – sondern Wörterbücher für diverse Zielgruppen (von Migranten über Veganer bis hin zu Senioren) laufend zu erzeugen.

Damit kommen wir zu den nächsten Fragen, die Thema von Blogbeitrag Teil 2) sein werden:
Was kann ein Computer in einem Text erkennen? Kann er auch „zwischen den Zeilen“ lesen oder sogar eine Bedeutung erfassen?

Noch ein Tipp zum Abschluss: wer sich für die Herkunft eines Wortes und seinen Gebrauch in der Vergangenheit interessiert, kann dies – neben dem Duden – in anschaulichen Darstellungen nachschlagen unter:

  • Kollokationsanalyse in diachroner Perspektive (Diacollo)
    teilweise animierte Darstellung von Suchergebnissen entlang einer Zeitachse, am besten geeignet für „alte“ Wörter
    Eingabebeispiel „Revolution“:
    QUERY: Revolution, FORMAT: Bubble oder Cloud oder HighChart wählen
    (dabei auf das Dreieck am linken Bildschirmrand zum Starten der Animation oder auf eine beliebige Stelle der Zeitachse klicken; jede neue Eingabe oder Änderung mit SUBMIT abschließen!)