Die Textanalyse als Disziplin des Deutschunterrichts ist uns noch in guter oder schlechter Erinnerung geblieben. Es galt, das Wichtigste über wer-was-wann-wo-warum herauszufinden und den Ursprungstext in wenigen Sätzen zusammenzufassen. Kann das nicht auch ein Computer übernehmen? Und vermag er obendrein, zwischen den Zeilen zu lesen?

Unsere Beitragsreihe „Sprachverständnis eines Computer“ begann mit einer Beschreibung der Komplexität und der Wandelbarkeit einer natürlichen Sprache. Als nächstes wurde die Kodierung und die Vorverarbeitung von Text vorgestellt, deren Ergebnisse die Voraussetzung für Analyse und Extraktion von Informationen sind. Ein digitales Wörterbuch samt Sprachmodell, der in Wörter und Sätze zerlegte Text und zahlreiche grammatikalische und statistische Meta-Informationen – ohne dies alles ist keine fundierte automatisierte Textanalyse möglich.

Dieser dritte und letzte Teil widmet sich der Beantwortung der folgenden Fragen:
Welche Wörter oder Phrasen liefern Informationen und wie erkennt sie der Computer? Welche Arten von Informationen gibt es überhaupt?

Konkrete Datenwerte

Beispiele für konkrete Datenwerte sind:
Datums- und Uhrzeit-Angaben: 1.1.1703, 1703-Jan-01, Neujahr 1703
Währungen: 17 DM und drei Pfennige, $ 17.03, 17.030.000.- Euro
URLs , E-Mail-Adressen

Solche format-orientierten Strukturen lassen sich mittels regelbasierter Algorithmen oder Regex-Pattern einkreisen. Ein Regex-Pattern ist eine sehr kryptisch aussehende, normierte Zeichenfolge, die das spezielle gewünschte Format beschreibt. Für ein Datum im Format tt.mm.jjjj und nur innerhalb des 20. Jahrhunderts lautet das Regex-Pattern [0123][0-9]\.[01][0-9]\.19[0-9]{2}.

Named Entities

Named Entities sind Eigennamen, die im allgemeinen folgende Kategorien umfassen:

  • Personennamen: Mustermann Max, Prof. Dr. Willibald Murke, Freifrau Gunilla-Eulalia von und zu Grumpertshofen-Drachenstein
  • Orts- und Ländernamen
  • Organisations-, Firmen-, Marken- und Produktnamen: MORESOPHY GmbH, CONTEXTSUITE, Willibald-Murke-Stiftung für Experimentelle  und Angewandte Erforschung der Satzende-Erkennung München-Sendling

Der Computer kann sich hier mit vorgefertigten, ellenlangen, aber nie vollständigen oder aktuellen Nachschlagelisten behelfen. Besser ist der Einsatz von Named Entity Recognition (NER), einem Untergebiet der Information Extraction. Dabei werden anhand von Regeln die typischen linken und rechten Wort- oder Wortfolgen-Nachbarn eines Entities ausfindig gemacht. Ausdrücke, die beispielsweise auf „wohne in, komme aus, fahre nach“ folgen und nicht im Deutschlexikon vorkommen, sind Kandidaten für eine Orts- oder Länderbezeichnung.

Ein anderes Verfahren basiert auf dem sog. Word Embedding. Hierbei ermittelt man alle möglichen umgebenden Wörter für ein bestimmtes Ausgangswort und rechnet diese mit ihrer Abstandsposition und der Vorkommensstatistik in eine mathematische Beschreibung um. Das jeweilige Ergebnis ist ein mehrdimensionaler Vektor: „Word-to-Vector“. So lassen sich semantische Rückschlüsse ziehen: einander ähnliche Wörter und Phrasen haben gleichwertige Word Embeddings bzw. Wortvektoren („Sie hat ihre Klausur / Abschlussprobe / Angelscheinprüfung erfolgreich bestanden.“), Wort-Wahrscheinlichkeiten helfen Lücken füllen („Der Apfel ??? vom Baum. –> fällt, fiel, stürzt, purzelt, strebt, hüpft, “), unbekannten Wörtern oder Phrasen kann eine Bedeutung zugeordnet werden („Im Kofferraum seines SPEEDY 2000 fand er den Ersatzreifen. SPEEDY 2000 –> Auto, Neuwagen, BMW, Mercedes, Audi, Cabriolet … “), Kookkurrenzen (auffallend häufiges gemeinsames Vorkommen zweier oder mehrerer Wörter: „heikles Thema, auf Biegen und Brechen, Als Erstes … Als Zweites …„) sind leicht zu finden, und inhaltlich unkorrekte Aussagen werden erkannt („Er heißt Kuala Lumpur. Sie wohnt in Borussia-Dortmund.“).

Ein hochwertigeres Word Embedding, das den Kontext eines Wortes noch besser beschreibt,  erhält man über die Methodik eines neuralen Netzwerks. Dieses kann nicht nur Berechnungen für den aktuellen Satz anstellen, sondern auch Merkmale aus dem vorherigen Input mit einfließen lassen. Ein Absatz oder Text kann somit als zusammenhängende Einheit untersucht und hinterlegt werden.

Domain-Zuordnung über prägnante und spezifische Ausdrücke

Lexikon-Wörter, die man beim Durchlesen mit einem Marker hervorheben würde, liefern wichtige Informationen über den Textinhalt und sein Thema. Meistens handelt es sich bei solchen Wörtern um allgemein seltener gebrauchte, aber prägnante Nomen (das erkennt das Sprachmodell mit seinen statistischen Beschreibungen) oder domain-spezifisches Vokabular. „Hypothek, Disagio, effektiver Jahreszins“ verweisen z.B. auf einen Text über Geldanlageformen und das Bankenwesen, „Heckscheibe, Außenspiegelheizung, Servolenkung“ deuten auf die Autobranche hin.

In einem aufwändigen und komplexen Prozess kann der Computer lernen, einen Text einer bestimmten Themenkategorie zuzuordnen, Dazu braucht er auch eine wohlüberlegte Einteilung, die eindeutig sein muss und alle für die eigenen Zwecke relevanten Content-Kategorien enthält. Bei moresophy orientiert man sich am international genutzten Taxonomie-Standard von IAB (siehe auch moresophy Blogbeitrag zu IAB), der gut 30 Kategorien umfasst. Die Disambiguierung von Homonymen (ein Wort steht für verschiedene Begriffe, z.B. die Geld-Bank und die Sitz-Bank) vereinfacht sich durch die Zuordnung einer Content-Kategorie.

Das Homonym „Stoff“ in Umfeld der Content-Kategorien „Hobbies und Interessen“ und „Wissenschaft„.
Das Homonym „Stoff“ in Umfeld der Content-Kategorien „Illegale Drogen“ und „Filme“ .

 „Zwischen den Zeilen“

Ein Computer kann Kenndaten über den typischen Schreibstil des Textautors „herausrechnen“. Beispiele dazu sind: kurze oder lange Sätze, wenige oder viele Adjektive / Nebensätze / Fremdwörter/ Fachbegriffe / direkte Rede / auftretende Personen, geringer oder großer Vokabelumfang. So entsteht eine Art „Fingerabdruck“, der bei Autorenschaftserkennung oder Plagiatsnachweis hilfreich ist.

Es gibt noch viel mehr zu entdecken: ein Text ist in positiver, neutraler oder negativer Grundstimmung (Sentiment: „Das optimale Design verbessert die Akzeptanz in hervorragender Weise.“, „Die miserable Resignation und der bestürzende Untergang verleideten es.“), er drückt eine Emotion aus („Juhu, alles war super und wunderschön!“, „Grr, so einen furchtbaren Schrott zu verkaufen gehört bestraft!“), er fällt in eine Risiko-Kategorie (es geht um Verbrechen, Waffen, Drogen o.ä.) oder er enthält Schimpfwörter, Obszönitäten und Hassrede. Es lässt sich sogar bestimmen, welche Personengruppen den Text mit großem Interesse lesen würden: Senioren, Beauty Queens und Kings, Ernährungs- und Figurbewusste, Entertainment-Freaks und weitere Persona.

Fehlschreibweisen

Manche informationstragenden Wörter können aufgrund von Fehlschreibweisen nicht erkannt und somit in den internen Modellen nicht gefunden werden. Rechtschreib- und Grammatikfehler (Herzinfakt statt Herzinfarkt, Eifelturm statt Eiffelturm) werden zwar über den Korrekturdienst eines Textverarbeitungsprogrammes abgefangen, bleiben aber in einem Freitext erhalten. S#ge, Mipselzweig und Schriellzug sind Beispiele für Tastaturfehler, Buchstabendreher und Lesefehler bei der automatisierten optischen Zeichenerkennung (OCR). Sie können an einer beliebigen Stelle passieren und lassen sich durch Ähnlichkeitsmaße wie die Levenshtein-Distanz erkennen und korrigieren, allerdings zum Preis einer sehr hohen Programmlaufzeit.

Alles in allem könnte der Beispieltext aus dem vorausgegangenen Beitrag Kodierung und Vorverarbeitung von Text“ folgendermaßen von einem Computer „verstanden“ werden:

„Nennt mich Ismaelia-Mercedes (Personenname score 0.99, Produktname score 0.01). Als ich vor siebeneinhalb Jahren am 24. Dezember 1873 (Datum 1873-12-24) – ohne Belang, wie lange genau her – wenig oder gar nur 26 $ (Währung 26.00 $) Geld im MyCashPocket (unknown; Portemonnaie, Geldbeutel) hatte und mich im Lande Patagonien (Entitiy Ort)nichts Besonderes reizte, dachte ich, ich wollt ein wenig als Gallionsfigur auf einem Dreimaster herumsegeln und den wässrigen Teil der Erde, nämlich den Golf von Biskaya (Entitiy Ort), besehen.“

Content-Kategorie: Reisen, Schiffsreisen
Risiko-Kategorie: keine
Sentiment: neutral
Emotion: neutral
Zielgruppe: Abenteurer und Reisefreudige
Autorenschaft: „Moby Dick, Herman Melville“, score 0.87

Ausblick

Die Computerlinguistik ist längst noch nicht am Ziel angekommen. Natürliche Sprache umfasst auch Ironie, Humor, Sarkasmus, Lüge, Redewendungen, Wortspiele, rhetorische Stilmittel und Paradoxien. Beim Sprechen kommen noch weitere Feinheiten dazu: Prosodie, Betonung, Sprechpausen, Sprachmelodie und –geschwindigkeit. Sie können die ursprüngliche Bedeutung unterstreichen, umkehren oder abwandeln. Keine leichte Aufgabenstellung für die weitere Entwicklung des „sprachbegabten“ Computers!