Intelligente Lösungen für die Datenflut

Der Begriff Big Data ist durch die voranschreitende Digitalisierung zahlreicher Lebensbereiche in den letzten Jahren auch außerhalb der IT in aller Munde. Im Zuge der digitalen Kommunikation werden Tag für Tag gigantische Mengen an Informationen vielfältigster Art ausgetauscht: Dokumente, Chats und Nachrichten, interne Dokumente wie externe Nachrichtenfeeds, redaktionelle genauso wie user-generierte Inhalte. Die meisten Unternehmen benötigen allerdings Lösungen nach dem Smart-Data-Prinzip, also eine Transformation von Big zu Smart Data.

Wettbewerbsvorteile durch Big Data?

Immer mehr Anbieter nehmen sich zum Ziel, dieses stetig wachsende digitale Informationsgebirge für ihre Zwecke zu nutzen. In den meisten Fällen geht es darum, mit möglichst breitgefächertem Wissen über die aktuellen Bedürfnisse potentieller Kunden Wettbewerbsvorteile zu erlangen. Hardwareseitig sind der Sammlung von Daten dank kostengünstiger Massenspeichertechnologien kaum Grenzen gesetzt. Die eigentliche Herausforderung stellt die Auswertung dieser größtenteils unstrukturierten und oftmals zusammenhanglosen Datenflut dar. Denn damit Computer solche Datenmengen sinnvoll auswerten können, müssen sie diese zuerst einmal verstehen.

Warum Smart Data?

Und an dieser Stelle ist der erfolgreiche Brückenschlag von Big Data zu Smart Data entscheidend. Es kommt primär nicht auf die Menge der gesammelten Kommunikationsdaten Ihrer Zielgruppe an, sondern vielmehr auf deren Relevanz. Smart-Data-Analysen haben das Ziel, die richtigen Daten zu identifizieren, das wirklich Wichtige schnell herauszufiltern und in den richtigen Bezug zu den eigenen Aufgaben und Zielen zu setzen. Für Zwecke einer kundenorientierten Kommunikation ist es dabei entscheidend mittels Analysen die auch die linguistischen Besonderheiten einer Sprache berücksichtigen, die Besonderheit der Sprache und Ausdrucksweisen ausgewählter Zielgruppen zu identifizieren und die externe Kommunikation entsprechend zu optimieren.

Dank gewaltiger Fortschritte in der Entwicklung von Technologien des Natural Language Processing in Verbindung mit Verfahren des Maschinellen Lernens (insbesondere des sog. Deep Learning) ist es heutzutage möglich, Inhalte mit hoher Qualität automatisiert auf Ihre wesentliche Bedeutung hin zu entschlüsseln.

Smart-Data-Analysen erkennen, was in einem Dokument wichtig ist und reichern es automatisiert mit zusätzlichen Meta-Daten an. Die Dokumente werden unter anderem automatisch verschlagwortet und klassifiziert.

Automatisierte Anreicherung bedeutungstragender Meta-Daten mit der CONTEXTSUITE

Dank eines vortrainierten Verständnisses der menschlichen Sprache und wichtiger Konzepte und deren Kontexte sind Smart-Data-Plattformen wie die CONTEXTSUITE der MORESOPHY prinzipiell in der Lage, Inhalte aus unterschiedlichsten fachlichen Domänen vollständig ohne Eingriff des Menschen zu interpretieren und entsprechend anzureichern. Die Anreicherung nach dem Smart-Data-Prinzip beinhaltet im Standard das Erkennen von folgenden Arten von Objekten oder Daten in den Inhalten:

  • Themen oder Konzepte: z.B. Nachhaltigkeit, Risikomanagement, Dienstleistung).
  • Personen (über ihren Namen, also z.B. Richard Müller oder Freiherr von Stauffenberg)
  • Orte und Regionen: z.B. Kanada, Ontario, Bonn-Beuel, sowohl anhand des Namens wie aber auch über PLZ oder andere Codes
  • Organisationen: z.B. Siemens AG, FC St. Pauli Hamburg, Ministerium für Bildung und Wissenschaft
  • Fachthemen: z.B. Gesellschaft, Ernährung, Gesundheitswesen, …
  • Stimmungen: im Sinne einer eher positiven oder negativen Stimmung in einem Dokument

Wichtig ist dabei zu verstehen, dass die Verfahren nicht rein keyword-basiert arbeiten, sondern auf einer semantischen Ebene. Verschiedene Schreibweisen, Synonyme, Verallgemeinerungen oder Spezialisierungen eines Begriffs werden dabei genauso berücksichtigt wie verschiedene Kontexte, in denen Begriffe vorkommen. Die Maschine ist somit auch in der Lage zu erkennen, ob es in einem Text um eine Linse im Sinne eines Objektivs oder um das stärkehaltige Nahrungsmittel geht.

Durch Natural Language Processing und intelligente Verfahren, kann also ein umfassendes Sprachverständnis aufgebaut werden. Dieses Verständnis ist wichtig, um aus gewaltigen unstrukturierten Textdaten die für bestimmte Use-Cases relevanten Daten zu filtern. Denn die meisten Firmen wünschen die Filterung und das Ordnen von relevanten Informationen, nicht das Sammeln von möglichst allen verfügbaren Informationen. Auf diese Weise kann Big Data erfolgreich in Smart Data umgewandelt werden.

Ein weitere Beitrag unseres Blogs behandelt Smart Data aus der Sicht eines Machine-Learning-Engineers: Machine Learning mit kundenspezifischen Daten.