KI ist immer nur so gut, wie die Daten, die ihr zur Verfügung stehen. Für unterschiedliche Use-Cases benötigt man eine ausreichende Anzahl an Daten, um eine sehr gute Klassifikationsleistung zu erzielen. Oftmals geht es nicht nur um spezielle Domänen, bei denen man geringe Datenmengen durch Domain Adaptation oder Transfer Learning  ausgleichen kann. Sondern darum, dass der Kunde eine ganz eigene Definition von Klassen benötigt. Er hat etwas ganz Spezielles im Sinn und wir sollen ihm dabei helfen. Machine Learning mit kundenspezifischen Daten ist hierbei der Schlüssel zum Erfolg.

WENN MACHINE LEARNING MEHR BRAUCHT ALS STANDARDDATENSÄTZE

Informatikstudenten mit Schwerpunkt Machine Learning erkennen beim Berufseinstieg: Die Standarddatensätze, mit denen sie in der Universität sich unbeschwert auf die Modellentwicklung oder gar das Verbessern des Lernprozesses konzentrieren konnten, decken in der Praxis oftmals nicht die Spezialinteressen ihrer Kunden ab. Die wenigsten Kunden brauchen wirklich Big Data, also wirklich möglichst viel allgemeines Weltwissen, das aus riesigen über ein Terrabyte großen Datenmengen extrahiert wird. Stattdessen benötigen die meisten Kunden Smart Data.

Viele Anwender haben Spezialinteressen und sehr spezifische Informationen, die sie internen und externen Informationsquellen entlocken wollen. Diese Information soll semantisch sinnvoll strukturiert und so übersichtlicher für die Mitarbeiter werden. Die Mitarbeiter sollen nicht durch irrelevante Informationen überflutet und abgelenkt werden. Sie können sich somit auf die wirklich wichtigen Tätigkeiten konzentrieren anstatt die meiste Zeit mit dem Suchen der benötigten Informationen zu verbringen. Kundenspezifische Daten sind in solchen speziellen Fällen wichtig für die Datenqualität.

Gerade im Bereich der Dokumentenklassfikation ist vielen Kunden mit den Standarddaten und den definierten Standardklassen allein nicht geholfen. Zwar kann eine Maschine damit ein semantisch gutes Verständnis für allgemeines Wissen aufbauen: Die KI lernt zum Beispiel zu erkennen, ob ein Dokument dem Wirtschaftsbereich zuzuordnen ist oder  Sport zum Thema hat. Aber unser Kunde möchte ja ohnehin nur Dokumente aus dem Wirtschaftsbereich in genauere Kategorien unterordnen. Daher sind hier die Standarddatensätze allenfalls für eine Vorauswahl der Trainingsdaten hilfreich. Mit ihnen kann man einen Filter bauen, der Artikel aus anderen Kategorien nicht weiter in Betracht zieht. Um dem Anwender gerecht zu werden, müssen wir aber ein eigenes Klassenschema entwerfen und Dokumente entsprechend annotieren.

PRAXISBEISPIEL: AUTOMATISIERTER PRESSESPIEGEL

Ein Beispiel aus unserer Berufspraxis ist ein maßgeschneiderter Pressespiegel: Ein Kunde der MORESOPHY möchte, dass aktuelle Pressetexte automatisiert in Kategorien wie „Personalien“, „Finanzielles“ oder „Expansion“ klassifiziert werden. Das Ziel unseres Anwenders ist es, die geschäftlichen Entwicklungen seiner eigenen Kunden zu tracken. Sozusagen ein automatisierter Pressespiegel, der filtert, welche Artikel interessant sind und sie in die entsprechenden Kategorien einsortiert. Hierbei ist entscheidend, dass nur relevante business-spezifische Informationen zu ausgewählten Firmenkunden in die Anwendung einfließen.

Zu Beginn des Projekts lagen noch keine entsprechend gelabelten Trainingsdaten vor. Für ein gutes KIassikationsergebnis war es zunächst erforderlich, entsprechende Textdaten zu sammeln und zu annotieren.
Der Kunde hat klar kommuniziert, worauf es ihm inhaltlich ankommt. Dies ist eine gute Voraussetzung, um maßgeschneiderte Daten und Ergebnisse zu liefern. Natürlich schließt das keine automatischen Prozesse aus, um weitere potentielle Themen zu identifizieren, an die der Kunde noch nicht gedacht hat. Zum Beispiel durch Clustering von Dokumenten.

Trotzdem ist eine gewisse Zusammenarbeit mit dem Kunden notwendig, um die anschließende Auswahl der Klassen für sein eigenes Klassifikationsschema vorzunehmen. Er will ja schließlich auch nur bestimmte Dokumente in den Pressespiegel einsortieren und nicht alle, die seinen Kunden nur irgendwie erwähnen.

FEEDBACKSCHLEIFE FÜR KUNDENSPEZIFISCHE KLASSIFIKATION

Wie kann eine Mitwirkung des Kunden den Prozess zudem positiv beeinflussen? Zum Beispiel durch eine Feedbackschleife, in der er die Klassifikationen von der bereits trainierten, aber noch nicht ausgereiften KI über Bewertungsbuttons beurteilen kann. Die Maschine lässt sich so direkt den Bedürfnissen der Anwender anpassen. Denn was für Firma A besser in der einen Kategorie aufgehoben ist, möchte Firma B vielleicht lieber in eine andere Kategorie einordnen. Damit erzeugen die Anwender auf eigene Weise gelabelte Daten, die die Maschine die von ihm gewünschten Entscheidungen treffen lässt. Das Klicken eines Buttons nach dem Lesen eines Artikels im Pressespiegels ist zudem nicht besonders zeitaufwendig, es lässt sich gut in den normalen Arbeitsablauf integrieren. Genau dies haben wir mit dieser Lösung erfolgreich umgesetzt.

MACHINE LEARNING GESCHIEHT NICHT IM LUFTLEEREN RAUM

Unsere Sicht auf die Welt ist höchst individuell – das gilt auch für Unternehmen oder gar ihre unterschiedlichen Abteilungen. Mit maßgeschneiderten Daten erhalten Unternehmen maßgeschneiderte Lösungen. Der Vorteil von KI liegt vor allem darin, diese Lösungen schneller bereitstellen zu können, da die Erfahrung aus anderen Use-Cases hilft, das richtige Klassifikationsmodell auszuwählen. Das händische Erkennen und Schreiben von Regeln ist schließlich sehr zeitintensiv, vor allem wenn bei jedem Kunden ein anderes Klassensystem gewünscht ist. Machine-Learning-Algorithmen nutzen vielfach automatisch gewonnene Eigenschaften wie Word Embeddings zur Klassifikation.
Rein regelbasierte Ansätze erfordern hingegen eine wesentlich intensivere fachliche Zusammenarbeit mit dem Kunden als Machine-Learning-Systeme. Dennoch wird sie nicht völlig obsolet, denn bei einem völlig neuem Klassifikationsschema hilft auch Domain Adaptation oder Transfer Learning nicht weiter. Machine Learning mit kundenspezifischen Daten ist die Lösung für dieses Problem.

Ein weiteres Beispiel für Machine Learning mit kundenspezifischen Daten bei der MORESOPHY ist die Content-Klassfikation nach Marktsegment: Die IAB-Taxonomie.