Interne Daten einer CI

Zu den internen Daten einer CI gehören beispielsweise Daten aus einem CRM sowie erhobene Bewegungsdaten von Usern auf der eigenen Firmenwebsite.

Grundsätzlich generiert jede Kundeninteraktion mit dem Unternehmen auf die ein oder andere Weise interne Daten.

Zu den internen Datenquellen gehören:

  • CDP: Kundendaten, Transaktionsdaten (Einkäufe, Retouren)
  • ERP: Daten zur Ressourcenplanung
  • Webanalyse Tool: Bewegungs- und Conversion-Daten auf der firmeneigenen Website
  • CRM-System: Kundenstammdaten wie Email, Adressen, Namen, Alter
  • Mailsystem: Kampagnendaten (Öffnungs- und Klickraten, etc.)
  • Marketing-Automation-System: Daten aus automatisierten Marketingmaßnahmen
  • Kampagnenmanagementsystem: Kampagnendaten (Interaktionen, Conversions)

Externe Daten einer CI

Von externen Daten spricht man dann, wenn diese nicht direkt aus dem Unternehmen stammen, sondern über andere externe Datenquellen beziehungsweise Drittanbietern gewonnen beziehungsweise verfügbar gemacht werden. Das könnten zum Beispiel Daten aus einer Marktforschung oder einem Umfrageergebnis sein.

Datenqualität und Datenschutz

Bevor man jedoch beginnt, die unterschiedlichen Datenquellen zusammenzuführen und zu analysieren, sollte man diese noch auf deren Validität und Genauigkeit prüfen.

Die Datenqualität spielt dabei eine essentielle Rolle – es muss kontinuierlich sichergestellt werden, dass die verfügbaren Daten eine hohe Qualität besitzen, da es ansonsten zu falschen Schlussfolgerungen kommt und somit gegebenenfalls falsche Maßnahmen getroffen werden.

Weiters muss beachtet werden, dass sämtliche Daten ausschließlich im Einklang mit dem Datenschutzrecht erhoben und anschließend verarbeitet werden dürfen.

Analysieren der Daten

Zuallererst sollte nach gründlichen Überlegungen eine Entscheidung darüber getroffen werden, welche Daten für die Customer Intelligence herangezogen werden.

Die Komplexität, der Aufwand und die Kosten der Datenextrahierung aus den einzelnen verfügbaren Datenquellen sowie der daraus generierte Nutzen dienen hier oft als Entscheidungsgrundlage. 

“Der große Mehrwert einer Customer Intelligence ergibt sich durch das Zusammenführen verschiedener Datenmengen aus diversen Datenquellen und deren anschließende Auswertung.”

Marvin Mitterlehner

SENIOR PERFORMANCE MARKETING & TRACKING SPECIALIST

Aufbereitung und Verbindung der Daten

Der große Mehrwert einer Customer Intelligence ergibt sich durch das Zusammenführen verschiedener Datenmengen aus diversen Datenquellen und deren anschließende Auswertung.

Um die riesigen Datenmengen aus den einzelnen Datenquellen sinngemäß aufbereiten und anschließend miteinander verbinden zu können, werden oft verschiedene automatisierte Echtzeit-Schnittstellen benötigt, welche diese Aufgaben übernehmen. 

Häufig benötigt es mehrere dieser Schnittstellen, welche alle miteinander harmonieren und funktionieren und aufeinander abgestimmt sein müssen – dies kann sich schnell zu einem komplexen, teils sehr technischen Projekt entwickeln.

Vorteile und Nutzen einer Customer Intelligence

Sind diese sogenannten Data Pipelines erstmal erfolgreich eingerichtet, erhält man einen 360-Grad-Blick über seine Kunden sowie einzelne Zielgruppen, was viele Vorteile mit sich bringt.

So ist es zum Beispiel möglich, die verschiedenen Touchpoints der Kunden entlang der Customer Journey abzubilden und zu analysieren. 

Kampagnen und deren Auswirkungen auf den Geschäftserfolg lassen sich mit Hilfe dieses 360-Grad-Blicks besser verstehen und einzeln evaluieren. Die daraus gewonnenen Erkenntnisse spielen oft eine wesentliche Rolle in der Optimierung der Budgetverteilung und Durchführung von zukünftigen Marketingkampagnen. 

Zudem ermöglicht die Customer Intelligence eine gezieltere Ansprache, was dazu beisteuert, Streuverluste bei Kampagnen zu reduzieren. 

Außerdem macht es diese Zusammenführung der Daten möglich, einzelne Marketingmaßnahmen wie zum Beispiel einen Produktberater dahingehend zu prüfen, inwiefern sich dieser auf den Geschäftserfolg auswirkt (Wie sieht die Retourenquote bei Usern aus, welche einen Produktberater vor dem Kauf abgeschlossen haben versus User, die dies nicht getan haben?)

Allerdings können nicht nur die Marketingmaßnahmen optimiert werden – solch ein 360-Grad-Blick ermöglicht es außerdem, das Geschäftsmodell an sich zu optimieren.

So können zum Beispiel saisonale Unterschiede bei Produktabsätzen besser vorhergesagt werden, wodurch die Produktion besser gesteuert werden kann, um sich besser auf diese Schwankungen vorzubereiten. Produktpaletten können aufgrund von beobachteten Kundenverhalten und Wünschen angepasst und optimiert werden.

Fazit

Auch wenn Customer Intelligence einigen Aufwand mit sich bringt, ist diese in dem heute kompetitiven Geschäftsumfeld unerlässlich. Die daraus resultierenden Vorteile und Insights versprechen, den langfristigen Erfolg sowie die Relevanz des Unternehmens sicherzustellen. Eine CI sollte somit zum festen Bestandteil eines jeden Unternehmens werden.

In diesem Beitrag zeige ich Ihnen, wie Sie mithilfe von Webanalysedaten eines Online-Shops Kunden gruppieren können. Auf der Grundlage der Ergebnisse können Personalisierungs- und gezielte Marketingkampagnen auf der Website durchgeführt werden.

Auf dem Weg dorthin werden wir uns die Daten genauer ansehen (“Explorative Datenanalyse” oder “EDA”), eine erste Verarbeitung der Daten vornehmen, eine Segmentierung erstellen und dann die Cluster präsentieren. Für die Berechnungen werden wir Google Colab verwenden.

Die Daten

Die Daten stammen von der Kaggle-Datenplattform und enthalten Web-Tracking-Daten für einen Monat (Okt. 2019) von einem großen Online-Shop mit mehreren Kategorien.

Jede Zeile in der Datei steht für ein Ereignis. Es gibt verschiedene Arten von Ereignissen, wie Seitenaufrufe, Warenkorbaktionen und Käufe.

Der Datensatz enthält Informationen über:

  • event_time / Wann wurde das Ereignis ausgelöst? (UTC)
  • event_type / Ansicht, Einkaufswagen, Kauf
  • product_id / Produkt-ID
  • kategorie_id / Kategorie-ID
  • kategorie_code / Name der Kategorie
  • brand / Markenname
  • preis / Preis
  • user_id / Kunden-ID
  • user_session / Sitzungs-ID

Die Daten stehen als CSV-Datei als Export aus einer “Customer Database Platform” zur Analyse zur Verfügung.

Alle Berechnungen sind in der Colab-Datei enthalten: https://gist.github.com/astoeckl/3c12fedbba2d5e593814fdef230dd81c

“Data Science kann Ihnen helfen, Ihre Kunden besser zu verstehen und ermöglicht Ihnen neue Einblicke in Ihre Kundenstruktur. Nutzen Sie datenbasierte Kundensegmente, um Ihre Umsätze zu erhöhen.”

PROF. (FH) DR. ANDREAS STÖCKL

Senior Expert Marketing Data Science

Erster Blick auf die Daten

Für den Monat Oktober 2019 sind über 42 Millionen Datensätze verfügbar.

Über 3 Millionen Menschen besuchten diese Website. Die Kunden kauften über 166.000 verschiedene Artikel.

Beispiel Customer Journey

Wir versuchen herauszufinden was eine bestimmte Sitzungsnummer bedeutet, indem wir alle Einträge, die für diese Sitzungsnummer gespeichert wurden, untersuchen und interpretieren.

  • Der Benutzer hat mehrere iPhones angesehen
  • Ein iPhone mit 1-Klick gekauft (ohne Einkaufswagen-Ereignis)
  • Zwei unbekannte Produkte der Marke “arena” angesehen
  • Er hat mehrere Apple-Kopfhörer begutachtet und einen gekauft
  • Danach hat er sich einen teureren Kopfhörer angesehen, sich aber gegen einen Kauf entschieden

Beispiel Kundenhistorie

Um alle Aktionen eines bestimmten Benutzers in diesem Monat anzuzeigen, filtern wir alle Datensätze nach seiner Benutzer-ID.

Explorative Datenanalyse

Wie viele Ereignisse wurden bei der Webanalyse an jedem Tag erfasst?

Anzahl der Event-Typen

Wie häufig treten verschiedene Ereignisse in den Daten auf, und um welche Ereignisse handelt es sich?

Der Großteil der Informationen besteht aus Seitenaufrufen (96 %), während der verbleibende Teil aus dem Einkaufswagen und den Kaufaktivitäten besteht.

Merkmale der Besucher

Wir nehmen die wichtigsten Merkmale der einzelnen Besucher und fassen sie in einer Tabelle zusammen.

  • Seitenaufrufe
  • Besuche
  • Anzahl der gekauften Produkte
  • Anzahl der Produkte im Einkaufswagen
  • Gesamtausgaben
  • Ausgaben pro Besuch
  • Seitenaufrufe pro Besuch
  • Warenkorb-Aktionen pro Besuch

Wir filtern die Käufe aus den Aktionen

In der folgenden Phase grenzen wir unsere Einkäufe aus den Daten ein, um sie genauer analysieren zu können. Wir speichern das Ergebnis in einer separaten Tabelle.

Schlüsselzahlen zu den Käufen

Wie viele Produkte werden von einem Käufer gekauft? Wie hoch ist der durchschnittliche Einkaufswert pro Käufer?

Im Durchschnitt tätigt jeder Käufer etwas mehr als zwei Käufe.

Der durchschnittliche Einkaufswert pro Käufer beträgt 773,85 Euro.

Beliebtheit der Marke

Von welchen Marken werden Produkte gekauft?

Sehen wir uns ein Balkendiagramm mit den 10 wichtigsten Marken an.

Für die weitere Analyse gliedern wir die Transaktionen in Gruppen der beliebtesten Marken (die Top 5). Die übrigen werden in einer Gruppe namens “Sonstige” zusammengefasst.

Für jeden Kunden ermitteln wir den Anteil der Käufe in den sechs Markenkategorien und speichern sie in der Käufertabelle.

Produktkategorien

Welche Produktkategorien gibt es?

Die Produktkategorie existiert als hierarchischer Code. Wir nehmen die erste Ebene und speichern sie als separates Merkmal.

Insgesamt gibt es 13 Hauptkategorien. Der Anteil des Kaufpreises in jeder der Hauptkategorien wird als zusätzliches Merkmal in die Tabelle der Käufer aufgenommen.

Hinzufügen von Kaufmerkmalen zu den Merkmalen aller Besucher

Wir können nun die Kaufmerkmale aller Besucher aggregieren, was zu einer Tabelle mit allen Besuchern und Merkmalen führt.

Wir haben also die Daten von 3.022.290 Nutzern, von denen wir jeweils 27 Merkmale gespeichert haben.

Begrenzung der Anzahl der Benutzer

Wir werden uns auf die ersten 50.000 Nutzer beschränken, um die Berechnungen und die Visualisierung in Grenzen zu halten.

Konvertierung in ein Matrixformat für die Berechnung von Clustern

Bevor wir mit dem Clustering beginnen können, müssen wir die Daten in das richtige Format als zweidimensionales Array bringen.

Skalierung der Daten

Um sicherzustellen, dass alle Merkmale auf einer vergleichbaren Skala dargestellt werden, wird die Matrix angepasst, indem sie um den Durchschnittswert verschoben und durch die Standardabweichung dividiert wird.

Berechnung von Kundensegmenten mit unterschiedlicher Anzahl von Clustern

Der “k-Means-Algorithmus” wird zur Identifizierung der Segmente verwendet. Es handelt sich um eine Art der Clusteranalyse, bei der eine Gruppe von Elementen k-Cluster bilden muss, die im Voraus festgelegt werden.

Der “k-Means-Algorithmus” in Daten beginnt mit einer ersten Gruppe zufällig ausgewählter Zentren, die als Startpunkte für jedes Cluster dienen, und führt dann iterative (sich wiederholende) Berechnungen durch, um die Positionen der Zentren zu optimieren.

Da wir es mit einer großen Datenmenge zu tun haben, verwenden wir die “Mini-Batch”-Form der Technik, bei der neue Clusterzentren nur einen Teil der Zeit unter Verwendung aller Daten in jeder Iteration berechnet werden.

https://towardsdatascience.com/understanding-k-means-clustering-in-machine-learning-6a6e67336aa1

Wie legt man die optimale Anzahl von Clustern (“k-Wert”) fest?

Für einen gegebenen Wert von k berechnen wir das Clustering und suchen dann nach dem optimalen k. Der berechnete Silhouette-Score ist ein Maß dafür, wie gut das Clustering gelungen ist. Je näher der Wert bei eins liegt, desto besser. Er wird verwendet, um zu bestimmen, wie viele Cluster es geben sollte.

https://medium.com/@jyotiyadav99111/selecting-optimal-number-of-clusters-in-kmeans-algorithm-silhouette-score-c0d9ebb11308

Wir verwenden nun die ermittelte optimale Clusterzahl zur Erzeugung von Clustern. Außerdem müssen wir die Anzahl der Kunden berücksichtigen, die jedem Segment zugewiesen sind.

Visualisierung von Clustern

Wir verwenden die Methode “tSNE”, um eine Visualisierung der Clusterbildung zu erstellen. t-Distributed Stochastic Neighbor Embedding (tSNE) ist eine Dimensionalitätsreduktionstechnik, die sich besonders für die Darstellung hochdimensionaler Datensätze eignet.

Ziel ist es, die Daten durch Dimensionalitätsreduktion in zwei Dimensionen zu projizieren, wobei die Abstände zwischen den Datenpunkten so weit wie möglich erhalten bleiben sollen.

https://towardsdatascience.com/an-introduction-to-t-sne-with-python-example-5a3a293108d1

Lassen Sie uns nun eine Visualisierung mit einer weitaus geringeren Anzahl von Clustern ausarbeiten. Es ist wesentlich schwieriger, die einzelnen Regionen in mehrere Teile aufzuteilen.

Charakterisierung der Segmente

Wir verwenden grafische Darstellungen wie z. B. “Radar-Charts”, um die Merkmale der Kategorien für jedes Segment auf einmal zu zeigen, um eine Interpretation der Segmente zu ermöglichen. Dies kann bei der Interpretation der Bedeutung der Segmente helfen.

Zum Beispiel ein Segment mit hohen Kaufanteilen in den Kategorien “Kinder” und “Sport”, sowie andere in den Bereichen “Elektronik” und “Gadgets”.

Data Set

In diesem Artikel verwenden wir Daten von der Datenplattform Kaggle.

Der Datensatz enthält Informationen darüber:

  • Ob Kunden innerhalb des letzten Monats gekündigt haben – die Spalte heißt “Abwanderung”.
  • Dienste, für die sich jeder Kunde angemeldet hat – Telefon, mehrere Leitungen, Internet, Online-Sicherheit, Online-Backup, Geräteschutz, technischer Support sowie TV- und Film-Streaming
  • Informationen zum Kundenkonto – wie lange der Kunde bereits Kunde ist, Vertrag, Zahlungsmethode, papierlose Abrechnung, monatliche Gebühren und Gesamtgebühren
  • Demografische Informationen über den Kunden – Geschlecht, Altersgruppe und ob er Partner und Angehörige hat

Schauen wir uns einen Ausschnitt der Daten an:

Jede Zeile steht für einen Kunden, jede Spalte enthält die in der Metadatenzeile beschriebenen Kundenattribute.

Explorative Datenanalyse

Der erste Schritt des Data Scientists bei der Arbeit mit einem neuen Datensatz besteht darin, ein Gefühl für dessen Gesamtstruktur zu bekommen. Der Data Scientist sollte bei der Erkundung der Daten immer Fragen stellen. Daten sind oft chaotisch und man muss aufpassen, dass man nicht zu schnell voreilige Schlüsse zieht. Die Datenvisualisierung ist ein wichtiger Teil der Datenwissenschaft.

In der Explorationsphase stellen Data Scientists Fragen wie “Was sind die interessantesten Variablen?” oder “Wie variieren die Abwanderungsraten zwischen verschiedenen Kundengruppen?”.

Die Erstellung einiger zusammenfassender Statistiken und Metriken könnte ausreichen, um einen guten Überblick über die Vorgänge in diesem Datensatz zu erhalten. Ein Beispiel:

Etwas mehr als ein Viertel der Daten enthält Kunden, die ihren Vertrag gekündigt haben, was für die Analyse ausreichend ist. Bei der Auswertung der Ergebnisse muss jedoch auf diese Unausgewogenheit geachtet werden.

Hinsichtlich des Geschlechts ist kein Unterschied zwischen verlorenen und nicht verlorenen Kunden festzustellen.

Das Vorhandensein eines Internetvertrages hat einen deutlichen Einfluss – Kunden ohne Anschluss sind weniger wechselwillig, und je höher die Qualität des Anschlusses ist, desto höher ist der Anteil der verlorenen Kunden.

Das Vorhandensein eines Online-Backups hat einen eher positiven Einfluss auf die Kundenbindung.

Kurze Vertragslaufzeiten führen zu einer höheren Wechselwahrscheinlichkeit. Kunden, die schon lange einen Vertrag haben, bleiben überproportional treu.

Die Daten und Diagramme enthalten eine Vielzahl weiterer Informationen.

“Data Science kann Ihnen helfen, Muster zu finden und diese Muster zur Vorhersage der Zukunft zu nutzen.”

PROF. (FH) DR. ANDREAS STÖCKL

Senior Expert Marketing Data Science

Visualisierung des Datensatzes mit Hilfe einer Matrix-Streuungsdarstellung

Um einen Einblick in die Zusammenhänge der numerischen Merkmale zu erhalten, erstellen wir eine Matrix mit paarweisen Streudiagrammen. Der Data Scientist hat dann eine sehr einfache Möglichkeit, auf Korrelationen zu prüfen.

Jedes Quadrat enthält ein Paar numerischer Variablen aus den Daten. Die Farbe zeigt Kunden mit Abwanderung (rot) und Kunden, die nicht gekündigt haben (blau).

Der Data Scientist kann erkennen, dass einige Variablen eine starke negative Korrelation aufweisen, andere wiederum eine positive. Zwischen der Vertragsdauer und den monatlichen Gebühren lässt sich kein Zusammenhang feststellen, die Punkte sind im Diagramm fast gleich verteilt. Zwischen der Vertragslaufzeit und den Gesamtgebühren besteht ein Zusammenhang, die Punkte sind auf einen Bereich beschränkt.

Die monatlichen Gebühren und die Gesamtgebühren füllen eine Halbebene aus. Die Verteilung der Farbgebung zeigt auch hier deutlich die Tendenz, dass Kunden mit kurzen Vertragslaufzeiten und damit niedrigen Gesamtgebühren eher wechseln. Die Achse der monatlichen Gebühren ist überwiegend gleichmäßig mit roten Punkten gefüllt.

Zusammenfassung der explorativen Datenanalyse

Demografische Daten haben zum Teil keinen Einfluss (Geschlecht), aber andere Faktoren wie der Familienstand schon.

Zusatzdienste wie Online-Backup, Online-Sicherheit und technischer Support wirken sich positiv auf die Kundentreue aus.

Kunden mit schnelleren Internetleitungen, Streaming- oder Filmpaketen haben dagegen eine höhere Kündigungsneigung. Die Zahlungsmodalitäten beeinflussen das Kündigungsverhalten.

Die Vertragsdauer und die Bindung sind eindeutig starke Indikatoren dafür, ob eine Kündigung erfolgen wird. Kunden, die schon lange einen Vertrag haben, wechseln nicht so schnell wie Neukunden.

Korrelation der Merkmale

In dieser Darstellung sind alle Korrelationen zwischen den Merkmalen auf einen Blick zu erkennen.

Die positiven Merkmale sind in Rottönen und die negativen in Blautönen hervorgehoben. Jedes Merkmal hat natürlich eine perfekte Korrelation mit sich selbst.

Beispiele für Erkenntnisse aus der Matrix:

  • Vertragsdauer und Gesamtkosten sind stark positiv korreliert
  • Streaming- und Filmpakete sind mäßig mit den monatlichen Kosten und den Gesamtkosten korreliert
  • Kunden mit kurzer Vertragslaufzeit haben eine negative Korrelation mit zusätzlichen Paketen wie Online-Backup, Streaming-TV usw.
  • Wenn es keinen Internetdienst gibt, gibt es natürlich auch kein Streaming- und Filmpaket, was sich gut an den starken negativen Korrelationen ablesen lässt.
  • Eine kurze Vertragslaufzeit ist ebenfalls negativ mit den Zusatzpaketen korreliert. Kurzfristige Kunden scheinen hauptsächlich Telefonie zu nutzen.

Die Korrelationsmatrix dient nicht nur dazu, Erkenntnisse über die Daten zu gewinnen, sondern ist auch für die Modellierung des später entwickelten Prognoseverfahrens wichtig. Stark korrelierte Merkmale sollten nur einmal in das Modell aufgenommen werden.

Profilanzeige von verlorenen und behaltenen Kunden

Die Radardiagramme für die beiden Gruppen der verlierenden und der verbleibenden Kunden auf der Grundlage der binären Merkmale zeichnen ein umfassendes Gesamtbild der Unterschiede.

Die Unterschiede in den Ausstattungsmerkmalen Vertragslaufzeit und Zusatzleistungen treten hier ebenso deutlich zutage wie die unterschiedlichen Internetprofile und sonstigen Merkmale.

Vorhersagemodell

Wir erstellen nun ein Prognosemodell, das für jeden Kunden vorhersagt, ob er seinen Vertrag im betrachteten Zeitraum kündigen wird. Um das Modell auswerten zu können, werden nur 75% der Daten zur Erstellung des Modells verwendet. Die restlichen 25% werden zum Testen des Modells verwendet, indem eine Prognose erstellt und mit dem tatsächlichen Kündigungsverhalten verglichen wird. Diese stehen uns in den Daten zur Verfügung, die wir zur Erstellung des Modells verwenden.

Damit erhalten wir sowohl eine Berechnungsmethode für die Zukunft, die die Kündigungswahrscheinlichkeit auf Basis der Kundenmerkmale berechnet, als auch eine Einschätzung, wie der Kunde in Zukunft reagieren wird.

Ergebnisse mit Support-Vektor-Maschine

Zunächst haben wir ein Modell erstellt, das die beiden Kundenklassen mithilfe der Support Vector Machine zuordnet. Die Auswertung zeigt, dass das Modell in 79% der Fälle richtig war. Angesichts der Merkmale und der Komplexität der Aufgabe ist das zunächst nicht schlecht.

Die Verteilung der beiden Klassen (gekündigt/geblieben) ist jedoch sehr ungleichmäßig – da nur etwas mehr als ein Viertel der Daten von Kunden stammt, die gekündigt haben –, wodurch die Beurteilung der Anzahl der korrekt vorhergesagten Klassenzuordnungen kein gutes Maß ist. Stellen Sie sich vor, das Modell hätte in unserem Fall vorhergesagt, dass der Kunde nicht gekündigt hat, dann wäre es in über 73% der Fälle insgesamt richtig gewesen, aber immer falsch bei der Vorhersage der gekündigten Fälle!

Weitere Kennzahlen

Daher betrachten wir zwei weitere Kennzahlen, nämlich Precision und Recall, die angeben, wie oft der Prozess bei der Vorhersage einer Kündigung falsch liegt und wie hoch der Anteil der Kunden ist, die der Prozess nicht als Kündigung erkennt.

Beide Werte liegen ebenfalls bei 78% und 79%.

Fehlermatrix

Mit der Fehlermatrix sehen wir uns an, wie oft das Modell bei der Auswertung welche Art von Fehler gemacht hat. Bei 8% der Vorhersagen wird fälschlicherweise ein Abbruch vorhergesagt, obwohl es keinen gab. Dies ist ein Wert, der für die Praxis durchaus geeignet ist.

Allerdings werden 53% der Abbrüche nicht erkannt. Hier muss das Modell noch verbessert werden.

Potenzial für Verbesserungen

Die folgenden Schritte können zur Verbesserung der Prognosen unternommen werden:

  • Mehr Kundendaten sammeln
  • Erfassen Sie mehr Merkmale der Kunden, z.B. Klickverhalten auf der Website

Wichtigkeit der Merkmale

Hier können Sie sehen, welche Faktoren einen starken positiven oder negativen Einfluss auf das Prognoseergebnis haben.

Die Vertragsdauer, d. h. die Anzahl der Stammkunden und die Art des Internetanschlusses sind Faktoren, die einen starken Einfluss haben, mit positiven oder negativen Vorzeichen.

Fazit

Dank dieser Erkenntnisse konnten wir mit Kundenbindungsmaßnahmen gezielt gegensteuern:

  • Marketing-Automatisierungsprozess, der je nach Score durch gezieltes “Lead Nurturing” die passende Kommunikation aufbaut.
  • Inhalte in der Kommunikation, die zu den Faktoren passen, die zur Kundentreue beitragen
  • Merkmale von Kunden, die länger bleiben, in das Targeting von Marketingmaßnahmen einbeziehen.

Die Aufgabe

Aus den Daten, die ein potenzieller Kunde (ein “Lead”) auf einer Website hinterlässt, lassen sich wichtige Erkenntnisse über das Verbraucherverhalten gewinnen. Mithilfe des maschinellen Lernens wird dann aus diesen Informationen ein Vorhersagemodell erstellt. Die Erfolgsquote eines Vorhersagemodells liegt in diesem Beispiel bei 90%.

Ein Bildungsunternehmen kann zum Beispiel Online-Kurse für Fachleute anbieten. Dank der Marketingaktivitäten besuchen täglich viele Interessierte die Website des Unternehmens. Auf diese Weise werden über Social-Media-Plattformen, Websites oder Suchmaschinen wie Google neue Interessenten angelockt.

Nachdem sie auf die Website gelangt sind, sehen sie sich vielleicht Kurse an, füllen ein Formular aus oder sehen sich einige Videos an. Wenn sie die Website verlassen, ohne diese wichtige Aktivität abgeschlossen zu haben, werden sie umgeleitet und zur Konversion gedrängt. Wenn Personen ein Formular ausfüllen und ihre E-Mail-Adresse oder Telefonnummer angeben, werden sie als potenzielle Kunden eingestuft.

Die Vertriebsmitarbeiter beginnen mit Anrufen, dem Versenden von E-Mails usw., sobald sie diese Leads erworben haben. Einige der Leads werden umgewandelt, während die meisten nicht durch dieses Verfahren umgewandelt werden. Eine typische Konvertierungsrate für Leads liegt bei etwa 30 %.

Wenn zum Beispiel an einem Tag 100 Leads gesammelt werden, werden nur etwa 30 davon umgewandelt. Das Unternehmen möchte im Rahmen dieses Prozesses “heiße Leads” oder potenzielle Leads finden, um ihn effizienter zu gestalten. Wenn es gelingt, diese Leads zu finden, sollte die Konversionsrate steigen. Denn das Vertriebsteam ist nun mehr daran interessiert, mit potenziellen Kunden ins Gespräch zu kommen, anstatt jeden einzelnen anzurufen. Dies verbessert nicht nur den Verkaufsprozess, indem es ihn beschleunigt und seine Effizienz erhöht, sondern senkt auch die Personalkosten.

Es liegt in unserer Verantwortung, ein System zu entwickeln, in dem jeder Lead einen Lead-Score hat. Kunden mit einem höheren Lead-Score haben eine größere Chance auf eine Konversion, Kunden mit einem niedrigeren Lead-Score haben eine geringere Chance auf eine Konversion.

Der Datensatz von Kaggle

Wir verwenden in dieser Demo Daten von Kaggle. Kaggle ist eine Gemeinschaft von Data Scientists und Data Analysts, die an Data-Science-Problemen arbeiten. Die Teilnehmer posten Data-Science-Probleme, die sie von Data-Analysten und Data-Scientists lösen lassen möchten. Diese Data-Science-Probleme enthalten oft einen Datensatz. Kaggle ist ein hervorragender Ort, um mit dem Aufbau von Data Science-Fähigkeiten zu beginnen und Data Science-Probleme zu entdecken, an deren Lösung Sie interessiert sein könnten. 

Der Datensatz enthält die folgenden Informationen:

  • Wenn die Anfragen in zahlende Kunden umgewandelt werden, werden sie als “konvertiert” gekennzeichnet.
  • Die zweite Art von Daten sind Verhaltensdaten. Dazu gehören Informationen über das Verhalten des Besuchers auf der Website, z.B. wie lange er sich dort aufgehalten hat, welches Material er sich angesehen hat usw.
  • In Webformularen bereitgestellte Informationen
  • Wie ist der Nutzer auf Ihre Website gekommen (Suchmaschine, Empfehlung oder direkt)

Im Folgenden finden Sie einen Auszug aus den Daten. Es gibt 9240 Datensätze mit 37 Merkmalen für Personen. Jeder Lead hat seinen eigenen Satz von Merkmalen. Es gibt numerische Merkmale, wie z.B. die Verweildauer auf der Website, aber auch viele kategorische Merkmale, wie z.B. demografische Informationen und Informationen aus Webformularen.

Bereinigung der Daten

In diesem Fall sind fehlende Daten ein Problem, das angegangen werden muss. Es ist keine gute Idee, alle unvollständigen Datensätze zu entfernen, da zu viele Datensätze gelöscht würden. Eine gründliche Untersuchung ist erforderlich. Datenanalysten verwenden in dieser Phase von Data Science-Projekten häufig Tools zur Bewertung der Datenqualität, um ihre Arbeit zu erleichtern und weniger zeitaufwändig zu gestalten.

Wir werden also Merkmale mit mehr als 40 % fehlenden Werten entfernen, da es an dieser Stelle nicht viel zu analysieren gibt. Bei Merkmalen mit weniger fehlenden Daten werden diese durch den dominanten Wert des Merkmals ersetzt.

Für viele Spalten des Datensatzes gibt es “Auswahl”-Werte. Diese Werte wurden von den Kunden bei der Eingabe angegeben, wenn sie keinen Wert aus der Liste im Formular auswählten (es könnte sein, dass dies keine Pflichtangabe war). In diesem Beispiel erscheint “Auswählen” im Datensatz. Da “Select”-Werte so gut wie NULLs sind, werden sie durch NULLs ersetzt.

Kaggle hat eine ausführliche Anleitung dazu. https://www.kaggle.com/danofer/lead-scoring erklärt detailliert, wie man diese Schritte durchführt.

Wir haben festgestellt, dass viele Merkmale keine Informationen zum Modell beitragen, also haben wir sie von der weiteren Untersuchung ausgeschlossen. Der Datensatz umfasst 16 Merkmale.

“Datenvisualisierung ist der beste Freund eines Datenwissenschaftlers, und Tableau ist eines der von Datenwissenschaftlern am häufigsten verwendeten Tools zur Datenvisualisierung.”

PROF. (FH) DR. ANDREAS STÖCKL

Senior Expert Marketing Data Science

Explorative Datenanalyse mit Tableau

Tableau ist ein Tool zur Datenvisualisierung. Eine gute Datenvisualisierung ist ein wichtiger Bestandteil der Datenwissenschaft. Data Scientists verwenden die Datenvisualisierung häufig im Prozess der Modellerstellung, um zu verstehen, welche Variablen wichtig sind und wie sie zusammenarbeiten können, um gute Modelle zu erstellen. Die Datenvisualisierung ist auch eine Schlüsselkomponente für Data Science-Präsentationen. Data Scientists und Datenanalysten erstellen häufig Datenvisualisierungen und Datengeschichten, um Data Science-Ergebnisse anderen Data Scientists, Datenanalysten, Geschäftsleuten, Käufern von Datenprodukten oder -dienstleistungen und Kunden zu vermitteln.

Schauen wir uns an, wie viele Leads und Nicht-Leads es in unserer Fallstudie gibt, indem wir ein einfaches Balkendiagramm erstellen. Ziehen Sie dazu “Konvertiert” als Dimension auf “Zeilen” und die Anzahl der Leads auf “Spalten”.

Das Merkmal “Konvertiert” wird auf 1 gesetzt, wenn ein Lead erfolgreich konvertiert wurde (38%), und auf 0, wenn er nicht konvertiert wurde (62%). In unseren Studien wurden 38% der Kunden akquiriert.

Schauen wir uns nun die Verteilung der Daten auf der Welt an, indem wir eine Karte mit farbigen Ländern auf der Grundlage der Anzahl der Einträge anzeigen lassen.

Dazu verwenden wir die Dimension “Land” und die Gesamtzahl der Leads zusammen mit dem entsprechenden Diagrammtyp. Tableau generiert dann Breiten- und Längengrad-Daten, die automatisch in “Zeilen” und “Spalten” in Ihrer Tabelle eingefügt werden.

Die numerischen Merkmale “Total Visits”, “Total Time Spent on Website” und “Page Views Per Visit” werden nun untersucht. Zur Visualisierung der Datenverteilung werden “Box-and-Whisker”-Diagramme verwendet.

Die durchschnittliche Anzahl der Besuche auf der Website für konvertierte und nicht konvertierte Leads ist identisch. Aus der Gesamtzahl der Besuche kann keine endgültige Schlussfolgerung gezogen werden.

Je mehr Zeit Sie auf der Website verbringen, desto wahrscheinlicher ist es, dass Sie konvertieren. Am besten ist es, Verbesserungen an der Website vorzunehmen, um sie für die Besucher einfacher zu machen und ihr Interesse zu wecken.

Konversions- und Nicht-Konversions-Leads haben die gleiche Anzahl von Seitenaufrufen pro Besuch. Aus der Statistik lässt sich nicht ableiten, dass konvertierte Leads im Durchschnitt mehr Seitenaufrufe haben als nicht konvertierte Leads.

Nun betrachten wir kategoriale Merkmale. Data Scientists achten oft darauf, wie viele eindeutige Werte oder Kategorien in einem Datensatz vorhanden sind. Data Scientists suchen auch nach Kategorien mit sehr niedrigen Werten.

Aus welcher Quelle wurde der Lead generiert?

Ein Barchart mit zwei Dimensionen (Lead Origin und Converted) wird verwendet, um die Anzahl der Leads anzuzeigen.

  • Das “Lead Add Form” hat eine fantastische Konversionsrate, aber die Anzahl der generierten Leads ist nicht sehr hoch.
  • Die Anzahl der Leads, die durch die Integrationen “API” und “Landing Page Submission” generiert werden, ist deutlich höher.
  • Lead Import” generiert sehr wenige Leads

Um die gesamte Lead-Konversionsrate zu verbessern, sollten wir uns mehr darauf konzentrieren, die Rate der Leads zu erhöhen, die aus der API- und Landing Page-Übermittlung stammen, und zusätzliche Leads über das Lead-Add-Formular zu generieren.

Schauen wir uns nun die Funktion an, ob Nutzer per E-Mail kontaktiert werden möchten.

Wir sehen, dass diejenigen, die keine E-Mails erhalten wollen, eine schlechte Konversionsrate haben.

Schauen wir uns als letztes Beispiel die letzte Aktivität der Nutzer an.

Die Mehrheit der Leads hat als letzte Aktion ihre E-Mail geöffnet. Bei Leads, die dies als ihre letzte Aktion angegeben haben, hat “SMS Sent” eine hohe Konversionsrate.

Vorhersagemodell

Wir konstruieren nun ein Modell, das vorhersagt, ob jeder Lead in dem betrachteten Zeitraum in Zukunft konvertieren wird. Die Grundlage für dieses Modell sind die Daten aus der Vergangenheit, die wir im letzten Abschnitt betrachtet haben. Diese enthalten die Informationen darüber, ob ein Lead konvertiert wurde oder nicht, sodass wir mit überwachtem Lernen arbeiten können.

Überwachtes Lernen ist eine Technik der Datenwissenschaft, die aus Beispieldaten mit Kennzeichnungen eine Vorhersage erstellt. Der Data Scientist verwendet die Daten, um ein Modell zu erstellen, das Vorhersagen für ungesehene oder Testmuster erstellen kann.

Der Data Scientist stellt sicher, dass das Modell genau ist und entscheidet dann, ob es eingesetzt werden soll. Zur Bewertung des Modells werden nur 70% der Daten für die Erstellung des Modells verwendet. Die verbleibenden 30% werden zum Testen des Modells verwendet, indem eine Prognose erstellt und mit den tatsächlichen Umsatzdaten verglichen wird.

Wir verwenden die Modellklasse der logistischen Regression, um ein Prognosemodell zu erstellen. Die logistische Regression ist ein statistisches Modell, das auf der Grundlage einer oder mehrerer unabhängiger Variablen vorhersagt, ob ein Ereignis eintreten wird oder nicht. In unserem Fall ist dies die Frage, ob der Vorsprung umgewandelt wurde oder nicht. Logistische Regressionsmodelle identifizieren die Variablen, die für die Vorhersage, ob ein Lead konvertiert wird, wichtig sind.

Die logistische Regression ist eine der am häufigsten verwendeten Data Science-Techniken zur Klassifizierung. Sie misst nicht, wie stark zwei Variablen miteinander verbunden sind, sondern berechnet die Wahrscheinlichkeit, dass eine abhängige Variable (in unserem Fall die Konvertierungswahrscheinlichkeit) bei bestimmten Werten für jede der unabhängigen Variablen auftritt.

Dabei handelt es sich um eine Methode zur Schätzung des Vorhersagefehlers komplexerer Modelle, bei der die Daten in Teilmengen aufgeteilt und dann separate kleinere Modelle an jede Teilmenge angepasst werden.

Das Modell hat viele Merkmale, aber viele davon sind nicht vorteilhaft für das Modell. Wir werden nun eine Merkmalsauswahl vornehmen, um uns auf die wichtigsten Merkmale zu konzentrieren.

Das allgemeine Ziel der rekursiven Merkmalseliminierung (RFE) besteht darin, die Anzahl der Merkmale zu verringern. Der erste Schritt besteht darin, den gesamten Satz von Merkmalen beim Training zu verwenden, und die Wichtigkeit jedes Merkmals wird bestimmt. Die am wenigsten wichtigen Merkmale werden dann aus dem aktuellen Merkmalssatz entfernt. Dies wird rekursiv mit dem reduzierten Satz durchgeführt, bis die erforderliche Anzahl von Merkmalen erreicht ist. Als Ergebnis dieses Prozesses wird ein neues Modell mit einer geringeren Anzahl von Merkmalen erstellt.

Implementierung in Python

Die Implementierung des Trainings und der Bewertung des Modells erfolgt in Python – einer Programmiersprache, die häufig in der Datenwissenschaft verwendet wird. Data Scientists verwenden auch häufig R, aber Python wird immer bekannter, da seine Fähigkeiten im Bereich Data Science wachsen.

Wir beginnen mit dem Import der Module, die wir für diese Analyse benötigen: Pandas und sklearn. Zum Laden und Manipulieren wird die Pandas-Bibliothek verwendet. Pandas ist eine ausgezeichnete Wahl für das Munging und die Vorverarbeitung von Daten. Wir verwenden scikit-learn, um die Modelle und Prädiktoren zu implementieren.

Dann importieren wir die Daten aus der csv-Datei und teilen die Daten in zwei Teilmengen auf: eine für die Anpassung und eine für die Auswertung. Diese Technik der Datenwissenschaft wird Partitionierung genannt.

Dann werden die Daten skaliert. Dies geschieht, um die Eingabewerte für die Algorithmen ausgewogener zu machen, da einige der Merkmale sehr hohe oder niedrige Werte aufweisen können.

Nach der Skalierung extrahieren wir die wichtigsten Merkmale und berechnen die logistische Regression.

Der Quellcode ist unter: https://gist.github.com/astoeckl/2c3832f8d78ddfc0148b7bf948bdad99#file-leadprediction zu finden.

Auswertung mit den 30% Testdaten

Danach können wir die Genauigkeit der Vorhersage mit Testdaten bewerten. Diese liegt bei rund 90,5% Genauigkeit.

Wir verwenden die Fehlermatrix, um zu untersuchen, wie oft das Modell während der Validierung jede Art von Fehler erzeugt hat. In 5,7% der Vorhersagen wird eine Umwandlung falsch vorhergesagt, obwohl es keine gab. Dies ist ein Wert, der in der Praxis verwendet werden kann, ohne die Genauigkeit wesentlich zu beeinträchtigen. 16% der Konversionsfälle werden nicht erkannt. Auch dies ist ein brauchbarer Wert.

Fazit

Wir haben die folgenden Dinge über die Daten aus unserem Beispiel herausgefunden:

  • Die Verweildauer auf der Website ist ein effektives Maß für den Abschluss.
  • Die “Lead-Quellen” wiesen erhebliche Unterschiede in Bezug auf die Menge und die Konversionsrate ihrer Leads auf.
  • Die letzten aufgezeichneten Ereignisse waren für die Vorhersage entscheidend.

Anhand dieser Daten wurde dann ein Vorhersagemodell für neue Leads erstellt, das eine Genauigkeit von knapp über 90% aufwies.

Dabei können wir zwischen zwei Arten von Daten unterscheiden:

  • Nutzungsdaten, die durch Benutzeraktionen innerhalb des Systems erzeugt werden (z. B. Besuch einer Website, Abonnement eines E-Mail-Newsletters oder Anklicken einer Anzeige)
  • Attribute sind Benutzereingaben (z. B. Name, Adresse, Passwort)

Die Nutzungsdaten werden mit Tracking-Lösungen wie Google Analytics, Matomo oder Piwik PRO gesammelt und in ein Data Warehouse verschoben. Von dort werden die Nutzungsdaten derzeit zur weiteren Analyse mit Big-Data-Tools wie Hadoop, MapReduce oder Spark zwischen Unternehmen transferiert. Allerdings sind die Attribute oft in Excel-Dateien, Kundendatenbanken und CRM-Systemen gespeichert, was einen universellen Vergleich erschwert. Zudem sind diese Daten in der Regel nur unternehmensintern zugänglich, was bedeutet, dass diese Datensätze nicht für externe Analysen genutzt werden können.

Durch den Einsatz einer Customer Data Platform (CDP) werden die Daten integriert, bereinigt und zu einer einzigen Quelle der Kundenwahrheit konsolidiert. Kunden werden über mehrere Kanäle wie E-Mail, Websites, Apps, Social-Media-Plattformen usw. nachverfolgt. Kunden können auf der Grundlage ihrer Identität oder ihres Verhaltens segmentiert werden (z. B. “aktive Käufer”), was die Erstellung einzigartiger Personas ermöglicht, die für das Verständnis Ihrer Zielgruppe von entscheidender Bedeutung sind. Kunden können auch mit Social-Media-Profilen, Offline-Kaufdaten und anderen relevanten Attributen verknüpft werden, die es Vermarktern ermöglichen, das Kundenprofil um zusätzliche Erkenntnisse wie einen Segmentierungswert oder einen Propensity Score zu erweitern.

Eine CDP muss in der Lage sein, die Daten sehr feinkörnig zu verwalten und muss daher große Datenmengen verarbeiten können. Kunden müssen über eine eindeutige ID im gesamten System identifiziert werden und müssen daher in der Lage sein, Daten aus verschiedenen Quellen zu konsolidieren. Die Kunden können dann nach Attributen wie Demografie, Psychografie, Standort oder Kontext gefiltert werden. Die Kundenprofile sind dynamisch und ermöglichen es den Vermarktern, im Laufe der Zeit zusätzliche Informationen hinzuzufügen, die für prädiktive Analysen sehr wertvoll sind. Diese Profile können dann verwendet werden, um eine benutzerdefinierte Zielgruppe zu erstellen, die für viele Anwendungsfälle wie Retargeting-Kampagnen, Lead-Generierung oder Produktempfehlungen nützlich ist. Die Kundenprofile müssen außerdem flexibel und skalierbar sein, damit sie an die sich ständig ändernden Anforderungen der Vermarkter angepasst werden können.

GDPR und Einwilligung

Wenn die Nutzerdaten aus dem Webtracking stammen, müssen die Website-Besucher ihre Zustimmung geben und die GDPR einhalten. Kunden können ihre Zustimmung erteilen, indem sie sich beim Besuch einer Website anmelden. Sie können auch bei der Anmeldung zu einem E-Mail-Newsletter oder bei der Erstellung eines neuen Profils im Kundenportal um ihre Zustimmung gebeten werden. Die Kunden müssen auch die Möglichkeit haben, ihre Einwilligung jederzeit zu widerrufen, und sie sollten über die möglichen Folgen einer solchen Entscheidung informiert werden (z. B. eine vollständige Löschung des Kundenprofils). Die Kunden sollten auch nach dem Widerruf ihrer Zustimmung weiterhin Zugang zu ihren Profilen haben, da die Daten für statistische Zwecke anonymisiert und aggregiert werden können.

Die Nutzungsdaten werden mit Tracking-Lösungen wie Google Analytics, Matomo oder Piwik PRO gesammelt und in ein Data Warehouse verschoben. Von dort werden die Nutzungsdaten derzeit zur weiteren Analyse mit Big-Data-Tools wie Hadoop, MapReduce oder Spark zwischen Unternehmen transferiert. Allerdings sind die Attribute oft in Excel-Dateien, Kundendatenbanken und CRM-Systemen gespeichert, was einen universellen Vergleich erschwert. Zudem sind diese Daten in der Regel nur unternehmensintern zugänglich, was bedeutet, dass diese Datensätze nicht für externe Analysen genutzt werden können.

Durch den Einsatz einer Customer Data Platform (CDP) werden die Daten integriert, bereinigt und zu einer einzigen Quelle der Kundenwahrheit konsolidiert. Kunden werden über mehrere Kanäle wie E-Mail, Websites, Apps, Social-Media-Plattformen usw. nachverfolgt. Kunden können auf der Grundlage ihrer Identität oder ihres Verhaltens segmentiert werden (z. B. “aktive Käufer”), was die Erstellung einzigartiger Personas ermöglicht, die für das Verständnis Ihrer Zielgruppe von entscheidender Bedeutung sind. Kunden können auch mit Social-Media-Profilen, Offline-Kaufdaten und anderen relevanten Attributen verknüpft werden, die es Vermarktern ermöglichen, das Kundenprofil um zusätzliche Erkenntnisse wie einen Segmentierungswert oder einen Propensity Score zu erweitern.

Eine CDP muss in der Lage sein, die Daten sehr feinkörnig zu verwalten und muss daher große Datenmengen verarbeiten können. Kunden müssen über eine eindeutige ID im gesamten System identifiziert werden und müssen daher in der Lage sein, Daten aus verschiedenen Quellen zu konsolidieren. Die Kunden können dann nach Attributen wie Demografie, Psychografie, Standort oder Kontext gefiltert werden. Die Kundenprofile sind dynamisch und ermöglichen es den Vermarktern, im Laufe der Zeit zusätzliche Informationen hinzuzufügen, die für prädiktive Analysen sehr wertvoll sind. Diese Profile können dann verwendet werden, um eine benutzerdefinierte Zielgruppe zu erstellen, die für viele Anwendungsfälle wie Retargeting-Kampagnen, Lead-Generierung oder Produktempfehlungen nützlich ist. Die Kundenprofile müssen außerdem flexibel und skalierbar sein, damit sie an die sich ständig ändernden Anforderungen der Vermarkter angepasst werden können.

Merkmale einer CDP

Als System, das Daten aus verschiedenen Quellen zusammenführt und in aussagekräftige Informationen umwandelt, um Geschäftsentscheidungen zu treffen, besteht eine CDP aus vier grundlegenden Funktionen:

  • Datenmanagement
  • Stammdatenmanagement (MDM)
  • Kundenerfahrung und
  • Analyse

Datenverwaltung

Das erste Merkmal ist das Datenmanagement, das sich auf die Vereinheitlichung und Anreicherung von Kundenprofilen mit externen Datenquellen bezieht. Kunden werden durch eine eindeutige ID in allen Datenquellen identifiziert, was die Vereinheitlichung von Profilen ermöglicht, selbst wenn diese in separaten Datensilos mit unterschiedlichen Identifikatoren erstellt wurden. Die Kundenprofile sind sauber, vollständig und konsistent, da nur qualitativ hochwertige Eingaben zur Erstellung verwendet werden. Die Daten können durch Hinzufügen von zusätzlichem Kontext wie Geoinformationen oder Wetterdaten angereichert werden, um zu verstehen, ob die Kunden bestimmten Bedingungen ausgesetzt waren. Kundenprofile sind dynamisch und ermöglichen es den Vermarktern, im Laufe der Zeit zusätzliche Informationen hinzuzufügen, was für prädiktive Analysen sehr wertvoll ist. Die Schnittstelle zur Erstellung solcher Kundenprofile sollte über einen webbasierten Browser oder eine mobile Anwendung zugänglich sein. Die Kunden können dann nach Attributen wie Demografie, Psychografie, Standort oder Kontext gefiltert werden. Kundenprofile sind außerdem sehr flexibel und können an die sich ständig ändernden Anforderungen der Vermarkter angepasst werden.

Stammdatenverwaltung

Das zweite Merkmal ist das Stammdatenmanagement, das sich auf die Verwaltung von Kundendaten in einem Unternehmen bezieht, das verschiedene Quellen, Interessengruppen und Ansichten über Kundeninformationen verwaltet. Die Kunden müssen die vollständige Kontrolle über ihre Daten haben, da sie es sind, die die Daten erzeugen. Die Kunden müssen in der Lage sein, ihre Daten jederzeit zu verwalten, was über eine Anwendung oder eine Webschnittstelle geschehen kann. Die Kunden können entscheiden, welche Daten sie an Unternehmen weitergeben wollen und wie sie weitergegeben werden (orientiert an den Datenschutzbestimmungen). Die Kunden müssen auch über alle Änderungen der Datenschutzrichtlinien informiert werden, da sie an deren Aktualisierung beteiligt sind. Die Kunden sollten auch die Möglichkeit haben, ihre Profile zu löschen und zu deaktivieren, wann immer sie dies wünschen. Die Kunden müssen auch über alle Parteien informiert werden, die Daten von der CDP erhalten. Die Kunden sollten auch dann noch Zugang zu ihren Profilen haben, wenn sie ihre Zustimmung zurückgezogen haben, da die Daten anonymisiert und zu statistischen Zwecken zusammengefasst werden können.

Kundenerfahrung

Das dritte Merkmal ist die Kundenerfahrung, die sich auf alle Tools bezieht, die für die Interaktion mit den Kunden verwendet werden, einschließlich Personalisierung und Customer-Journey-Analysen. Die Kunden müssen jederzeit die Möglichkeit haben, ihre Daten zu verwalten, was über eine Anwendung oder eine Webschnittstelle wie die im vorigen Abschnitt (Stammdatenverwaltung) beschriebene erfolgen kann.

Analytik

Das vierte Merkmal ist die Analytik, die alle Analysetools umfasst, die zur Gewinnung von Erkenntnissen aus Kundendaten verwendet werden. Die Marketingexperten können diese Informationen dann für prädiktive Analysen und jede andere Art von Analyse nutzen, die für Geschäftsentscheidungen hilfreich ist.

Auf dem Markt befindliche Systeme

Auf dem Markt gibt es eine Vielzahl von Systemen, sowohl solche mit Open-Source-Lizenz als auch kommerzielle Softwaresysteme. Kunden sollten sich über die Systeme informieren, um herauszufinden, welches für ihre Anforderungen am besten geeignet ist. Ich möchte hier einige Beispiele vorstellen.

Apache Unomi ist ein Server, der die Verwaltung von Benutzerprofilen und Ereignissen für die Profile ermöglicht. Er kann verwendet werden, um die Profilanpassung und -verwaltung in eine Vielzahl von Plattformen zu integrieren, darunter Content Management Systeme (CMS), Customer Relationship Management Lösungen (CRM), Issue Tracker und native mobile Apps. Er wurde so konzipiert, dass er einfach mit anderen Systemen verknüpft werden kann, so dass Benutzer ihre Profile in einer Vielzahl von Anwendungen gemeinsam nutzen und wiederverwenden können.

Der Server verwendet eine Reihe von Techniken, um die Benutzer zu verfolgen (standardmäßig Cookies), ein progressiv ausgefülltes Profil zu erstellen und die von einem Benutzer durchgeführten Aktionen mit seiner Identität zu verbinden. Ein einzelner Server kann Tausende von Ereignissen pro Minute verarbeiten. Von einem Klick auf eine Webseite bis zum Herunterladen einer Datei, von der Auswahl einer Anwendungsschaltfläche bis zu allem anderen, was an den Server gesendet werden kann, können Ereignisse alles umfassen.

Der Server verfügt über ein integriertes Regelsystem, mit dem Sie jede Aktion im Zusammenhang mit einem Profil durchführen können, sobald ein Ereignis für dieses Profil aufgezeichnet wurde. Er beinhaltet auch das Konzept der Benutzersegmente, das es Ihnen ermöglicht, Benutzerprofile in wechselnde Untergruppen zu kategorisieren und einzigartige Erlebnisse für jede Gruppe zu schaffen.

Apache Unomi ist so konzipiert, dass es aufgrund seiner Existenz als OSGi-Anwendung innerhalb von Apache Karaf in hohem Maße erweiterbar und skalierbar ist. Es ist denkbar, neue Bedingungen, Operationen oder andere benötigte Dienste hinzuzufügen, wie z.B. Push-Benachrichtigungen.

Das Open-Source-Projekt Apache Unomi ist auch die Referenzimplementierung für den OASIS Customer Data Platform-Standard, der darauf abzielt, die Personalisierung von Online-Erlebnissen zu standardisieren und gleichzeitig ein ethisches Web Experience Management und eine verstärkte Kontrolle der Privatsphäre der Benutzer zu fördern.

Eine weitere gute Eigenschaft dieses Servers sind seine Fähigkeiten zur Verwaltung der Privatsphäre. Integratoren können benutzerseitige Benutzeroberflächen erstellen, die es den Benutzern ermöglichen, ihr Profil zu verwalten, einschließlich der Art und Weise, wie sie verfolgt werden, welche Daten gesammelt wurden, und sogar zuvor gesammelte Daten oder zukünftige Daten zu anonymisieren!

Das System kann hier heruntergeladen werden.

Einen interessanten Artikel finden Sie hier.

Eine CDP-Lösung, die Teil einer umfassenden Open-Source-Lösung für das Produkt- und Benutzerdatenmanagement ist, ist Pimcore CDP. Kunden nutzen Pimcore als webbasierte Digital Asset Management-Lösung. Dank seiner APIs können Kunden es auch in beliebige andere Drittsysteme integrieren.

Pimcore CDP kann verwendet werden, um personalisierte Erlebnisse für Nutzer zu entwickeln, indem automatisierte Workflows erstellt werden, die durch ihre Daten ausgelöst werden. Auf diese Weise können die Kunden sicherstellen, dass sie den Nutzern personalisierte Inhalte auf der Grundlage der von CDP gesammelten Daten anzeigen.

Es kombiniert und summiert Kundenaktivitäten aus verschiedenen Quellsystemen, um eine saubere, einheitliche und kohärente Sicht auf jeden Kunden zu erhalten. Durch die Kombination dieser beiden Funktionen können Sie Kundendaten und Benutzerprofile aggregieren, die Informationen erweitern, soziale Profile verbinden, Zielgruppensegmente erstellen, Ereignisse aktivieren, das Kundenerlebnis personalisieren und vieles mehr.

Pimcore ermöglicht es Ihnen, das Kundenverhalten über verschiedene Quellsysteme hinweg zu verknüpfen und so ein sauberes, konsistentes und einheitliches Mapping jedes einzelnen Kunden zu erstellen. Benutzerprofile können kombiniert und mit Informationen angereichert werden. Benutzer können mit Social-Media-Konten verbunden werden. Zielgruppensegmente und Trigger-Ereignisse sind ebenso möglich wie die Anpassung der Kundenerfahrung.

Demos des Systems können hier eingesehen werden.

Eine Youtube-Präsentation finden sie hier.

Innerhalb der Piwik PRO Produkte ist das CDP ein Add-on zur Webanalyse-Suite. Kunden nutzen Piwik PRO, um die Website-Nutzung zu messen, die normalerweise in Konversionen, Traffic-Quellen oder Website-Navigation kategorisiert wird.

Piwik PRO CDP ermöglicht es Ihnen, mehrere rohe Logdateien aus verschiedenen Quellen in einer einzigen Ansicht zusammenzufassen. Kunden können Rohdaten auch anonymisieren, bevor sie sie in das System einspeisen. Kunden können verschiedene Abgleichsregeln verwenden, um Kunden-IDs über verschiedene Quellsysteme hinweg abzubilden oder um Besucher beispielsweise anhand ihrer E-Mail-Adressen zu identifizieren.

Die Daten können über eine REST-API-Schnittstelle exportiert werden. Kunden können die Daten auch nutzen, um Anwendungen wie Daten-Dashboards zu entwickeln.

Informationen und eine Demo finden Sie unter https://www.506.ai/506_analytics_platform_uebersicht/.

Ein weit verbreiteter kommerzieller CDP-Anbieter ist Segment. Segment bietet Kunden die Möglichkeit, ihre Datenquellen einfach zu verbinden und intelligente kanalübergreifende Erfahrungen zu schaffen, ohne komplexe Integrationsworkflows entwickeln zu müssen. Kunden können die One-Stop-Lösung von Segment nutzen, um Kundenprofile mit jedem Drittanbieter-Tool abzuleiten, einschließlich Google Analytics, Salesforce, Marketo, Mailchimp, Stripe, Zendesk und den meisten CRMs. Kunden können Segment auch nutzen, um Events zu versenden und das Nutzerverhalten in Echtzeit zu verfolgen.

Um dies zu ermöglichen, verknüpft Segment alle Ihre Datenquellen mit einer einzigen Code-Basis über sein Software Development Kit (SDKs). Kunden erhalten eine einheitliche Sicht auf den Kunden, die über das Segment-Webinterface oder die API verwaltet wird. Kunden können ihre E-Commerce-Daten auch mit Google Analytics verknüpfen, benutzerdefinierte Berichte und Dashboards erstellen und wertvolle Einblicke in die Leistung ihrer Marketingkampagnen gewinnen, während diese laufen.

Segment bietet Unterstützung für alle wichtigen Programmiersprachen, einschließlich Ruby on Rails, Python, PHP, Node.js, iOS, Android, .NET C#/.NET Visual Basic und Java. Kunden können über eine einfach zu bedienende Schnittstelle Kundenprofile in Echtzeit erstellen und teilen.

Weitere Informationen über Segment finden Sie unter https://segment.com/.

Fazit

Der Markt für CDP-Systeme ist sehr vielfältig und dynamisch. Es ist zu erwarten, dass es in den nächsten Jahren zu einer Marktbereinigung kommen wird. Sie können die Informationen hier als schnellen Leitfaden verwenden.

506 Data & Performance GmbH

506 ist ein führendes, oberösterreichisches Marketing-Data-Science-Unternehmen. Schwerpunkt ist die Analyse, Segmentierung und die Aktivierung von digitalen Besucher- und Kundendaten. Mit der KI-basierten 506 Analytics Platform und der umfassenden Marketing- und Data-Science-Expertise werden die Daten der Kunden in nachhaltigen Geschäftserfolg verwandelt.

DOWNLOAD PRESSEMITTEILUNG

Bild: (c) 506 Data & Performance GmbH – Gerhard Kürner, CEO bei 506 Data & Performance GmbH

Bei Rückfragen an 506

Gerhard Kürner
Geschäftsführer
506 Data & Performance GmbH
Mobil: +43 650 4466777
Email: gerhard@506.ai

Daten werden in immer größerer Menge durch neuartige Medien generiert. Daten werden auch nicht mehr nur von Menschen, sondern auch von Maschinen und Algorithmen erzeugt. Dies ist besonders in der Online-Welt relevant, wo datengesteuerte Geschäftsprozesse zur Norm geworden sind.

Bildquelle: www.pexels.com

Data Science nutzt wissenschaftliche Methoden, um in einem iterativen Prozess, der Daten, Tools und Erfahrung umfasst, Wissen aus Daten zu gewinnen. Data Science bietet eine Grundlage für die Entscheidungsfindung, wenn Sie sich auf unvollständige oder verzerrte Informationen über Ihre Kunden stützen oder wenn Sie mit Unsicherheiten umgehen müssen. Data Science formt Big Data so, dass Sie schneller als je zuvor fundierte Entscheidungen treffen können mit der Geschwindigkeit des Denkens.

Betrachten wir zunächst typische Fragen des Online-Marketing aus der Sicht eines Datenwissenschafters.

Kundensegmentierung

Für den Online-Marketer geht es darum, Gruppen von Kunden oder Interessenten zu finden, die einander ähnlich sind und sich von anderen Gruppen unterscheiden. Diese sollten dann gezielt angesprochen werden, um die größtmögliche Wirkung zu erzielen. Data Science bietet die Möglichkeit, bestimmte Merkmale oder Variablen zu definieren, die eine Grundlage für diese Kundensegmentierung bilden. Data Scientists finden die Variablen, welche die verschiedenen Gruppen am besten beschreiben. Data Scientists können zum Beispiel feststellen, ob bestimmte Website-Attribute wie Produktkategorie oder Marke als Schlüsselvariablen für die Definition von Segmenten auf der Grundlage des Kaufverhaltens verwendet werden können.

Bildquelle: Andreas Stöckl

Lead Scoring

Hier geht es darum, Werte für potenzielle Kunden zu prognostizieren, die eine gezielte Ansprache ermöglichen. Mit Hilfe von Data-Science-Methoden werden Schlüsselvariablen (wie z. B. das Kaufverhalten) ermittelt, die kombiniert werden können, um die Wahrscheinlichkeit einer Reaktion oder eines Erfolgs vorherzusagen, wenn Sie versuchen, diese Kunden zu erreichen. Data Scientists verwenden in diesem Prozess, der als prädiktive Analyse bezeichnet wird, die Auswahl von Variablen und algorithmische Modellierung. Data Scientists kombinieren dann ihre Ergebnisse mit Data Mining, um Toolsets zu entwickeln, die es den Entscheidungsträgern ermöglichen, bessere Entscheidungen zu treffen.

Recommendation Engines

Hierbei handelt es sich um Data-Science-Lösungen, die von Online-Vermarktern für Produktempfehlungen auf der Grundlage von Kundenverhalten, Kaufhistorie, Markenkategorisierung, Suchanfragen auf der Website usw. verwendet werden. Das Ziel dieses Data-Science-Problems ist es, einem bestimmten Kunden auf einer Website das richtige Produkt zur richtigen Zeit zu präsentieren.

Es gibt verschiedene Ansätze, die entweder auf dem Verhalten der Nutzer oder dem Inhalt der Produkte basieren. In beiden Fällen setzen Data Scientists Data-Mining-Techniken ein, um die Produkte so zu kategorisieren, dass ihre Präsentation erleichtert wird. Data-Science-Methoden werden auch eingesetzt, um den besten Scoring-Ansatz für Empfehlungen auf der Grundlage des Kundenverhaltens oder der Ähnlichkeit der Inhalte zu ermitteln.

Kundentreue und Abwanderungsquote

Hier wird mit Hilfe von Algorithmen vorherzusagen versucht, welche Kunden verloren gehen könnten, um der Abwanderung entgegenzuwirken. Dies ist besonders für Geschäftsmodelle mit Abonnements oder laufenden Verträgen wichtig. Data Scientists setzen Data-Mining-Techniken ein, um die Faktoren zu ermitteln, welche die Abwanderungswahrscheinlichkeit eines Kunden vorhersagen können. Data Scientists entwickeln auch Data-Science-Lösungen, um abwanderungsgefährdete Kunden zu identifizieren, damit Sie sie mit Angeboten oder Anreizen ansprechen können, um zu versuchen, sie umzustimmen, bevor es zu spät ist.

Bildquelle: Andreas Stöckl

Kanaloptimierung und Budgetoptimierung

Um bestimmen zu können, wo es sich lohnt, Werbegelder auszugeben, werden Leistungsindikatoren als Grundlage verwendet. Mit Hilfe von Data Science lassen sich Algorithmen entwickeln, die automatisch entscheiden, ob der ROI einer Kampagne positiv oder negativ ist. Data Scientists nutzen in diesem Prozess Data-Mining-Techniken, um die Kombination von Kanälen zu finden, welche die beste Kapitalrendite erzielen. Data Scientists bestimmen auch, welche Budgets den einzelnen Kanälen zugewiesen werden sollten, damit Sie Ihre Ausgaben maximieren können, ohne Geld zu verschwenden.

Attributionsmodelle

Data Science wird eingesetzt, um zu ermitteln, welche Kundenkontaktpunkte am erfolgreichsten sind, um Konversionen zu erzielen. Data Scientists verwenden Data-Mining-Technologien, die den Weg des Kunden verfolgen, z. B. wie Kunden ein Produkt online recherchieren, bevor sie es offline kaufen oder ein Geschäft besuchen. Data Scientists nutzen Data-Mining- und Data-Science-Toolsets, um die wichtigsten sowie die weniger effektiven Touchpoints zu ermitteln.

Stimmungsanalyse von Produktbewertungen

Hier verwenden Data Scientists Data Mining, um festzustellen, ob ein Produkt von Kunden positiv oder negativ bewertet wird. Data Scientists definieren dann Datenprodukte, die Data-Governance-Teams verwenden können, um die Gesamtbewertung des Produkts zu analysieren und mögliche Ursachen für negative Bewertungen zu verstehen.

Preisgestaltung für Produkte

Bei der Anwendung von Data Science werden die Preise für Online-Produkte auf der individuellen Ebene optimiert. Data Scientists nutzen Data Mining, Data Science und Data Products, um den besten Preis für jedes Produkt oder Kundensegment zu ermitteln. Data Scientists entwickeln auch Data-Science-Lösungen, um Preisschwankungen auf Ihrer Website automatisch zu scannen, damit Sie bei Bedarf schnell reagieren können.

 

Die Quintessenz all dieser Anwendungen ist, dass Data Science ein Mittel ist, um typische Probleme des Online-Marketing zu lösen. Diese Data-Science-Probleme erfordern in der Regel, dass Data Scientists Data-Mining- und Data-Product-Management-Toolsets verwenden. Eine wesentliche Voraussetzung für die Lösung all dieser Fragen ist die Verfügbarkeit der notwendigen Daten für die Analyse. Diese Daten werden in der Regel in einer Datenbank gesammelt.

Kundendatenplattformen

Diese Datenbanken enthalten die Daten für das Verständnis des Kundenverhaltens, z. B. auf der Website, in der Purchase Journey und über verschiedene Touchpoints hinweg. Data Scientists können Data-Mining-Aktivitäten durchführen, um verborgene Muster im Kundenverhalten aufzudecken (einschließlich prädiktiver Analysen), die Marketern helfen, Personalisierungsrichtlinien zu definieren.

In einem zukünftigen Artikel werden wir zeigen, wie Kundendatenplattformen funktionieren und wie sie implementiert werden können.

Was ist die Motivation für das Projekt 506 SATURN?

Das durch die aws geförderte Projekt ist eine durch Künstliche Intelligenz gestützte Software-as-a-Service-Lösung für Marketing-, Service- und Prozessoptimierung. Mit unserer KI-basierten SaaS-Lösung 506 SATURN wollen wir E-Commerce-Unternehmen im D-A-CH-Raum dabei helfen, einfach und kostengünstig ihre eigenen Online-Daten zu nutzen, um die für sie am besten passenden Kundengruppen datenschutzkonform (consent-based) anhand von First Party Data zu finden und Vorschläge für die bestmögliche Aktivierung unter Berücksichtigung eigener fachspezifischer Ethik-Standards vorzulegen.

Die Triebfeder für die Produktentwicklung von 506 SATURN als ethische Marketing-KI ist es, auch eine Alternative zur am Markt dominierenden Lösung von Google Analytics zu bieten. Unternehmen wird es ermöglicht, Analysen und Marketingservices unabhängig und ethisch-sauber auch mit eigenen sog. First Party Data, also mit Daten, die von der eigenen Website stammen und über die das Unternehmen selbst die Datenhoheit hat, umsetzen zu können. „Mit unserer ethischen Marketing-KI 506 SATURN wollen wir KI-basiertes sauberes und transparentes Online Marketing forcieren.“

Worum geht es beim Projekt 506 SATURN?

Zunächst werden die Rohdaten als First Party Data von Website-Besuchern über den Analytics- und Customer-Data-Anbieter sowie First Party Data Privacy-Marktführer Piwik PRO datenschutzkonform getrackt. 506 SATURN clustert und beschreibt dann mittels Machine-Learning-Modells aus den Rohdaten von Website-Besuchen automatisierte Segmente von Userinnen und Usern gleichen Verhaltens. Der Ansatz von 506 SATURN geht jedoch über sonst übliche UserInnen-Segmentierungen mittels Clusterverfahren hinaus, da er auch eine Interpretation der Cluster bietet, und zwar unter Einsatz eines ML-Verfahrens, das aus der Struktur der Daten lernt.

Um die gefundenen Segmente transparent zu beschreiben, analysiert und bewertet 506 SATURN das Bewegungsverhalten von anonymen und bekannten Besuchern und analysiert die betrachteten Inhalte. Daraus berechnet 506 SATURN einen Vorschlag über eine mögliche Zielgruppe und deren Interessen. Diese Segmente können dann passgenau unter Einhaltung ethischer Standards und der DSGVO mit Informationen bespielt werden.

Abbildung: Eigene Darstellung von 506

Wie nähern wir uns dem Ethik-Thema?

506 hat fachspezifische eigene Ethik-Guidelines entwickelt, die als Rahmen für die gesamte Projektabwicklung fungieren. Dabei wurden neben den geltenden relevanten Normen vor allem im Bereich Datenschutz-Grundverordnung, aber auch auf die Ethik-Leitlinien der hochrangigen Expertengruppe für Künstliche Intelligenz, eingesetzt von der Europäischen Kommission, Bezug genommen. Zudem wurden auch schon die maßgeblichen fachspezifischen Aspekte aus dem Entwurf eines KI-Gesetzes von der Europäischen Kommission vom 21. April 2021 antizipiert.

Aber auch der Ethik-Kodex der österreichischen Werbewirtschaft fungiert als wichtiger inhaltlicher Orientierungsrahmen der facheinschlägigen 506-Ethik-Guidelines für das Projekt 506 SATURN. Die Ethik-Guidelines fließen dabei in die Entwicklung, Anwendung und das Design des Projekts mit ein. „Ziel ist es dabei, dass UserInnen Vertrauen in unsere KI-basierte SaaS-Lösung mittels ,Trust by Design‘ entwickeln können.“

Die Rechtsgrundlage für die Verarbeitung der Daten der UserInnen ist die Einwilligung gemäß Art. 6 Abs. 1. lit. a DSGVO, welche die UserInnen bei Website-Besuchen mit der Abfrage über Cookie-Consent-Tools erteilen. Die Daten werden im Zuge der Segmentierung anonymisiert und unterliegen nicht den Bestimmungen der DSGVO.

Vor allem, dass der Mensch als „Human-in-the-Loop“ bei der Bewertung und Nutzung der automatisierten Beschreibung der von der KI identifizierten Segmente die Kontrolle hat, wird bei der Entwicklung von 506 SATURN von großer Bedeutung sein.

Interdisziplinäres Team und Forschungskooperation

Als Teil des Ansatzes zur Umsetzung von „Trust by Design“ wurde auf ein interdisziplinäres Team gesetzt, bestehend aus ExpertInnen in den Bereichen KI, Nachhaltigkeit und Digitales Marketing: Teil des Teams zur Entwicklung von 506 SATURN sind unter anderem der Technische Projektleiter KI-Experte Prof. Dr. (FH) Andreas Stöckl und Online Marketing Experte und CEO von 506 Gerhard Kürner.

Die FH OÖ Campus Hagenberg – Forschungsgruppe AIST ist im Forschungsbereich der wichtigste Kooperationspartner.

Kooperationsmöglichkeiten für weitere Testcases

Bisher konnten schon 3 Kooperationspartner in den unterschiedlichsten E-Commerce-Branchen als Testcases gewonnen werden. Da sich der Projektzeitraum von Juli 2021 bis Ende Februar 2022 erstreckt, können noch weitere interessierte E-Commerce-Unternehmen als Testcases von den Vorteilen des Projekts profitieren – allem voran mehr Customer-Insights über das Segmentierungsverfahren zu generieren. Die Go-to-Market-Strategie sieht so aus, dass die fertige SaaS-Lösung als Lizenzmodell mit Q2/2022 auf den Markt kommt. Bis Ende Q1 können wir im Beta-Test noch kostenlose „Friendly-User-Lösungen“ anbieten. „Wenn es interessierte E-Commerce-Unternehmen gibt, die sich als weitere Testcases am Projekt beteiligen wollen, freuen wir uns über eine Kontaktaufnahme.“

„Mit unserer ethischen Marketing-KI 506 SATURN wollen wir KI-basiertes sauberes und transparentes Online Marketing forcieren.“

Heidrun Mühle

Projektleitung 506 SATURN

Fazit

Durch unsere KI-SaaS-Lösung 506 SATURN wollen wir einen Beitrag dazu leisten, dem zunehmenden Anspruch an sauberes und transparentes Online Marketing in Zukunft besser gerecht zu werden. Dazu appellieren wir an alle interessierten E-Commerce-Unternehmen, die als Testcase bei der Erforschung einer ethisch agierenden Marketing-KI mitmachen wollen, bis spätestens Ende Q4/2021 mit uns Kontakt aufzunehmen.

Quellen und weiterführende Links:

Datenschutzgrundverordnung

Ethik-Guidelines für vertrauenswürdige KI der hochrangigen von der EK eingesetzten Expertengruppe

Entwurf eines KI-Gesetzes von der Europäischen Kommission vom 21. April 2021

Ethik-Kodex der österreichischen Werbewirtschaft

www.aws.at/service/cases/gefoerderte-projekte-auswahl/digitalisierung/506-data-performa nce/

www.506.ai/produkte/506-saturn

In einem früheren Blogbeitrag (http://www.stoeckl.ai/werden-softwareentwickler-durch-ai-software-ersetzt/) habe ich auch bereits darüber geschrieben, und die Frage aufgeworfen, ob es in Zukunft Programmierer (teilweise) ersetzen wird.

Ich habe nun im Bereich von Analysen im Data Science Bereich ein konkretes Experiment gemacht, um zu testen, ob hier ein Einsatz möglich ist. Die Aufgabe war dabei keinen Programmcode zu schreiben, um die Aufgaben zu erledigen, sondern Anweisungen in Englischer Sprache zu geben. Das Codex System musste das in Programmcode übersetzen, der dann ausgeführt wurde.

Ein Beispiel für eine Aufgabe:

So eine Anweisung an das Codex System sah dann zum Beispiel so aus:

“Load the gensim package make a corpus of documents from the column ‘text’ of the dataframe, and a dictionary from the tokenized documents and train a LDA model on it.”

Das ergab dann zum Beispiel folgenden Programmcode in der Sprache Python:

import gensim

from gensim import corpora, models

# Tokenize the documents

tokenized_docs = [doc.split() for doc in df['text']]

# Create a dictionary from the tokenized documents

dictionary = corpora.Dictionary(tokenized_docs)

# Create a corpus from the tokenized documents

corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]

# Train the LDA model

lda_model = models.LdaModel(corpus, num_topics=10, id2word=dictionary, passes=10)

# Print the top terms for each topic

for idx, topic in lda_model.print_topics(-1):

    print('Topic: {} nWords: {}'.format(idx, topic))

Diese Anweisungen führen hier zum Beispiel eine sogenanne Topicanalyse auf Textdokumenten durch. Das Programm läuft korrekt und erledigt die Aufgabe. Details zum Experiment können Sie in meinem Artikel nachlesen.

Oberfläche OpenAI Codex (Quelle: https://openai.com/blog/openai-codex/)

Was habe ich dabei gelernt?

Die Anweisungen müssen den Prozess, der als Code generiert werden soll, genau beschreiben. Dies erfordert etwas Experimentierfreude und nicht weniger Know-how als das Schreiben des Codes von Hand. Der Hauptvorteil liegt darin, dass man nicht alle Details der Syntax kennen muss und sich damit einige Zeit erspart.

Zudem muss die Eingabeaufforderung sehr sorgfältig gewählt werden. Manchmal führen kleine Änderungen in der Eingabeaufforderung zu nicht nachvollziehbaren Änderungen im Ergebnis. 

Außerdem ist es sehr wichtig, dass die Algorithmen vom Autor beherrscht werden, und auch die benötigten Programmpakete müssen dabei bekannt sein. Das Sprachmodell macht in etwa das Gleiche, als wenn man die richtige Texteingabe in der Google-Suche verwendet, die gefundenen Ergebnisse von Stackoverflow nimmt und die Codeschnipsel zusammensetzt. Allerdings auf eine schnellere und komfortablere Art und Weise.

Das Grundprinzip ist einfach

Der renommierte Informatiker und Turing Prize Gewinner Judea Pearl hat einmal mit dem etwas überspitzt formulierten Zitat:

“Machine Learning is just glorified ‘curve fitting’ ”

versucht auszudrücken, dass die Mechanismen hinter dem Bereich Machine Learning in der Künstlichen Intelligenz, von dem Deep Learning ein Teilbereich ist, sehr einfach sind, aber üblicherweise glorifiziert werden. Er unterstreicht damit, dass hinter den gängigen Techniken vieler Deep Learning Anwendungen – zum Beispiel bei der Bilderkennung oder Sprachverarbeitung – dieselben Prinzipien wie bei der einfachen Aufgabe, eine Kurve durch eine gegebene Menge von Datenpunkten zu legen, steckten. Schon an dieser sehr einfachen Karikatur von Machine Learning Lösungen lassen sich aber nicht nur deren Grundprinzipien erkennen, sondern auch typische Gefahren im Umgang mit dieser Technologie diskutieren und erkennen.

In meinem Artikel unter https://towardsdatascience.com/watching-machine-learning-models-fitting-a-curve-c594fec4bbdb habe ich versucht dies mit Hilfe von Bildern und Animationen zu verdeutlichen.

Gefahr der Überanpassung

Die wichtigste Gefahr, die auch hier versucht wird aufzuzeigen, ist das sogenannte “Overfitting”, das man am besten mit Überanpassung übersetzen würde. Hier sieht eine KI-Anwendung in den Daten, die zur Erstellung des Modells verwendet werden, mehr Muster und Strukturen, als eigentlich in den Daten enthalten sind.  Dadurch entstehen dann Systeme, die schlecht generalisieren, d.h. neue Situationen schlecht erklären und falsche Entscheidungen treffen.

Zu viele Muster zu sehen ist nicht nur eine Eigenschaft von KI-Systemen, sondern auch eine sehr menschliche Schwäche. Unser Wahrnehmungsapparat, der zum Beispiel darauf trainiert ist, Gesichter zu erkennen, gaukelt uns auch in vielen anderen Objekten vor ein Gesicht zu sehen. Das bekannteste Beispiel ist der  sogenannte “Mann im Mond” (https://de.wikipedia.org/wiki/Mann_im_Mond),  aber auch sonst gibt es viele solcher Beispiele – etwa in folgendem Bild, das uns im Hamburger ein Gesicht erkennen lässt.

Was grenzt Deep Learning von anderen Machine Learning Techniken ab?

Die beschriebenen Prinzipien und Gefahren gelten für Machine Learning im Allgemeinen, aber besonders für das Teilgebiet Deep Learning, da hier sehr umfangreiche Modelle eingesetzt werden, die zwar einerseits komplexere Aufgaben lösen können, aber auch mehr zur Überanpassung neigen. Das “Deep” im Namen leitet sich dabei von der Tiefe der Modelle in dem Sinne ab, dass die hier üblicherweise verwendeten Neuronalen Netze (https://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz) aus vielen Schichten bestehen, also in diesem Sinne tief sind.

Fazit

Deep Learning ist zwar nicht erst in den letzten Jahren entstanden, aber durch die Erfolge, die auf dieser Technik basierende Anwendungen in den letzten Jahren erzielt haben, ist es in unseren Alltag eingedrungen – dies einerseits als Technologie, die beispielsweise unser Handy durch Gesichtserkennung entsperrt, aber auch als “Buzzword”, das zahlreiche Produkte, teils zu recht und teils zu unrecht, ziert.

Ein Beispiel

Ein typisches Beispiel, das zeigt, was möglich ist, ist ein Video einer Obama-Rede, die dieser nie wirklich gehalten hat.

Quelle: https://ars.electronica.art/center/de/obama-deep-fake/

Gerade wurde mit www.nuis.tv ein neuer Dienst angekündigt, der Newstexte automatisch mit KI-Unterstützung in Videobeiträge konvertiert. Dies soll dazu dienen, dass User auf einem Smartphone aktuelle Nachrichtenbeiträge nicht mehr lesen müssen, sondern sich diese von einem Nachrichtensprecher präsentieren lassen können.

Um derartiges umsetzen zu können, ist es nicht nur nötig Bilder von Personen künstlich zu erzeugen, sondern auch, diese die Nachrichten vorlesen zu lassen. Die dafür nötigen Technologien zur Verwandlung von Text in Sprache und Lippensynchronisation existieren bereits.

In diesem Blogbeitrag möchte ich zeigen, wie solche digitalen Inhalte erzeugt werden können. Dabei kommen neueste Arbeiten aus der Forschung der Künstlichen Intelligenz  zum Einsatz.

Schritt 1) Bild- oder Videomaterial auswählen oder künstlich erzeugen

Für diesen Schritt kann ein Foto oder Video einer Person ausgewählt oder auch künstlich geschaffen werden, die die Aussage tätigen soll. Die Website https://thispersondoesnotexist.com/ erzeugt Fotos von Personen, die nie existiert haben und vermutlich auch nie existieren werden.

(Fake Bild erzeugt mit StyleGAN2. Quelle: www.thispersondoesnotexist.com)

Die Methoden dahinter sind in einer wissenschaftlichen Arbeit (https://arxiv.org/abs/1912.04958) veröffentlicht, und in einem Video (https://www.youtube.com/watch?v=SWoravHhsUU) beschrieben.

Schritt 2) Text der Nachricht schreiben oder generieren lassen

Kommen wir nun zum Erzeugen von Textnachrichten. Die Website https://bellard.org/textsynth/ bietet eine Implementierung des “GPT2 Sprachmodells” von OpenAI (https://openai.com/blog/better-language-models/).  Dieses kann genutzt werden, um ausgehend von einem Stück Text diesen weiter fortzusetzen.

Ein Beispiel:

Der folgende Satz aus der New York Times wurde als Start vorgegeben.

“But despite the large drop in new infections since early this year, the U.S. death rate remains at nearly 1,500 people every day.”

Die Story wurde wie folgt fortgesetzt:

“The CDC estimates that 1.6 million Americans die annually from infections linked to SARS. The virus causes fever, respiratory illness, weakness and confusion. It can cause diarrhea, kidney and liver failure and is believed to have caused more than 300,000 deaths worldwide. The Ebola outbreak is the most severe since the devastating 1976 SARS outbreak that killed at least 15,000 people.”

Die Story liest sich wie ein echter Newsbeitrag, jedoch entsprechen die Fakten nicht der Realität. Dies zeigt, dass Fact-Checking Techniken  immer bedeutender werden. Nur weil etwas echt klingt, bedeutet das nicht, dass der Inhalt echt bzw. korrekt ist.

“Ich hab es mit eigenen Augen gesehen” kann in der heutigen digitalen Zeit kaum mehr als stichhaltiges Argument gelten.

Andreas Stöckl

HEAD OF CUSTOMER DATA MANAGEMENT

Schritt 3) Erzeugung der Audioaufnahme aus dem Text

Möchte man den Text nun von der Person gesprochen haben, benötigt man eine Tondatei mit der Rede – aber nicht nur mit irgendeiner Stimme gesprochen, sondern mit der Stimme der gewünschten Person. Dies leistet das  NVIDIA’s Flowtron Model (https://github.com/NVIDIA/flowtron). Es generiert gesprochene Texte, die kaum von echten zu unterscheiden sind. Hier kann die Stimme des Sprechers durch ein Muster vorgegeben werden.

Schritt 4) Erzeugung des lippensynchronen Videos

Mit Wav2Lip (https://github.com/Rudrabha/Wav2Lip) kann schließlich auch das Problem der Lippensynchronisation gelöst werden. Die Software generiert realistische, sprechende Gesichter für jede menschliche Sprach- und Gesichtsidentität.

Das Video https://www.youtube.com/watch?v=0fXaDCZNOJc zeigt die Resultate des Verfahrens.

Fazit

Kombiniert man nun all diese Technologien, so erhält man ein System, das nicht nur einen Text nach Vorgaben erfindet, sondern diesen auch von einer beliebigen Person (real oder erfunden) als Video aufsagen lässt. Das zeigt, dass man sich nicht mehr sicher sein kann, ob ein Video, das man auf Social Media gesehen hat und in dem eine Person eine Aussage tätigt, nicht vollständig erfunden ist.

Über diesen Blog

Hallo, mein Name ist Christian und du siehst hier das Tutorial Template aus dem Wordpress Template Tutorial auf Lernen²

Kategorien

Archiv