Die Aufgabe

Aus den Daten, die ein potenzieller Kunde (ein “Lead") auf einer Website hinterlässt, lassen sich wichtige Erkenntnisse über das Verbraucherverhalten gewinnen. Mithilfe des maschinellen Lernens wird dann aus diesen Informationen ein Vorhersagemodell erstellt. Die Erfolgsquote eines Vorhersagemodells liegt in diesem Beispiel bei 90%.

Ein Bildungsunternehmen kann zum Beispiel Online-Kurse für Fachleute anbieten. Dank der Marketingaktivitäten besuchen täglich viele Interessierte die Website des Unternehmens. Auf diese Weise werden über Social-Media-Plattformen, Websites oder Suchmaschinen wie Google neue Interessenten angelockt.

Nachdem sie auf die Website gelangt sind, sehen sie sich vielleicht Kurse an, füllen ein Formular aus oder sehen sich einige Videos an. Wenn sie die Website verlassen, ohne diese wichtige Aktivität abgeschlossen zu haben, werden sie umgeleitet und zur Konversion gedrängt. Wenn Personen ein Formular ausfüllen und ihre E-Mail-Adresse oder Telefonnummer angeben, werden sie als potenzielle Kunden eingestuft.

Die Vertriebsmitarbeiter beginnen mit Anrufen, dem Versenden von E-Mails usw., sobald sie diese Leads erworben haben. Einige der Leads werden umgewandelt, während die meisten nicht durch dieses Verfahren umgewandelt werden. Eine typische Konvertierungsrate für Leads liegt bei etwa 30 %.

Wenn zum Beispiel an einem Tag 100 Leads gesammelt werden, werden nur etwa 30 davon umgewandelt. Das Unternehmen möchte im Rahmen dieses Prozesses “heiße Leads" oder potenzielle Leads finden, um ihn effizienter zu gestalten. Wenn es gelingt, diese Leads zu finden, sollte die Konversionsrate steigen. Denn das Vertriebsteam ist nun mehr daran interessiert, mit potenziellen Kunden ins Gespräch zu kommen, anstatt jeden einzelnen anzurufen. Dies verbessert nicht nur den Verkaufsprozess, indem es ihn beschleunigt und seine Effizienz erhöht, sondern senkt auch die Personalkosten.

Es liegt in unserer Verantwortung, ein System zu entwickeln, in dem jeder Lead einen Lead-Score hat. Kunden mit einem höheren Lead-Score haben eine größere Chance auf eine Konversion, Kunden mit einem niedrigeren Lead-Score haben eine geringere Chance auf eine Konversion.

Der Datensatz von Kaggle

Wir verwenden in dieser Demo Daten von Kaggle. Kaggle ist eine Gemeinschaft von Data Scientists und Data Analysts, die an Data-Science-Problemen arbeiten. Die Teilnehmer posten Data-Science-Probleme, die sie von Data-Analysten und Data-Scientists lösen lassen möchten. Diese Data-Science-Probleme enthalten oft einen Datensatz. Kaggle ist ein hervorragender Ort, um mit dem Aufbau von Data Science-Fähigkeiten zu beginnen und Data Science-Probleme zu entdecken, an deren Lösung Sie interessiert sein könnten. 

Der Datensatz enthält die folgenden Informationen:

  • Wenn die Anfragen in zahlende Kunden umgewandelt werden, werden sie als “konvertiert" gekennzeichnet.
  • Die zweite Art von Daten sind Verhaltensdaten. Dazu gehören Informationen über das Verhalten des Besuchers auf der Website, z.B. wie lange er sich dort aufgehalten hat, welches Material er sich angesehen hat usw.
  • In Webformularen bereitgestellte Informationen
  • Wie ist der Nutzer auf Ihre Website gekommen (Suchmaschine, Empfehlung oder direkt)

Im Folgenden finden Sie einen Auszug aus den Daten. Es gibt 9240 Datensätze mit 37 Merkmalen für Personen. Jeder Lead hat seinen eigenen Satz von Merkmalen. Es gibt numerische Merkmale, wie z.B. die Verweildauer auf der Website, aber auch viele kategorische Merkmale, wie z.B. demografische Informationen und Informationen aus Webformularen.

Bereinigung der Daten

In diesem Fall sind fehlende Daten ein Problem, das angegangen werden muss. Es ist keine gute Idee, alle unvollständigen Datensätze zu entfernen, da zu viele Datensätze gelöscht würden. Eine gründliche Untersuchung ist erforderlich. Datenanalysten verwenden in dieser Phase von Data Science-Projekten häufig Tools zur Bewertung der Datenqualität, um ihre Arbeit zu erleichtern und weniger zeitaufwändig zu gestalten.

Wir werden also Merkmale mit mehr als 40 % fehlenden Werten entfernen, da es an dieser Stelle nicht viel zu analysieren gibt. Bei Merkmalen mit weniger fehlenden Daten werden diese durch den dominanten Wert des Merkmals ersetzt.

Für viele Spalten des Datensatzes gibt es “Auswahl"-Werte. Diese Werte wurden von den Kunden bei der Eingabe angegeben, wenn sie keinen Wert aus der Liste im Formular auswählten (es könnte sein, dass dies keine Pflichtangabe war). In diesem Beispiel erscheint “Auswählen" im Datensatz. Da “Select"-Werte so gut wie NULLs sind, werden sie durch NULLs ersetzt.

Kaggle hat eine ausführliche Anleitung dazu. https://www.kaggle.com/danofer/lead-scoring erklärt detailliert, wie man diese Schritte durchführt.

Wir haben festgestellt, dass viele Merkmale keine Informationen zum Modell beitragen, also haben wir sie von der weiteren Untersuchung ausgeschlossen. Der Datensatz umfasst 16 Merkmale.

"Datenvisualisierung ist der beste Freund eines Datenwissenschaftlers, und Tableau ist eines der von Datenwissenschaftlern am häufigsten verwendeten Tools zur Datenvisualisierung."

PROF. (FH) DR. ANDREAS STÖCKL

Senior Expert Marketing Data Science

Explorative Datenanalyse mit Tableau

Tableau ist ein Tool zur Datenvisualisierung. Eine gute Datenvisualisierung ist ein wichtiger Bestandteil der Datenwissenschaft. Data Scientists verwenden die Datenvisualisierung häufig im Prozess der Modellerstellung, um zu verstehen, welche Variablen wichtig sind und wie sie zusammenarbeiten können, um gute Modelle zu erstellen. Die Datenvisualisierung ist auch eine Schlüsselkomponente für Data Science-Präsentationen. Data Scientists und Datenanalysten erstellen häufig Datenvisualisierungen und Datengeschichten, um Data Science-Ergebnisse anderen Data Scientists, Datenanalysten, Geschäftsleuten, Käufern von Datenprodukten oder -dienstleistungen und Kunden zu vermitteln.

Schauen wir uns an, wie viele Leads und Nicht-Leads es in unserer Fallstudie gibt, indem wir ein einfaches Balkendiagramm erstellen. Ziehen Sie dazu “Konvertiert" als Dimension auf “Zeilen" und die Anzahl der Leads auf “Spalten".

Das Merkmal “Konvertiert" wird auf 1 gesetzt, wenn ein Lead erfolgreich konvertiert wurde (38%), und auf 0, wenn er nicht konvertiert wurde (62%). In unseren Studien wurden 38% der Kunden akquiriert.

Schauen wir uns nun die Verteilung der Daten auf der Welt an, indem wir eine Karte mit farbigen Ländern auf der Grundlage der Anzahl der Einträge anzeigen lassen.

Dazu verwenden wir die Dimension “Land" und die Gesamtzahl der Leads zusammen mit dem entsprechenden Diagrammtyp. Tableau generiert dann Breiten- und Längengrad-Daten, die automatisch in “Zeilen" und “Spalten" in Ihrer Tabelle eingefügt werden.

Die numerischen Merkmale “Total Visits", “Total Time Spent on Website" und “Page Views Per Visit" werden nun untersucht. Zur Visualisierung der Datenverteilung werden “Box-and-Whisker"-Diagramme verwendet.

Die durchschnittliche Anzahl der Besuche auf der Website für konvertierte und nicht konvertierte Leads ist identisch. Aus der Gesamtzahl der Besuche kann keine endgültige Schlussfolgerung gezogen werden.

Je mehr Zeit Sie auf der Website verbringen, desto wahrscheinlicher ist es, dass Sie konvertieren. Am besten ist es, Verbesserungen an der Website vorzunehmen, um sie für die Besucher einfacher zu machen und ihr Interesse zu wecken.

Konversions- und Nicht-Konversions-Leads haben die gleiche Anzahl von Seitenaufrufen pro Besuch. Aus der Statistik lässt sich nicht ableiten, dass konvertierte Leads im Durchschnitt mehr Seitenaufrufe haben als nicht konvertierte Leads.

Nun betrachten wir kategoriale Merkmale. Data Scientists achten oft darauf, wie viele eindeutige Werte oder Kategorien in einem Datensatz vorhanden sind. Data Scientists suchen auch nach Kategorien mit sehr niedrigen Werten.

Aus welcher Quelle wurde der Lead generiert?

Ein Barchart mit zwei Dimensionen (Lead Origin und Converted) wird verwendet, um die Anzahl der Leads anzuzeigen.

  • Das “Lead Add Form" hat eine fantastische Konversionsrate, aber die Anzahl der generierten Leads ist nicht sehr hoch.
  • Die Anzahl der Leads, die durch die Integrationen “API" und “Landing Page Submission" generiert werden, ist deutlich höher.
  • Lead Import" generiert sehr wenige Leads

Um die gesamte Lead-Konversionsrate zu verbessern, sollten wir uns mehr darauf konzentrieren, die Rate der Leads zu erhöhen, die aus der API- und Landing Page-Übermittlung stammen, und zusätzliche Leads über das Lead-Add-Formular zu generieren.

Schauen wir uns nun die Funktion an, ob Nutzer per E-Mail kontaktiert werden möchten.

Wir sehen, dass diejenigen, die keine E-Mails erhalten wollen, eine schlechte Konversionsrate haben.

Schauen wir uns als letztes Beispiel die letzte Aktivität der Nutzer an.

Die Mehrheit der Leads hat als letzte Aktion ihre E-Mail geöffnet. Bei Leads, die dies als ihre letzte Aktion angegeben haben, hat “SMS Sent” eine hohe Konversionsrate.

Vorhersagemodell

Wir konstruieren nun ein Modell, das vorhersagt, ob jeder Lead in dem betrachteten Zeitraum in Zukunft konvertieren wird. Die Grundlage für dieses Modell sind die Daten aus der Vergangenheit, die wir im letzten Abschnitt betrachtet haben. Diese enthalten die Informationen darüber, ob ein Lead konvertiert wurde oder nicht, sodass wir mit überwachtem Lernen arbeiten können.

Überwachtes Lernen ist eine Technik der Datenwissenschaft, die aus Beispieldaten mit Kennzeichnungen eine Vorhersage erstellt. Der Data Scientist verwendet die Daten, um ein Modell zu erstellen, das Vorhersagen für ungesehene oder Testmuster erstellen kann.

Der Data Scientist stellt sicher, dass das Modell genau ist und entscheidet dann, ob es eingesetzt werden soll. Zur Bewertung des Modells werden nur 70% der Daten für die Erstellung des Modells verwendet. Die verbleibenden 30% werden zum Testen des Modells verwendet, indem eine Prognose erstellt und mit den tatsächlichen Umsatzdaten verglichen wird.

Wir verwenden die Modellklasse der logistischen Regression, um ein Prognosemodell zu erstellen. Die logistische Regression ist ein statistisches Modell, das auf der Grundlage einer oder mehrerer unabhängiger Variablen vorhersagt, ob ein Ereignis eintreten wird oder nicht. In unserem Fall ist dies die Frage, ob der Vorsprung umgewandelt wurde oder nicht. Logistische Regressionsmodelle identifizieren die Variablen, die für die Vorhersage, ob ein Lead konvertiert wird, wichtig sind.

Die logistische Regression ist eine der am häufigsten verwendeten Data Science-Techniken zur Klassifizierung. Sie misst nicht, wie stark zwei Variablen miteinander verbunden sind, sondern berechnet die Wahrscheinlichkeit, dass eine abhängige Variable (in unserem Fall die Konvertierungswahrscheinlichkeit) bei bestimmten Werten für jede der unabhängigen Variablen auftritt.

Dabei handelt es sich um eine Methode zur Schätzung des Vorhersagefehlers komplexerer Modelle, bei der die Daten in Teilmengen aufgeteilt und dann separate kleinere Modelle an jede Teilmenge angepasst werden.

Das Modell hat viele Merkmale, aber viele davon sind nicht vorteilhaft für das Modell. Wir werden nun eine Merkmalsauswahl vornehmen, um uns auf die wichtigsten Merkmale zu konzentrieren.

Das allgemeine Ziel der rekursiven Merkmalseliminierung (RFE) besteht darin, die Anzahl der Merkmale zu verringern. Der erste Schritt besteht darin, den gesamten Satz von Merkmalen beim Training zu verwenden, und die Wichtigkeit jedes Merkmals wird bestimmt. Die am wenigsten wichtigen Merkmale werden dann aus dem aktuellen Merkmalssatz entfernt. Dies wird rekursiv mit dem reduzierten Satz durchgeführt, bis die erforderliche Anzahl von Merkmalen erreicht ist. Als Ergebnis dieses Prozesses wird ein neues Modell mit einer geringeren Anzahl von Merkmalen erstellt.

Implementierung in Python

Die Implementierung des Trainings und der Bewertung des Modells erfolgt in Python – einer Programmiersprache, die häufig in der Datenwissenschaft verwendet wird. Data Scientists verwenden auch häufig R, aber Python wird immer bekannter, da seine Fähigkeiten im Bereich Data Science wachsen.

Wir beginnen mit dem Import der Module, die wir für diese Analyse benötigen: Pandas und sklearn. Zum Laden und Manipulieren wird die Pandas-Bibliothek verwendet. Pandas ist eine ausgezeichnete Wahl für das Munging und die Vorverarbeitung von Daten. Wir verwenden scikit-learn, um die Modelle und Prädiktoren zu implementieren.

Dann importieren wir die Daten aus der csv-Datei und teilen die Daten in zwei Teilmengen auf: eine für die Anpassung und eine für die Auswertung. Diese Technik der Datenwissenschaft wird Partitionierung genannt.

Dann werden die Daten skaliert. Dies geschieht, um die Eingabewerte für die Algorithmen ausgewogener zu machen, da einige der Merkmale sehr hohe oder niedrige Werte aufweisen können.

Nach der Skalierung extrahieren wir die wichtigsten Merkmale und berechnen die logistische Regression.

Der Quellcode ist unter: https://gist.github.com/astoeckl/2c3832f8d78ddfc0148b7bf948bdad99#file-leadprediction zu finden.

Auswertung mit den 30% Testdaten

Danach können wir die Genauigkeit der Vorhersage mit Testdaten bewerten. Diese liegt bei rund 90,5% Genauigkeit.

Wir verwenden die Fehlermatrix, um zu untersuchen, wie oft das Modell während der Validierung jede Art von Fehler erzeugt hat. In 5,7% der Vorhersagen wird eine Umwandlung falsch vorhergesagt, obwohl es keine gab. Dies ist ein Wert, der in der Praxis verwendet werden kann, ohne die Genauigkeit wesentlich zu beeinträchtigen. 16% der Konversionsfälle werden nicht erkannt. Auch dies ist ein brauchbarer Wert.

Fazit

Wir haben die folgenden Dinge über die Daten aus unserem Beispiel herausgefunden:

  • Die Verweildauer auf der Website ist ein effektives Maß für den Abschluss.
  • Die “Lead-Quellen" wiesen erhebliche Unterschiede in Bezug auf die Menge und die Konversionsrate ihrer Leads auf.
  • Die letzten aufgezeichneten Ereignisse waren für die Vorhersage entscheidend.

Anhand dieser Daten wurde dann ein Vorhersagemodell für neue Leads erstellt, das eine Genauigkeit von knapp über 90% aufwies.

Dabei können wir zwischen zwei Arten von Daten unterscheiden:

  • Nutzungsdaten, die durch Benutzeraktionen innerhalb des Systems erzeugt werden (z. B. Besuch einer Website, Abonnement eines E-Mail-Newsletters oder Anklicken einer Anzeige)
  • Attribute sind Benutzereingaben (z. B. Name, Adresse, Passwort)

Die Nutzungsdaten werden mit Tracking-Lösungen wie Google Analytics, Matomo oder Piwik PRO gesammelt und in ein Data Warehouse verschoben. Von dort werden die Nutzungsdaten derzeit zur weiteren Analyse mit Big-Data-Tools wie Hadoop, MapReduce oder Spark zwischen Unternehmen transferiert. Allerdings sind die Attribute oft in Excel-Dateien, Kundendatenbanken und CRM-Systemen gespeichert, was einen universellen Vergleich erschwert. Zudem sind diese Daten in der Regel nur unternehmensintern zugänglich, was bedeutet, dass diese Datensätze nicht für externe Analysen genutzt werden können.

Durch den Einsatz einer Customer Data Platform (CDP) werden die Daten integriert, bereinigt und zu einer einzigen Quelle der Kundenwahrheit konsolidiert. Kunden werden über mehrere Kanäle wie E-Mail, Websites, Apps, Social-Media-Plattformen usw. nachverfolgt. Kunden können auf der Grundlage ihrer Identität oder ihres Verhaltens segmentiert werden (z. B. “aktive Käufer”), was die Erstellung einzigartiger Personas ermöglicht, die für das Verständnis Ihrer Zielgruppe von entscheidender Bedeutung sind. Kunden können auch mit Social-Media-Profilen, Offline-Kaufdaten und anderen relevanten Attributen verknüpft werden, die es Vermarktern ermöglichen, das Kundenprofil um zusätzliche Erkenntnisse wie einen Segmentierungswert oder einen Propensity Score zu erweitern.

Eine CDP muss in der Lage sein, die Daten sehr feinkörnig zu verwalten und muss daher große Datenmengen verarbeiten können. Kunden müssen über eine eindeutige ID im gesamten System identifiziert werden und müssen daher in der Lage sein, Daten aus verschiedenen Quellen zu konsolidieren. Die Kunden können dann nach Attributen wie Demografie, Psychografie, Standort oder Kontext gefiltert werden. Die Kundenprofile sind dynamisch und ermöglichen es den Vermarktern, im Laufe der Zeit zusätzliche Informationen hinzuzufügen, die für prädiktive Analysen sehr wertvoll sind. Diese Profile können dann verwendet werden, um eine benutzerdefinierte Zielgruppe zu erstellen, die für viele Anwendungsfälle wie Retargeting-Kampagnen, Lead-Generierung oder Produktempfehlungen nützlich ist. Die Kundenprofile müssen außerdem flexibel und skalierbar sein, damit sie an die sich ständig ändernden Anforderungen der Vermarkter angepasst werden können.

GDPR und Einwilligung

Wenn die Nutzerdaten aus dem Webtracking stammen, müssen die Website-Besucher ihre Zustimmung geben und die GDPR einhalten. Kunden können ihre Zustimmung erteilen, indem sie sich beim Besuch einer Website anmelden. Sie können auch bei der Anmeldung zu einem E-Mail-Newsletter oder bei der Erstellung eines neuen Profils im Kundenportal um ihre Zustimmung gebeten werden. Die Kunden müssen auch die Möglichkeit haben, ihre Einwilligung jederzeit zu widerrufen, und sie sollten über die möglichen Folgen einer solchen Entscheidung informiert werden (z. B. eine vollständige Löschung des Kundenprofils). Die Kunden sollten auch nach dem Widerruf ihrer Zustimmung weiterhin Zugang zu ihren Profilen haben, da die Daten für statistische Zwecke anonymisiert und aggregiert werden können.

Die Nutzungsdaten werden mit Tracking-Lösungen wie Google Analytics, Matomo oder Piwik PRO gesammelt und in ein Data Warehouse verschoben. Von dort werden die Nutzungsdaten derzeit zur weiteren Analyse mit Big-Data-Tools wie Hadoop, MapReduce oder Spark zwischen Unternehmen transferiert. Allerdings sind die Attribute oft in Excel-Dateien, Kundendatenbanken und CRM-Systemen gespeichert, was einen universellen Vergleich erschwert. Zudem sind diese Daten in der Regel nur unternehmensintern zugänglich, was bedeutet, dass diese Datensätze nicht für externe Analysen genutzt werden können.

Durch den Einsatz einer Customer Data Platform (CDP) werden die Daten integriert, bereinigt und zu einer einzigen Quelle der Kundenwahrheit konsolidiert. Kunden werden über mehrere Kanäle wie E-Mail, Websites, Apps, Social-Media-Plattformen usw. nachverfolgt. Kunden können auf der Grundlage ihrer Identität oder ihres Verhaltens segmentiert werden (z. B. “aktive Käufer”), was die Erstellung einzigartiger Personas ermöglicht, die für das Verständnis Ihrer Zielgruppe von entscheidender Bedeutung sind. Kunden können auch mit Social-Media-Profilen, Offline-Kaufdaten und anderen relevanten Attributen verknüpft werden, die es Vermarktern ermöglichen, das Kundenprofil um zusätzliche Erkenntnisse wie einen Segmentierungswert oder einen Propensity Score zu erweitern.

Eine CDP muss in der Lage sein, die Daten sehr feinkörnig zu verwalten und muss daher große Datenmengen verarbeiten können. Kunden müssen über eine eindeutige ID im gesamten System identifiziert werden und müssen daher in der Lage sein, Daten aus verschiedenen Quellen zu konsolidieren. Die Kunden können dann nach Attributen wie Demografie, Psychografie, Standort oder Kontext gefiltert werden. Die Kundenprofile sind dynamisch und ermöglichen es den Vermarktern, im Laufe der Zeit zusätzliche Informationen hinzuzufügen, die für prädiktive Analysen sehr wertvoll sind. Diese Profile können dann verwendet werden, um eine benutzerdefinierte Zielgruppe zu erstellen, die für viele Anwendungsfälle wie Retargeting-Kampagnen, Lead-Generierung oder Produktempfehlungen nützlich ist. Die Kundenprofile müssen außerdem flexibel und skalierbar sein, damit sie an die sich ständig ändernden Anforderungen der Vermarkter angepasst werden können.

Merkmale einer CDP

Als System, das Daten aus verschiedenen Quellen zusammenführt und in aussagekräftige Informationen umwandelt, um Geschäftsentscheidungen zu treffen, besteht eine CDP aus vier grundlegenden Funktionen:

  • Datenmanagement
  • Stammdatenmanagement (MDM)
  • Kundenerfahrung und
  • Analyse

Datenverwaltung

Das erste Merkmal ist das Datenmanagement, das sich auf die Vereinheitlichung und Anreicherung von Kundenprofilen mit externen Datenquellen bezieht. Kunden werden durch eine eindeutige ID in allen Datenquellen identifiziert, was die Vereinheitlichung von Profilen ermöglicht, selbst wenn diese in separaten Datensilos mit unterschiedlichen Identifikatoren erstellt wurden. Die Kundenprofile sind sauber, vollständig und konsistent, da nur qualitativ hochwertige Eingaben zur Erstellung verwendet werden. Die Daten können durch Hinzufügen von zusätzlichem Kontext wie Geoinformationen oder Wetterdaten angereichert werden, um zu verstehen, ob die Kunden bestimmten Bedingungen ausgesetzt waren. Kundenprofile sind dynamisch und ermöglichen es den Vermarktern, im Laufe der Zeit zusätzliche Informationen hinzuzufügen, was für prädiktive Analysen sehr wertvoll ist. Die Schnittstelle zur Erstellung solcher Kundenprofile sollte über einen webbasierten Browser oder eine mobile Anwendung zugänglich sein. Die Kunden können dann nach Attributen wie Demografie, Psychografie, Standort oder Kontext gefiltert werden. Kundenprofile sind außerdem sehr flexibel und können an die sich ständig ändernden Anforderungen der Vermarkter angepasst werden.

Stammdatenverwaltung

Das zweite Merkmal ist das Stammdatenmanagement, das sich auf die Verwaltung von Kundendaten in einem Unternehmen bezieht, das verschiedene Quellen, Interessengruppen und Ansichten über Kundeninformationen verwaltet. Die Kunden müssen die vollständige Kontrolle über ihre Daten haben, da sie es sind, die die Daten erzeugen. Die Kunden müssen in der Lage sein, ihre Daten jederzeit zu verwalten, was über eine Anwendung oder eine Webschnittstelle geschehen kann. Die Kunden können entscheiden, welche Daten sie an Unternehmen weitergeben wollen und wie sie weitergegeben werden (orientiert an den Datenschutzbestimmungen). Die Kunden müssen auch über alle Änderungen der Datenschutzrichtlinien informiert werden, da sie an deren Aktualisierung beteiligt sind. Die Kunden sollten auch die Möglichkeit haben, ihre Profile zu löschen und zu deaktivieren, wann immer sie dies wünschen. Die Kunden müssen auch über alle Parteien informiert werden, die Daten von der CDP erhalten. Die Kunden sollten auch dann noch Zugang zu ihren Profilen haben, wenn sie ihre Zustimmung zurückgezogen haben, da die Daten anonymisiert und zu statistischen Zwecken zusammengefasst werden können.

Kundenerfahrung

Das dritte Merkmal ist die Kundenerfahrung, die sich auf alle Tools bezieht, die für die Interaktion mit den Kunden verwendet werden, einschließlich Personalisierung und Customer-Journey-Analysen. Die Kunden müssen jederzeit die Möglichkeit haben, ihre Daten zu verwalten, was über eine Anwendung oder eine Webschnittstelle wie die im vorigen Abschnitt (Stammdatenverwaltung) beschriebene erfolgen kann.

Analytik

Das vierte Merkmal ist die Analytik, die alle Analysetools umfasst, die zur Gewinnung von Erkenntnissen aus Kundendaten verwendet werden. Die Marketingexperten können diese Informationen dann für prädiktive Analysen und jede andere Art von Analyse nutzen, die für Geschäftsentscheidungen hilfreich ist.

Auf dem Markt befindliche Systeme

Auf dem Markt gibt es eine Vielzahl von Systemen, sowohl solche mit Open-Source-Lizenz als auch kommerzielle Softwaresysteme. Kunden sollten sich über die Systeme informieren, um herauszufinden, welches für ihre Anforderungen am besten geeignet ist. Ich möchte hier einige Beispiele vorstellen.

Apache Unomi ist ein Server, der die Verwaltung von Benutzerprofilen und Ereignissen für die Profile ermöglicht. Er kann verwendet werden, um die Profilanpassung und -verwaltung in eine Vielzahl von Plattformen zu integrieren, darunter Content Management Systeme (CMS), Customer Relationship Management Lösungen (CRM), Issue Tracker und native mobile Apps. Er wurde so konzipiert, dass er einfach mit anderen Systemen verknüpft werden kann, so dass Benutzer ihre Profile in einer Vielzahl von Anwendungen gemeinsam nutzen und wiederverwenden können.

Der Server verwendet eine Reihe von Techniken, um die Benutzer zu verfolgen (standardmäßig Cookies), ein progressiv ausgefülltes Profil zu erstellen und die von einem Benutzer durchgeführten Aktionen mit seiner Identität zu verbinden. Ein einzelner Server kann Tausende von Ereignissen pro Minute verarbeiten. Von einem Klick auf eine Webseite bis zum Herunterladen einer Datei, von der Auswahl einer Anwendungsschaltfläche bis zu allem anderen, was an den Server gesendet werden kann, können Ereignisse alles umfassen.

Der Server verfügt über ein integriertes Regelsystem, mit dem Sie jede Aktion im Zusammenhang mit einem Profil durchführen können, sobald ein Ereignis für dieses Profil aufgezeichnet wurde. Er beinhaltet auch das Konzept der Benutzersegmente, das es Ihnen ermöglicht, Benutzerprofile in wechselnde Untergruppen zu kategorisieren und einzigartige Erlebnisse für jede Gruppe zu schaffen.

Apache Unomi ist so konzipiert, dass es aufgrund seiner Existenz als OSGi-Anwendung innerhalb von Apache Karaf in hohem Maße erweiterbar und skalierbar ist. Es ist denkbar, neue Bedingungen, Operationen oder andere benötigte Dienste hinzuzufügen, wie z.B. Push-Benachrichtigungen.

Das Open-Source-Projekt Apache Unomi ist auch die Referenzimplementierung für den OASIS Customer Data Platform-Standard, der darauf abzielt, die Personalisierung von Online-Erlebnissen zu standardisieren und gleichzeitig ein ethisches Web Experience Management und eine verstärkte Kontrolle der Privatsphäre der Benutzer zu fördern.

Eine weitere gute Eigenschaft dieses Servers sind seine Fähigkeiten zur Verwaltung der Privatsphäre. Integratoren können benutzerseitige Benutzeroberflächen erstellen, die es den Benutzern ermöglichen, ihr Profil zu verwalten, einschließlich der Art und Weise, wie sie verfolgt werden, welche Daten gesammelt wurden, und sogar zuvor gesammelte Daten oder zukünftige Daten zu anonymisieren!

Das System kann hier heruntergeladen werden.

Einen interessanten Artikel finden Sie hier.

Eine CDP-Lösung, die Teil einer umfassenden Open-Source-Lösung für das Produkt- und Benutzerdatenmanagement ist, ist Pimcore CDP. Kunden nutzen Pimcore als webbasierte Digital Asset Management-Lösung. Dank seiner APIs können Kunden es auch in beliebige andere Drittsysteme integrieren.

Pimcore CDP kann verwendet werden, um personalisierte Erlebnisse für Nutzer zu entwickeln, indem automatisierte Workflows erstellt werden, die durch ihre Daten ausgelöst werden. Auf diese Weise können die Kunden sicherstellen, dass sie den Nutzern personalisierte Inhalte auf der Grundlage der von CDP gesammelten Daten anzeigen.

Es kombiniert und summiert Kundenaktivitäten aus verschiedenen Quellsystemen, um eine saubere, einheitliche und kohärente Sicht auf jeden Kunden zu erhalten. Durch die Kombination dieser beiden Funktionen können Sie Kundendaten und Benutzerprofile aggregieren, die Informationen erweitern, soziale Profile verbinden, Zielgruppensegmente erstellen, Ereignisse aktivieren, das Kundenerlebnis personalisieren und vieles mehr.

Pimcore ermöglicht es Ihnen, das Kundenverhalten über verschiedene Quellsysteme hinweg zu verknüpfen und so ein sauberes, konsistentes und einheitliches Mapping jedes einzelnen Kunden zu erstellen. Benutzerprofile können kombiniert und mit Informationen angereichert werden. Benutzer können mit Social-Media-Konten verbunden werden. Zielgruppensegmente und Trigger-Ereignisse sind ebenso möglich wie die Anpassung der Kundenerfahrung.

Demos des Systems können hier eingesehen werden.

Eine Youtube-Präsentation finden sie hier.

Innerhalb der Piwik PRO Produkte ist das CDP ein Add-on zur Webanalyse-Suite. Kunden nutzen Piwik PRO, um die Website-Nutzung zu messen, die normalerweise in Konversionen, Traffic-Quellen oder Website-Navigation kategorisiert wird.

Piwik PRO CDP ermöglicht es Ihnen, mehrere rohe Logdateien aus verschiedenen Quellen in einer einzigen Ansicht zusammenzufassen. Kunden können Rohdaten auch anonymisieren, bevor sie sie in das System einspeisen. Kunden können verschiedene Abgleichsregeln verwenden, um Kunden-IDs über verschiedene Quellsysteme hinweg abzubilden oder um Besucher beispielsweise anhand ihrer E-Mail-Adressen zu identifizieren.

Die Daten können über eine REST-API-Schnittstelle exportiert werden. Kunden können die Daten auch nutzen, um Anwendungen wie Daten-Dashboards zu entwickeln.

Informationen und eine Demo finden Sie unter https://www.506.ai/506_analytics_platform_uebersicht/.

Ein weit verbreiteter kommerzieller CDP-Anbieter ist Segment. Segment bietet Kunden die Möglichkeit, ihre Datenquellen einfach zu verbinden und intelligente kanalübergreifende Erfahrungen zu schaffen, ohne komplexe Integrationsworkflows entwickeln zu müssen. Kunden können die One-Stop-Lösung von Segment nutzen, um Kundenprofile mit jedem Drittanbieter-Tool abzuleiten, einschließlich Google Analytics, Salesforce, Marketo, Mailchimp, Stripe, Zendesk und den meisten CRMs. Kunden können Segment auch nutzen, um Events zu versenden und das Nutzerverhalten in Echtzeit zu verfolgen.

Um dies zu ermöglichen, verknüpft Segment alle Ihre Datenquellen mit einer einzigen Code-Basis über sein Software Development Kit (SDKs). Kunden erhalten eine einheitliche Sicht auf den Kunden, die über das Segment-Webinterface oder die API verwaltet wird. Kunden können ihre E-Commerce-Daten auch mit Google Analytics verknüpfen, benutzerdefinierte Berichte und Dashboards erstellen und wertvolle Einblicke in die Leistung ihrer Marketingkampagnen gewinnen, während diese laufen.

Segment bietet Unterstützung für alle wichtigen Programmiersprachen, einschließlich Ruby on Rails, Python, PHP, Node.js, iOS, Android, .NET C#/.NET Visual Basic und Java. Kunden können über eine einfach zu bedienende Schnittstelle Kundenprofile in Echtzeit erstellen und teilen.

Weitere Informationen über Segment finden Sie unter https://segment.com/.

Fazit

Der Markt für CDP-Systeme ist sehr vielfältig und dynamisch. Es ist zu erwarten, dass es in den nächsten Jahren zu einer Marktbereinigung kommen wird. Sie können die Informationen hier als schnellen Leitfaden verwenden.

506 Data & Performance GmbH

506 ist ein führendes, oberösterreichisches Marketing-Data-Science-Unternehmen. Schwerpunkt ist die Analyse, Segmentierung und die Aktivierung von digitalen Besucher- und Kundendaten. Mit der KI-basierten 506 Analytics Platform und der umfassenden Marketing- und Data-Science-Expertise werden die Daten der Kunden in nachhaltigen Geschäftserfolg verwandelt.

DOWNLOAD PRESSEMITTEILUNG

Bild: (c) 506 Data & Performance GmbH – Gerhard Kürner, CEO bei 506 Data & Performance GmbH

Bei Rückfragen an 506

Gerhard Kürner
Geschäftsführer
506 Data & Performance GmbH
Mobil: +43 650 4466777
Email: gerhard@506.ai

Daten werden in immer größerer Menge durch neuartige Medien generiert. Daten werden auch nicht mehr nur von Menschen, sondern auch von Maschinen und Algorithmen erzeugt. Dies ist besonders in der Online-Welt relevant, wo datengesteuerte Geschäftsprozesse zur Norm geworden sind.

Bildquelle: www.pexels.com

Data Science nutzt wissenschaftliche Methoden, um in einem iterativen Prozess, der Daten, Tools und Erfahrung umfasst, Wissen aus Daten zu gewinnen. Data Science bietet eine Grundlage für die Entscheidungsfindung, wenn Sie sich auf unvollständige oder verzerrte Informationen über Ihre Kunden stützen oder wenn Sie mit Unsicherheiten umgehen müssen. Data Science formt Big Data so, dass Sie schneller als je zuvor fundierte Entscheidungen treffen können mit der Geschwindigkeit des Denkens.

Betrachten wir zunächst typische Fragen des Online-Marketing aus der Sicht eines Datenwissenschafters.

Kundensegmentierung

Für den Online-Marketer geht es darum, Gruppen von Kunden oder Interessenten zu finden, die einander ähnlich sind und sich von anderen Gruppen unterscheiden. Diese sollten dann gezielt angesprochen werden, um die größtmögliche Wirkung zu erzielen. Data Science bietet die Möglichkeit, bestimmte Merkmale oder Variablen zu definieren, die eine Grundlage für diese Kundensegmentierung bilden. Data Scientists finden die Variablen, welche die verschiedenen Gruppen am besten beschreiben. Data Scientists können zum Beispiel feststellen, ob bestimmte Website-Attribute wie Produktkategorie oder Marke als Schlüsselvariablen für die Definition von Segmenten auf der Grundlage des Kaufverhaltens verwendet werden können.

Bildquelle: Andreas Stöckl

Lead Scoring

Hier geht es darum, Werte für potenzielle Kunden zu prognostizieren, die eine gezielte Ansprache ermöglichen. Mit Hilfe von Data-Science-Methoden werden Schlüsselvariablen (wie z. B. das Kaufverhalten) ermittelt, die kombiniert werden können, um die Wahrscheinlichkeit einer Reaktion oder eines Erfolgs vorherzusagen, wenn Sie versuchen, diese Kunden zu erreichen. Data Scientists verwenden in diesem Prozess, der als prädiktive Analyse bezeichnet wird, die Auswahl von Variablen und algorithmische Modellierung. Data Scientists kombinieren dann ihre Ergebnisse mit Data Mining, um Toolsets zu entwickeln, die es den Entscheidungsträgern ermöglichen, bessere Entscheidungen zu treffen.

Recommendation Engines

Hierbei handelt es sich um Data-Science-Lösungen, die von Online-Vermarktern für Produktempfehlungen auf der Grundlage von Kundenverhalten, Kaufhistorie, Markenkategorisierung, Suchanfragen auf der Website usw. verwendet werden. Das Ziel dieses Data-Science-Problems ist es, einem bestimmten Kunden auf einer Website das richtige Produkt zur richtigen Zeit zu präsentieren.

Es gibt verschiedene Ansätze, die entweder auf dem Verhalten der Nutzer oder dem Inhalt der Produkte basieren. In beiden Fällen setzen Data Scientists Data-Mining-Techniken ein, um die Produkte so zu kategorisieren, dass ihre Präsentation erleichtert wird. Data-Science-Methoden werden auch eingesetzt, um den besten Scoring-Ansatz für Empfehlungen auf der Grundlage des Kundenverhaltens oder der Ähnlichkeit der Inhalte zu ermitteln.

Kundentreue und Abwanderungsquote

Hier wird mit Hilfe von Algorithmen vorherzusagen versucht, welche Kunden verloren gehen könnten, um der Abwanderung entgegenzuwirken. Dies ist besonders für Geschäftsmodelle mit Abonnements oder laufenden Verträgen wichtig. Data Scientists setzen Data-Mining-Techniken ein, um die Faktoren zu ermitteln, welche die Abwanderungswahrscheinlichkeit eines Kunden vorhersagen können. Data Scientists entwickeln auch Data-Science-Lösungen, um abwanderungsgefährdete Kunden zu identifizieren, damit Sie sie mit Angeboten oder Anreizen ansprechen können, um zu versuchen, sie umzustimmen, bevor es zu spät ist.

Bildquelle: Andreas Stöckl

Kanaloptimierung und Budgetoptimierung

Um bestimmen zu können, wo es sich lohnt, Werbegelder auszugeben, werden Leistungsindikatoren als Grundlage verwendet. Mit Hilfe von Data Science lassen sich Algorithmen entwickeln, die automatisch entscheiden, ob der ROI einer Kampagne positiv oder negativ ist. Data Scientists nutzen in diesem Prozess Data-Mining-Techniken, um die Kombination von Kanälen zu finden, welche die beste Kapitalrendite erzielen. Data Scientists bestimmen auch, welche Budgets den einzelnen Kanälen zugewiesen werden sollten, damit Sie Ihre Ausgaben maximieren können, ohne Geld zu verschwenden.

Attributionsmodelle

Data Science wird eingesetzt, um zu ermitteln, welche Kundenkontaktpunkte am erfolgreichsten sind, um Konversionen zu erzielen. Data Scientists verwenden Data-Mining-Technologien, die den Weg des Kunden verfolgen, z. B. wie Kunden ein Produkt online recherchieren, bevor sie es offline kaufen oder ein Geschäft besuchen. Data Scientists nutzen Data-Mining- und Data-Science-Toolsets, um die wichtigsten sowie die weniger effektiven Touchpoints zu ermitteln.

Stimmungsanalyse von Produktbewertungen

Hier verwenden Data Scientists Data Mining, um festzustellen, ob ein Produkt von Kunden positiv oder negativ bewertet wird. Data Scientists definieren dann Datenprodukte, die Data-Governance-Teams verwenden können, um die Gesamtbewertung des Produkts zu analysieren und mögliche Ursachen für negative Bewertungen zu verstehen.

Preisgestaltung für Produkte

Bei der Anwendung von Data Science werden die Preise für Online-Produkte auf der individuellen Ebene optimiert. Data Scientists nutzen Data Mining, Data Science und Data Products, um den besten Preis für jedes Produkt oder Kundensegment zu ermitteln. Data Scientists entwickeln auch Data-Science-Lösungen, um Preisschwankungen auf Ihrer Website automatisch zu scannen, damit Sie bei Bedarf schnell reagieren können.

 

Die Quintessenz all dieser Anwendungen ist, dass Data Science ein Mittel ist, um typische Probleme des Online-Marketing zu lösen. Diese Data-Science-Probleme erfordern in der Regel, dass Data Scientists Data-Mining- und Data-Product-Management-Toolsets verwenden. Eine wesentliche Voraussetzung für die Lösung all dieser Fragen ist die Verfügbarkeit der notwendigen Daten für die Analyse. Diese Daten werden in der Regel in einer Datenbank gesammelt.

Kundendatenplattformen

Diese Datenbanken enthalten die Daten für das Verständnis des Kundenverhaltens, z. B. auf der Website, in der Purchase Journey und über verschiedene Touchpoints hinweg. Data Scientists können Data-Mining-Aktivitäten durchführen, um verborgene Muster im Kundenverhalten aufzudecken (einschließlich prädiktiver Analysen), die Marketern helfen, Personalisierungsrichtlinien zu definieren.

In einem zukünftigen Artikel werden wir zeigen, wie Kundendatenplattformen funktionieren und wie sie implementiert werden können.

Was ist die Motivation für das Projekt 506 SATURN?

Das durch die aws geförderte Projekt ist eine durch Künstliche Intelligenz gestützte Software-as-a-Service-Lösung für Marketing-, Service- und Prozessoptimierung. Mit unserer KI-basierten SaaS-Lösung 506 SATURN wollen wir E-Commerce-Unternehmen im D-A-CH-Raum dabei helfen, einfach und kostengünstig ihre eigenen Online-Daten zu nutzen, um die für sie am besten passenden Kundengruppen datenschutzkonform (consent-based) anhand von First Party Data zu finden und Vorschläge für die bestmögliche Aktivierung unter Berücksichtigung eigener fachspezifischer Ethik-Standards vorzulegen.

Die Triebfeder für die Produktentwicklung von 506 SATURN als ethische Marketing-KI ist es, auch eine Alternative zur am Markt dominierenden Lösung von Google Analytics zu bieten. Unternehmen wird es ermöglicht, Analysen und Marketingservices unabhängig und ethisch-sauber auch mit eigenen sog. First Party Data, also mit Daten, die von der eigenen Website stammen und über die das Unternehmen selbst die Datenhoheit hat, umsetzen zu können. „Mit unserer ethischen Marketing-KI 506 SATURN wollen wir KI-basiertes sauberes und transparentes Online Marketing forcieren.“

Worum geht es beim Projekt 506 SATURN?

Zunächst werden die Rohdaten als First Party Data von Website-Besuchern über den Analytics- und Customer-Data-Anbieter sowie First Party Data Privacy-Marktführer Piwik PRO datenschutzkonform getrackt. 506 SATURN clustert und beschreibt dann mittels Machine-Learning-Modells aus den Rohdaten von Website-Besuchen automatisierte Segmente von Userinnen und Usern gleichen Verhaltens. Der Ansatz von 506 SATURN geht jedoch über sonst übliche UserInnen-Segmentierungen mittels Clusterverfahren hinaus, da er auch eine Interpretation der Cluster bietet, und zwar unter Einsatz eines ML-Verfahrens, das aus der Struktur der Daten lernt.

Um die gefundenen Segmente transparent zu beschreiben, analysiert und bewertet 506 SATURN das Bewegungsverhalten von anonymen und bekannten Besuchern und analysiert die betrachteten Inhalte. Daraus berechnet 506 SATURN einen Vorschlag über eine mögliche Zielgruppe und deren Interessen. Diese Segmente können dann passgenau unter Einhaltung ethischer Standards und der DSGVO mit Informationen bespielt werden.

Abbildung: Eigene Darstellung von 506

Wie nähern wir uns dem Ethik-Thema?

506 hat fachspezifische eigene Ethik-Guidelines entwickelt, die als Rahmen für die gesamte Projektabwicklung fungieren. Dabei wurden neben den geltenden relevanten Normen vor allem im Bereich Datenschutz-Grundverordnung, aber auch auf die Ethik-Leitlinien der hochrangigen Expertengruppe für Künstliche Intelligenz, eingesetzt von der Europäischen Kommission, Bezug genommen. Zudem wurden auch schon die maßgeblichen fachspezifischen Aspekte aus dem Entwurf eines KI-Gesetzes von der Europäischen Kommission vom 21. April 2021 antizipiert.

Aber auch der Ethik-Kodex der österreichischen Werbewirtschaft fungiert als wichtiger inhaltlicher Orientierungsrahmen der facheinschlägigen 506-Ethik-Guidelines für das Projekt 506 SATURN. Die Ethik-Guidelines fließen dabei in die Entwicklung, Anwendung und das Design des Projekts mit ein. „Ziel ist es dabei, dass UserInnen Vertrauen in unsere KI-basierte SaaS-Lösung mittels ,Trust by Design‘ entwickeln können.“

Die Rechtsgrundlage für die Verarbeitung der Daten der UserInnen ist die Einwilligung gemäß Art. 6 Abs. 1. lit. a DSGVO, welche die UserInnen bei Website-Besuchen mit der Abfrage über Cookie-Consent-Tools erteilen. Die Daten werden im Zuge der Segmentierung anonymisiert und unterliegen nicht den Bestimmungen der DSGVO.

Vor allem, dass der Mensch als „Human-in-the-Loop“ bei der Bewertung und Nutzung der automatisierten Beschreibung der von der KI identifizierten Segmente die Kontrolle hat, wird bei der Entwicklung von 506 SATURN von großer Bedeutung sein.

Interdisziplinäres Team und Forschungskooperation

Als Teil des Ansatzes zur Umsetzung von „Trust by Design“ wurde auf ein interdisziplinäres Team gesetzt, bestehend aus ExpertInnen in den Bereichen KI, Nachhaltigkeit und Digitales Marketing: Teil des Teams zur Entwicklung von 506 SATURN sind unter anderem der Technische Projektleiter KI-Experte Prof. Dr. (FH) Andreas Stöckl und Online Marketing Experte und CEO von 506 Gerhard Kürner.

Die FH OÖ Campus Hagenberg – Forschungsgruppe AIST ist im Forschungsbereich der wichtigste Kooperationspartner.

Kooperationsmöglichkeiten für weitere Testcases

Bisher konnten schon 3 Kooperationspartner in den unterschiedlichsten E-Commerce-Branchen als Testcases gewonnen werden. Da sich der Projektzeitraum von Juli 2021 bis Ende Februar 2022 erstreckt, können noch weitere interessierte E-Commerce-Unternehmen als Testcases von den Vorteilen des Projekts profitieren – allem voran mehr Customer-Insights über das Segmentierungsverfahren zu generieren. Die Go-to-Market-Strategie sieht so aus, dass die fertige SaaS-Lösung als Lizenzmodell mit Q2/2022 auf den Markt kommt. Bis Ende Q1 können wir im Beta-Test noch kostenlose „Friendly-User-Lösungen“ anbieten. „Wenn es interessierte E-Commerce-Unternehmen gibt, die sich als weitere Testcases am Projekt beteiligen wollen, freuen wir uns über eine Kontaktaufnahme.“

„Mit unserer ethischen Marketing-KI 506 SATURN wollen wir KI-basiertes sauberes und transparentes Online Marketing forcieren.“

Heidrun Mühle

Projektleitung 506 SATURN

Fazit

Durch unsere KI-SaaS-Lösung 506 SATURN wollen wir einen Beitrag dazu leisten, dem zunehmenden Anspruch an sauberes und transparentes Online Marketing in Zukunft besser gerecht zu werden. Dazu appellieren wir an alle interessierten E-Commerce-Unternehmen, die als Testcase bei der Erforschung einer ethisch agierenden Marketing-KI mitmachen wollen, bis spätestens Ende Q4/2021 mit uns Kontakt aufzunehmen.

Quellen und weiterführende Links:

Datenschutzgrundverordnung

Ethik-Guidelines für vertrauenswürdige KI der hochrangigen von der EK eingesetzten Expertengruppe

Entwurf eines KI-Gesetzes von der Europäischen Kommission vom 21. April 2021

Ethik-Kodex der österreichischen Werbewirtschaft

www.aws.at/service/cases/gefoerderte-projekte-auswahl/digitalisierung/506-data-performa nce/

www.506.ai/produkte/506-saturn

In einem früheren Blogbeitrag (http://www.stoeckl.ai/werden-softwareentwickler-durch-ai-software-ersetzt/) habe ich auch bereits darüber geschrieben, und die Frage aufgeworfen, ob es in Zukunft Programmierer (teilweise) ersetzen wird.

Ich habe nun im Bereich von Analysen im Data Science Bereich ein konkretes Experiment gemacht, um zu testen, ob hier ein Einsatz möglich ist. Die Aufgabe war dabei keinen Programmcode zu schreiben, um die Aufgaben zu erledigen, sondern Anweisungen in Englischer Sprache zu geben. Das Codex System musste das in Programmcode übersetzen, der dann ausgeführt wurde.

Ein Beispiel für eine Aufgabe:

So eine Anweisung an das Codex System sah dann zum Beispiel so aus:

“Load the gensim package make a corpus of documents from the column ‘text’ of the dataframe, and a dictionary from the tokenized documents and train a LDA model on it.”

Das ergab dann zum Beispiel folgenden Programmcode in der Sprache Python:

import gensim

from gensim import corpora, models

# Tokenize the documents

tokenized_docs = [doc.split() for doc in df['text']]

# Create a dictionary from the tokenized documents

dictionary = corpora.Dictionary(tokenized_docs)

# Create a corpus from the tokenized documents

corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]

# Train the LDA model

lda_model = models.LdaModel(corpus, num_topics=10, id2word=dictionary, passes=10)

# Print the top terms for each topic

for idx, topic in lda_model.print_topics(-1):

    print('Topic: {} nWords: {}'.format(idx, topic))

Diese Anweisungen führen hier zum Beispiel eine sogenanne Topicanalyse auf Textdokumenten durch. Das Programm läuft korrekt und erledigt die Aufgabe. Details zum Experiment können Sie in meinem Artikel nachlesen.

Oberfläche OpenAI Codex (Quelle: https://openai.com/blog/openai-codex/)

Was habe ich dabei gelernt?

Die Anweisungen müssen den Prozess, der als Code generiert werden soll, genau beschreiben. Dies erfordert etwas Experimentierfreude und nicht weniger Know-how als das Schreiben des Codes von Hand. Der Hauptvorteil liegt darin, dass man nicht alle Details der Syntax kennen muss und sich damit einige Zeit erspart.

Zudem muss die Eingabeaufforderung sehr sorgfältig gewählt werden. Manchmal führen kleine Änderungen in der Eingabeaufforderung zu nicht nachvollziehbaren Änderungen im Ergebnis. 

Außerdem ist es sehr wichtig, dass die Algorithmen vom Autor beherrscht werden, und auch die benötigten Programmpakete müssen dabei bekannt sein. Das Sprachmodell macht in etwa das Gleiche, als wenn man die richtige Texteingabe in der Google-Suche verwendet, die gefundenen Ergebnisse von Stackoverflow nimmt und die Codeschnipsel zusammensetzt. Allerdings auf eine schnellere und komfortablere Art und Weise.

Das Grundprinzip ist einfach

Der renommierte Informatiker und Turing Prize Gewinner Judea Pearl hat einmal mit dem etwas überspitzt formulierten Zitat:

“Machine Learning is just glorified ‘curve fitting’ ”

versucht auszudrücken, dass die Mechanismen hinter dem Bereich Machine Learning in der Künstlichen Intelligenz, von dem Deep Learning ein Teilbereich ist, sehr einfach sind, aber üblicherweise glorifiziert werden. Er unterstreicht damit, dass hinter den gängigen Techniken vieler Deep Learning Anwendungen – zum Beispiel bei der Bilderkennung oder Sprachverarbeitung – dieselben Prinzipien wie bei der einfachen Aufgabe, eine Kurve durch eine gegebene Menge von Datenpunkten zu legen, steckten. Schon an dieser sehr einfachen Karikatur von Machine Learning Lösungen lassen sich aber nicht nur deren Grundprinzipien erkennen, sondern auch typische Gefahren im Umgang mit dieser Technologie diskutieren und erkennen.

In meinem Artikel unter https://towardsdatascience.com/watching-machine-learning-models-fitting-a-curve-c594fec4bbdb habe ich versucht dies mit Hilfe von Bildern und Animationen zu verdeutlichen.

Gefahr der Überanpassung

Die wichtigste Gefahr, die auch hier versucht wird aufzuzeigen, ist das sogenannte “Overfitting”, das man am besten mit Überanpassung übersetzen würde. Hier sieht eine KI-Anwendung in den Daten, die zur Erstellung des Modells verwendet werden, mehr Muster und Strukturen, als eigentlich in den Daten enthalten sind.  Dadurch entstehen dann Systeme, die schlecht generalisieren, d.h. neue Situationen schlecht erklären und falsche Entscheidungen treffen.

Zu viele Muster zu sehen ist nicht nur eine Eigenschaft von KI-Systemen, sondern auch eine sehr menschliche Schwäche. Unser Wahrnehmungsapparat, der zum Beispiel darauf trainiert ist, Gesichter zu erkennen, gaukelt uns auch in vielen anderen Objekten vor ein Gesicht zu sehen. Das bekannteste Beispiel ist der  sogenannte “Mann im Mond” (https://de.wikipedia.org/wiki/Mann_im_Mond),  aber auch sonst gibt es viele solcher Beispiele – etwa in folgendem Bild, das uns im Hamburger ein Gesicht erkennen lässt.

Was grenzt Deep Learning von anderen Machine Learning Techniken ab?

Die beschriebenen Prinzipien und Gefahren gelten für Machine Learning im Allgemeinen, aber besonders für das Teilgebiet Deep Learning, da hier sehr umfangreiche Modelle eingesetzt werden, die zwar einerseits komplexere Aufgaben lösen können, aber auch mehr zur Überanpassung neigen. Das “Deep” im Namen leitet sich dabei von der Tiefe der Modelle in dem Sinne ab, dass die hier üblicherweise verwendeten Neuronalen Netze (https://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz) aus vielen Schichten bestehen, also in diesem Sinne tief sind.

Fazit

Deep Learning ist zwar nicht erst in den letzten Jahren entstanden, aber durch die Erfolge, die auf dieser Technik basierende Anwendungen in den letzten Jahren erzielt haben, ist es in unseren Alltag eingedrungen – dies einerseits als Technologie, die beispielsweise unser Handy durch Gesichtserkennung entsperrt, aber auch als “Buzzword”, das zahlreiche Produkte, teils zu recht und teils zu unrecht, ziert.

Ein Beispiel

Ein typisches Beispiel, das zeigt, was möglich ist, ist ein Video einer Obama-Rede, die dieser nie wirklich gehalten hat.

Quelle: https://ars.electronica.art/center/de/obama-deep-fake/

Gerade wurde mit www.nuis.tv ein neuer Dienst angekündigt, der Newstexte automatisch mit KI-Unterstützung in Videobeiträge konvertiert. Dies soll dazu dienen, dass User auf einem Smartphone aktuelle Nachrichtenbeiträge nicht mehr lesen müssen, sondern sich diese von einem Nachrichtensprecher präsentieren lassen können.

Um derartiges umsetzen zu können, ist es nicht nur nötig Bilder von Personen künstlich zu erzeugen, sondern auch, diese die Nachrichten vorlesen zu lassen. Die dafür nötigen Technologien zur Verwandlung von Text in Sprache und Lippensynchronisation existieren bereits.

In diesem Blogbeitrag möchte ich zeigen, wie solche digitalen Inhalte erzeugt werden können. Dabei kommen neueste Arbeiten aus der Forschung der Künstlichen Intelligenz  zum Einsatz.

Schritt 1) Bild- oder Videomaterial auswählen oder künstlich erzeugen

Für diesen Schritt kann ein Foto oder Video einer Person ausgewählt oder auch künstlich geschaffen werden, die die Aussage tätigen soll. Die Website https://thispersondoesnotexist.com/ erzeugt Fotos von Personen, die nie existiert haben und vermutlich auch nie existieren werden.

(Fake Bild erzeugt mit StyleGAN2. Quelle: www.thispersondoesnotexist.com)

Die Methoden dahinter sind in einer wissenschaftlichen Arbeit (https://arxiv.org/abs/1912.04958) veröffentlicht, und in einem Video (https://www.youtube.com/watch?v=SWoravHhsUU) beschrieben.

Schritt 2) Text der Nachricht schreiben oder generieren lassen

Kommen wir nun zum Erzeugen von Textnachrichten. Die Website https://bellard.org/textsynth/ bietet eine Implementierung des “GPT2 Sprachmodells” von OpenAI (https://openai.com/blog/better-language-models/).  Dieses kann genutzt werden, um ausgehend von einem Stück Text diesen weiter fortzusetzen.

Ein Beispiel:

Der folgende Satz aus der New York Times wurde als Start vorgegeben.

“But despite the large drop in new infections since early this year, the U.S. death rate remains at nearly 1,500 people every day.”

Die Story wurde wie folgt fortgesetzt:

“The CDC estimates that 1.6 million Americans die annually from infections linked to SARS. The virus causes fever, respiratory illness, weakness and confusion. It can cause diarrhea, kidney and liver failure and is believed to have caused more than 300,000 deaths worldwide. The Ebola outbreak is the most severe since the devastating 1976 SARS outbreak that killed at least 15,000 people.”

Die Story liest sich wie ein echter Newsbeitrag, jedoch entsprechen die Fakten nicht der Realität. Dies zeigt, dass Fact-Checking Techniken  immer bedeutender werden. Nur weil etwas echt klingt, bedeutet das nicht, dass der Inhalt echt bzw. korrekt ist.

“Ich hab es mit eigenen Augen gesehen” kann in der heutigen digitalen Zeit kaum mehr als stichhaltiges Argument gelten.

Andreas Stöckl

HEAD OF CUSTOMER DATA MANAGEMENT

Schritt 3) Erzeugung der Audioaufnahme aus dem Text

Möchte man den Text nun von der Person gesprochen haben, benötigt man eine Tondatei mit der Rede – aber nicht nur mit irgendeiner Stimme gesprochen, sondern mit der Stimme der gewünschten Person. Dies leistet das  NVIDIA’s Flowtron Model (https://github.com/NVIDIA/flowtron). Es generiert gesprochene Texte, die kaum von echten zu unterscheiden sind. Hier kann die Stimme des Sprechers durch ein Muster vorgegeben werden.

Schritt 4) Erzeugung des lippensynchronen Videos

Mit Wav2Lip (https://github.com/Rudrabha/Wav2Lip) kann schließlich auch das Problem der Lippensynchronisation gelöst werden. Die Software generiert realistische, sprechende Gesichter für jede menschliche Sprach- und Gesichtsidentität.

Das Video https://www.youtube.com/watch?v=0fXaDCZNOJc zeigt die Resultate des Verfahrens.

Fazit

Kombiniert man nun all diese Technologien, so erhält man ein System, das nicht nur einen Text nach Vorgaben erfindet, sondern diesen auch von einer beliebigen Person (real oder erfunden) als Video aufsagen lässt. Das zeigt, dass man sich nicht mehr sicher sein kann, ob ein Video, das man auf Social Media gesehen hat und in dem eine Person eine Aussage tätigt, nicht vollständig erfunden ist.

Die Daten

Zur Analyse habe ich im Zeitraum von 4.11.2020 bis 2.2.2021 in Summe 148.991 in der österreichischen Presse online publizierte Artikel gesammelt und ausgewertet.

Es wurden Artikel folgender Medien berücksichtigt:

  • ORF – http://orf.at 
  • Tiroler Tageszeitung – http://tt.com 
  • Oberösterreichische Nachrichten – http://nachrichten.at 
  • Niederösterreichische Nachrichten – http://noen.at 
  • Vorarlberg Online – http://vol.at 
  • Österreich – http://oe24.at 
  • Salzburger Nachrichten – http://salzburg.com 
  • Kurier – http://kurier.at 
  • Die Presse – http://diepresse.com 
  • Kronen Zeitung – http://krone.at 
  • Der Standard – http://derstandard.at
  • Heute – http://heute.at 
  • Neues Volksblatt – https://volksblatt.at 
  • Wiener Zeitung – http://wienerzeitung.at

Das ergibt ein fast vollständiges Abbild der österreichischen Medienlandschaft bezüglich täglicher Nachrichten. (Daten der Kleinen Zeitung – http://kleinezeitung.at ) lagen mir leider nicht vor.)


Die Analyse

Von jedem Artikel wurde der Titel, der publizierte Text und der Publisher gemeinsam mit dem Veröffentlichungsdatum gespeichert. Die Anzahl der Artikel in meinem Datensatz verteilt sich folgendermaßen über die Publisher:

In den Beiträgen wurde nach bestimmten Schlagworten gesucht, die mit der Pandemie-Berichterstattung in Zusammenhang stehen. So zum Beispiel die Begriffe „COVID“, „Corona“, aber auch „Kurzarbeit“, „Lockdown“ und „Mutation“. Die Beiträge wurden auch einer computergestützten Sentiment-Analyse (https://de.wikipedia.org/wiki/Sentiment_Detection) unterzogen und vermerkt, ob es ein positiver, neutraler oder negativer Bericht war.

Zu welchem Prozentsatz kommen in den Artikeln die Wörter „Corona“ oder „COVID“ vor?

Betrachtet man den Anteil der Artikel mit mindestens einem der beiden Schlagwörter im Text, jeweils tageweise zusammengefasst und über die Zeitachse aufgetragen, ergibt sich folgendes Bild, wenn man über alle Medien hinweg zusammenfasst:

Im gesamten Zeitraum sind also ca. 30–40 % der Berichte zu diesem Thema. Das bestätigt den Eindruck, dass „nur noch“ über die Pandemie berichtet wird, zwar nicht wörtlich, es ist aber doch ein sehr großer Anteil – und das über den gesamten betrachteten Zeitraum von 3 Monaten fast konstant.


Wie sieht es mit Unterschieden bezüglich Medien aus?

Hier sind schon deutliche Unterschiede zu sehen, so liegt oe24.at fast bei 50 % und das Volksblatt sogar deutlich darüber, Krone und Kurier liegen nur auf 30 % oder darunter.

„Die Pandemie ist zwar nicht das einzige Thema in der Medienberichterstattung, aber mit einem Anteil von 30–40 % am gesamten Medienvolumen doch sehr dominant.“

Prof. (FH) Dr. Andreas Stöckl

HEAD OF CUSTOMER DATA MANAGEMENT

Wie sieht es mit der Präsenz des Themas „Mutationen“ aus?

Dazu betrachten wir die absolute Anzahl der Artikel mit dem Wort „Mutation“ im Text, über die Zeit aufgetragen.

Dieses Thema taucht schlagartig kurz vor Weihnachten in der Berichterstattung auf, nimmt dann für einige Zeit wieder deutlich ab. Ab Mitte Januar nimmt es wieder Fahrt auf – und begleitet uns seither. Betrachtet man die Nennungen in Regionalzeitungen getrennt, so ergibt sich ein differenzierteres Bild.

Zu Weihnachten ist das Thema in den westlichen Zeitungen Tiroler Tageszeitung und Salzburger Nachrichten schon sehr präsent. In Oberösterreich (Nachrichten.at) erst ab Mitte Januar. Hier zeigt sich also ein „West-Ost-Gefälle“.


Wie sieht es mit dem Thema „Lockdown“ aus?

Nachfolgende Abbildung zeigt die absolute Anzahl der Artikel, in denen das Wort „Lockdown“ vorkommt, aufgetrennt nach Quelle.

Es zeigt sich, dass am Tag des ersten Lockdowns auch ein klarer „Peak“ in der Berichterstattung zu sehen ist. Der Lockdown, beginnend nach den Weihnachtsfeiertagen, zeigt keinen deutlichen Ausschlag. Generell ist das Thema aber den ganzen Zeitraum mit einem gewissen Wochenzyklus über präsent. Einen starken Beitrag zu den Peaks liefert jeweils oe24.at (Gelb).


Wie sieht es mit der Tonalität („Sentiment“) der Artikel aus?

Im Themengebiet einer Pandemie erwartet man durchwegs eher negative Berichte. Sehen wir uns das Ganze in Zahlen an und fächern den zeitlichen Verlauf auch nach unterschiedlichen Begriffen auf.

Die Grafik gibt den zeitlichen Verlauf, der Anzahl der Artikel, welche die jeweils angegebenen Begriffe enthalten, aufgesplittet nach Tonalität an. Es fällt die verständlicherweise geringe Anzahl an positiven Artikeln zu diesen Themen auf. Insbesondere die Beiträge zu „Mutationen“ und „Lockdown“ haben überwiegend ein negatives Sentiment. Die beiden anderen Begriffe haben zumindest einen Anteil an neutralen Berichten in fast ähnlicher Höhe wie die negativen News.

Quellen: Bilder vom Autor selbst erstellt.

Fazit

Die Analyse drückt durch konkrete Zahlen das aus, was wir beim täglichen Konsum von Nachrichten empfinden, ein sehr erheblicher Teil beschäftigt sich mit der Pandemie – und das überwiegend mit negativer Tonalität. Wir konnten aber auch einige Unterschiede in den Quellen, Themengebieten und Zeiträumen sehen.

Die benötigten Daten sammeln

Um Aussagen über das Kaufverhalten eines Website-Besuchers tätigen zu können, benötigen wir möglichst aussagekräftige Daten über ihn. Wie soll das aber bei einem anonymen Surfer funktionieren?

Um Personen über mehrere Besuche hinweg identifizieren zu können, können diese mittels Cookie markiert werden. Das ist aber datenschutzkonform nur möglich, wenn das Einverständnis des Nutzers zum Beispiel mit einem Pop-up-Layer eingeholt wird. Um diese Abfrage und die Verwaltung der Einverständniserklärungen zu managen, bietet sich eine Consent-Management-Lösung an: https://de.wikipedia.org/wiki/Consent_Management_Platform. Hat man das Einverständnis, kann man das Verhalten der Personen auch über mehrere Besuche zu unterschiedlichen Zeitpunkten hinweg sammeln.

Um nun das Verhalten der Besucher analysieren zu können, kommt Web-Analytics-Software zum Einsatz, die genau aufzeichnet, welche Produkte angesehen wurden, welche Buttons angeklickt wurden, ob etwas in den Warenkorb gelegt wurde, und vieles mehr. Hier setzen viele Shop-Betreiber „Google Analytics“ ein, das umfangreiche Statistiken zum Surfverhalten anzeigt. Das Produkt in der Gratisversion hat aber einen entscheidenden Nachteil: Es werden zwar schöne Statistiken angezeigt, die zugrundeliegenden Rohdaten behält Google aber für sich. Für die Analysen benötigen wir diese aber!

Abseits der Google-Lösung gibt es aber eine Vielzahl von Softwarelösungen, die es ermöglichen, das Verhalten der Besucher aufzuzeichnen sowie gesammelt und strukturiert abzuspeichern. Mehr Information dazu finden Sie auf https://www.506.ai/leistungen/customer-data-management.

„Die korrekte Identifizierung potenzieller Online-Käufer auf Grundlage Ihres Verhaltens im Online-Shop kann helfen, die Streuverluste von Online-Werbekampagnen zu reduzieren!“

PROF. (FH) DR. ANDREAS STÖCKL

HEAD OF CUSTOMER DATA MANAGEMENT

Klassifikationsmodell erstellen

Es können nun verschiedene Methoden des maschinellen Lernens verwendet werden, um anhand der Daten des Online-Shops die Kunden als kaufende und nicht kaufende zu klassifizieren. Mit aus den Rohdaten aggregierten Merkmalen, wie z. B. Anzahl der Besuche, Anzahl der Seitenaufrufe, Anteil von Besuchen in bestimmten Produktkategorien etc., werden Prognosemodelle trainiert und evaluiert.

Es gibt verschiedene Verfahren, um dieses Problem zu lösen. Es hat sich in der Praxis gezeigt, dass es nicht „das eine“ Verfahren gibt, das besser als alle anderen ist, sondern dass es von der Problemstellung und den Daten abhängt, was am besten funktioniert. Man versucht daher stets verschiedene Ansätze und wählt dann nach einer Evaluierung jenen aus, der die besten Resultate liefert.

Die Details zu den möglichen Verfahren und der Umsetzung finden sich in meinem Beitrag auf:

https://towardsdatascience.com/classifying-online-shop-customers-65438e0cc58b

Die folgende Grafik zeigt eine Visualisierung eines erstellten Modells auf Basis von Besuchen und Seitenansichten. Die verschiedenfarbigen Flächen kennzeichnen dabei die Bereiche der Käufer und der Nichtkäufer. Kennt man von einem Besucher die Anzahl der Besuche und die Anzahl der Seitenansichten, dann kann man den zugehörigen Datenpunkt im Diagramm eintragen, und je nach Bereich wird er den potenziellen Käufern zugeordnet oder nicht. Dies ist ein sehr vereinfachtes Modell, das sich gut zur grafischen Darstellung eignet, in der Praxis werden mehr Merkmale zur Modellbildung verwendet.

Quelle: Vom Autor erstellt

Fazit

In meiner Praxis hat sich gezeigt, dass Klassifikationsgenauigkeiten von um die 80 % realistisch sind und zu durchaus brauchbaren Vorhersagen führen. Damit kann zum Beispiel eine Retargeting-Kampagne gestartet werden, die sich auf die Gruppe der potenziellen Käufer konzentriert und damit zu Kosteneinsparungen beim Online-Werbebudget führt.

Bild Quelle: (Quelle: www.pexels.com – kostenlose Nutzung [CC0])

Dabei handelt es sich nicht um geheime versteckte Botschaften, die in einzelnen Nachrichten eingebettet sind, so wie manche Personen geheime Botschaften in Songs der „Beatles“ zu finden glauben, sondern um Informationen, die erst dann ersichtlich sind, wenn man eine Vielzahl von Daten gemeinsam und richtig kombiniert betrachtet. In diesem Beitrag möchte ich das anhand einiger Beispiele aufzeigen.

Ich werde im Beitrag zum Beispiel Hinweise finden, dass Redakteure der Tageszeitung Der Standard am Wochenende gerne länger schlafen und längere Beiträge am Morgen oder am Wochenende vormittags schreiben. Den restlichen Tag scheinen Agenturmeldungen zu dominieren.

Vor allem die Kronen Zeitung, aber auch das Portal „oe24.at“ publizieren, nicht unerwartet, kaum längere Artikel – dass es hier im Unterschied zu Der Standard um das Zehnfache geht, ist doch etwas überraschend.

Aus den Publikationen namentlich genannter Redakteure lassen sich Informationen gewinnen, wie ihr Urlaubsverhalten ist oder welchen anderen Redakteuren sie möglicherweise nahestehen.

Die Daten

Als Daten für die Beispiele habe ich die Nachrichtenartikel der Onlineausgabe von drei österreichischen Tageszeitungen ausgewählt:

Die beiden ersten sind dabei dem Boulevard zuzuordnen, Letztere wird als Qualitätszeitung bezeichnet.

Ich habe jeweils über einen Zeitraum von 3 Monaten (11. 8. 2020–9. 11. 2020) die Texte der Nachrichten, gemeinsam mit einigen Metadaten wie Veröffentlichungszeitpunkt, Autor etc., gesammelt. Das ergab ein Datenvolumen von:

Erster Überblick über die Daten

Um einen ersten Überblick über die Daten zu erhalten, betrachten wir die Anzahl an Artikeln, welche die unterschiedlichen Zeitungen an den einzelnen Tagen veröffentlicht haben.

Alle drei betrachteten Zeitungen weisen einen Wochenzyklus auf, der bei Der Standard am ausgeprägtesten ist, an den Wochenenden und Feiertagen wird deutlich weniger publiziert. Es werden im Schnitt etwas über 100 Artikel geschrieben. Auf „oe24.at“ seit Anfang Oktober deutlich mehr.

Wann werden Artikel geschrieben, und wie lang sind diese?

Betrachten wir nun die Tageszeit und den Wochentag, zu denen die Nachrichten veröffentlicht wurden. Die Größe der Punkte beschreibt dabei die Anzahl der Artikel. Der Farbcode gibt zusätzlich die durchschnittliche Textlänge (Anzahl der Worte) pro Zeitpunkt an. Blaue Kreise stehen für kurze Artikel, je dunkler der Rotton ist, desto länger sind die Artikel.

Publiziert wird überwiegend am Tag, und am Wochenende wird etwas später begonnen. Hier scheinen die Redakteure etwas länger schlafen zu wollen. Generell wird am Wochenende weniger veröffentlicht.

An der Einfärbung kann man sehen, dass sich die Redaktion von  Der Standard offenbar am Morgen jeden Tages und am Wochenende Zeit nimmt, lange Artikel zu schreiben, wie man das von einem „Qualitätsmedium“ erwartet.

Werden später am Tag hauptsächlich kurze Agenturmeldungen verbreitet?

Die nächste Abbildung zeigt ein etwas anderes Bild für die Redaktion von „Österreich – oe24.at“, hier gibt es nur eine geringe Anzahl längerer Artikel um 6 Uhr morgens, kurz vor Mitternacht und Freitagmittag.

Welche Arten von Artikeln sind dies?

Auch hier wird wochentags mehr publiziert.

Bei der Kronen Zeitung sind bezüglich der Artikellänge keine ausgeprägten Tendenzen zu sehen, die Publikationsmenge verteilt sich ab 6 Uhr morgens über den ganzen Tag. Längere Artikel werden hier praktisch nicht fabriziert. Eine Analyse der generellen Artikellänge in Zusammenhang mit Themen in den unterschiedlichen Zeitungen betrachten wir im nachfolgenden Beitrag.

Es ist auch wenig Unterschied zwischen Wochenende und normalen Wochentagen festzustellen.

Zu welchen Themen wird publiziert?

Ich möchte aber nicht nur wissen, wann und mit welcher Textlänge publiziert wird, sondern auch über welche Themen. Dazu habe ich die einzelnen Artikel einer automatischen Themenzuordnung unterzogen.

Die Analyse wurde mit der „News Intelligence Platform“ von „AYLIEN“ (https://aylien.com/) durchgeführt und als Kategorisierung „IAB“ (https://developers.mopub.com/publishers/ui/iab-category-blocking/) verwendet. Diese Kategorisierung wurde entwickelt, um Online-Werbeanzeigen die richtigen Inhalte zuordnen zu können.

In meinem Beispiel kamen nur die Hauptkategorien zum Einsatz.

Betrachten wir nun, wie viele Artikel in den wichtigsten Kategorien von den drei Nachrichtenproduzenten veröffentlicht wurden. Die Größe der Kreise spiegelt dabei die Gesamtzahl im betrachteten Zeitraum wider.

In allen drei Zeitungen ist „Law, Gov’t & Politics“ das klar dominierende Thema. Beim „Standard“ und „oe24.at“ gefolgt vom Bereich „Sport“. Überraschenderweise spielt dieser Bereich bei der „Krone“ keine so große Rolle. Dafür gibt es hier einen ausgeprägten Bereich „Home and Garden“.

Grafik von “DerStandard”

Nun sehen wir uns noch an, ob es Unterschiede gibt, wann die Artikel zu den verschiedenen Themen publiziert werden. Nachfolgende Grafik zeigt für Der Standard die Verteilung der Veröffentlichungen über die Zeit für die beiden häufigsten Kategorien „Politik“ und „Sport“.

Die Artikelanzahl für den Bereich Sport steigt am Morgen deutlich langsamer an als für Politik. Liegt das daran, dass über Sport morgens noch nicht zu viel zu berichten ist, oder daran, dass Sportredakteure gerne länger schlafen?

Die Daten für die Artikel von Krone und „oe24.at“ zeigen dasselbe Bild.

Ordnet man die einzelnen Artikel auch einer „Themenlandkarte“ zu, so ergibt sich ein Bild, wie sich die verschiedenen Artikel verteilen. Nachfolgende Grafik zeigt die Verteilung der Artikel und der wichtigsten Kategorien für Der Standard .

Nahe beieinander liegende Punkte stehen dabei für Artikel, die ähnlich sind, und die Farben geben die Themen wieder.

Für diese Abbildung wurde für den Titel jedes Artikels ein „Sentence Embedding“ (https://github.com/UKPLab/sentence-transformers) berechnet, das die Bedeutung des Titels kodiert. Mehr hierzu im Artikel:

https://medium.com/towards-artificial-intelligence/sentence-embeddings-with-sentence-transformers-library-7420fc6e3815

Anschließend wurde mit dem Verfahren „t-SNE“ ein dimensionsreduzierter 2D-Plot erzeugt. Mehr dazu im Artikel:

https://towardsdatascience.com/an-introduction-to-t-sne-with-python-example-5a3a293108d1

Wie sieht es mit der Länge der Artikel zu den Themen in den unterschiedlichen Medien aus?

Die durchschnittliche Textlänge bei der Kronen Zeitung unterscheidet sich von Thema zu Thema kaum und ist auch deutlich kürzer als bei Der Standard. Bei „oe24.at“ ist das Bild ähnlich mit der Ausnahme, dass die Artikel generell etwas länger sind und es für den Bereich „Automotive“ längere Beiträge gibt.

Die durchschnittliche Textlänge bei  Der Standard liegt beim Zehnfachen im Vergleich mit der  Kronen Zeitung. Da bestätigen die Daten das Vorurteil, dass Boulevardzeitungen kaum Text liefern. Der Standard weist auch signifikante Unterschiede in der Länge zwischen den Themengebieten auf. News-Beiträge sind zum Beispiel deutlich kürzer als der Rest.

Können wir etwas über einzelne Personen oder Redaktionsteile aussagen?

Manche Zeitungen kennzeichnen die Artikel mit den Namen der Redakteure oder mit Teilen der Redaktion. So lassen sich bei der Kronen Zeitung die Artikel den einzelnen Bundesländer-Redaktionen zuordnen – damit wird deutlich, wie aktiv die einzelnen Redaktionen sind.

Man sieht, dass über den gesamten betrachteten Zeitraum die Wiener Zentralredaktion am aktivsten ist und Bundesländer wie „Burgenland“ und „Vorarlberg“ nur wenig beitragen.

Wertet man Artikel aus, die den Namen des Autors aufweisen, so lassen sich personenbezogene Aussagen treffen. In der nachfolgenden Abbildung sind daher die Namen unkenntlich gemacht.

Der Auswertung können einige interessante Informationen entnommen werden, so erkennt man festangestellte Redakteure und freie Mitarbeiter leicht an der Anzahl ihrer Beiträge. Über den Farbcode können die Personen thematischen Bereichen zugeordnet werden, und Lücken in den Veröffentlichungen können auf Urlaube hindeuten. So können auch Indizien für gemeinsame Urlaube in der Redaktion aus solchen Grafiken gesammelt werden. Deuten diese auf eine nähere persönliche Beziehung der Personen hin?

Fazit

Fragestellungen und Informationen, wie die zuletzt genannten, deuten auf die Gefahr der Auswertungen hin. Dabei wurden ausschließlich öffentliche, frei verfügbare Daten verwendet. Die Brisanz entsteht erst durch die Aggregation und Verknüpfung vieler Daten zusammen mit der geeigneten Visualisierung. Der Mensch ist dann auf dieser Basis dank seiner großen Fähigkeiten zur Mustererkennung in der Lage, Schlüsse zu ziehen.

Ein Mitbewerber kann zum Beispiel die Themengebiete von Redakteuren identifizieren, um diese abzuwerben. Ein Vorgesetzter kann private Verbindungen von Mitarbeitern ausspähen – und vieles mehr …

Über diesen Blog

Hallo, mein Name ist Christian und du siehst hier das Tutorial Template aus dem Wordpress Template Tutorial auf Lernen²

Kategorien

Archiv