Welche Informationen verbergen sich in Online-Nachrichtenbeiträgen? Datenanalyse von Online News

Die von Tageszeitungen online publizierten Nachrichten stellen eine wichtige Informationsquelle dar. Dabei enthalten sie nicht nur die Aussagen, die verbreitet werden sollen, sondern auch implizit weitere Informationen über den Publisher und seine Angestellten. Dieser Informationsfluss ist in der Regel nicht beabsichtigt, und die Herausgeber sind sich dessen nicht einmal bewusst.

506 Data & Performance, Firs-Party Data Marketing

Dabei handelt es sich nicht um geheime versteckte Botschaften, die in einzelnen Nachrichten eingebettet sind, so wie manche Personen geheime Botschaften in Songs der „Beatles“ zu finden glauben, sondern um Informationen, die erst dann ersichtlich sind, wenn man eine Vielzahl von Daten gemeinsam und richtig kombiniert betrachtet. In diesem Beitrag möchte ich das anhand einiger Beispiele aufzeigen.

Ich werde im Beitrag zum Beispiel Hinweise finden, dass Redakteure der Tageszeitung Der Standard am Wochenende gerne länger schlafen und längere Beiträge am Morgen oder am Wochenende vormittags schreiben. Den restlichen Tag scheinen Agenturmeldungen zu dominieren.

Vor allem die Kronen Zeitung, aber auch das Portal „oe24.at“ publizieren, nicht unerwartet, kaum längere Artikel – dass es hier im Unterschied zu Der Standard um das Zehnfache geht, ist doch etwas überraschend.

Aus den Publikationen namentlich genannter Redakteure lassen sich Informationen gewinnen, wie ihr Urlaubsverhalten ist oder welchen anderen Redakteuren sie möglicherweise nahestehen.

Die Daten

Als Daten für die Beispiele habe ich die Nachrichtenartikel der Onlineausgabe von drei österreichischen Tageszeitungen ausgewählt:

Die beiden ersten sind dabei dem Boulevard zuzuordnen, Letztere wird als Qualitätszeitung bezeichnet.

Ich habe jeweils über einen Zeitraum von 3 Monaten (11. 8. 2020–9. 11. 2020) die Texte der Nachrichten, gemeinsam mit einigen Metadaten wie Veröffentlichungszeitpunkt, Autor etc., gesammelt. Das ergab ein Datenvolumen von:

Erster Überblick über die Daten

Um einen ersten Überblick über die Daten zu erhalten, betrachten wir die Anzahl an Artikeln, welche die unterschiedlichen Zeitungen an den einzelnen Tagen veröffentlicht haben.

Alle drei betrachteten Zeitungen weisen einen Wochenzyklus auf, der bei Der Standard am ausgeprägtesten ist, an den Wochenenden und Feiertagen wird deutlich weniger publiziert. Es werden im Schnitt etwas über 100 Artikel geschrieben. Auf „oe24.at“ seit Anfang Oktober deutlich mehr.

Wann werden Artikel geschrieben, und wie lang sind diese?

Betrachten wir nun die Tageszeit und den Wochentag, zu denen die Nachrichten veröffentlicht wurden. Die Größe der Punkte beschreibt dabei die Anzahl der Artikel. Der Farbcode gibt zusätzlich die durchschnittliche Textlänge (Anzahl der Worte) pro Zeitpunkt an. Blaue Kreise stehen für kurze Artikel, je dunkler der Rotton ist, desto länger sind die Artikel.

Publiziert wird überwiegend am Tag, und am Wochenende wird etwas später begonnen. Hier scheinen die Redakteure etwas länger schlafen zu wollen. Generell wird am Wochenende weniger veröffentlicht.

An der Einfärbung kann man sehen, dass sich die Redaktion von  Der Standard offenbar am Morgen jeden Tages und am Wochenende Zeit nimmt, lange Artikel zu schreiben, wie man das von einem „Qualitätsmedium“ erwartet.

Werden später am Tag hauptsächlich kurze Agenturmeldungen verbreitet?

Die nächste Abbildung zeigt ein etwas anderes Bild für die Redaktion von „Österreich – oe24.at“, hier gibt es nur eine geringe Anzahl längerer Artikel um 6 Uhr morgens, kurz vor Mitternacht und Freitagmittag.

Welche Arten von Artikeln sind dies?

Auch hier wird wochentags mehr publiziert.

Bei der Kronen Zeitung sind bezüglich der Artikellänge keine ausgeprägten Tendenzen zu sehen, die Publikationsmenge verteilt sich ab 6 Uhr morgens über den ganzen Tag. Längere Artikel werden hier praktisch nicht fabriziert. Eine Analyse der generellen Artikellänge in Zusammenhang mit Themen in den unterschiedlichen Zeitungen betrachten wir im nachfolgenden Beitrag.

Es ist auch wenig Unterschied zwischen Wochenende und normalen Wochentagen festzustellen.

Zu welchen Themen wird publiziert?

Ich möchte aber nicht nur wissen, wann und mit welcher Textlänge publiziert wird, sondern auch über welche Themen. Dazu habe ich die einzelnen Artikel einer automatischen Themenzuordnung unterzogen.

Die Analyse wurde mit der „News Intelligence Platform“ von „AYLIEN“ (https://aylien.com/) durchgeführt und als Kategorisierung „IAB“ (https://developers.mopub.com/publishers/ui/iab-category-blocking/) verwendet. Diese Kategorisierung wurde entwickelt, um Online-Werbeanzeigen die richtigen Inhalte zuordnen zu können.

In meinem Beispiel kamen nur die Hauptkategorien zum Einsatz.

Betrachten wir nun, wie viele Artikel in den wichtigsten Kategorien von den drei Nachrichtenproduzenten veröffentlicht wurden. Die Größe der Kreise spiegelt dabei die Gesamtzahl im betrachteten Zeitraum wider.

In allen drei Zeitungen ist „Law, Gov’t & Politics“ das klar dominierende Thema. Beim „Standard“ und „oe24.at“ gefolgt vom Bereich „Sport“. Überraschenderweise spielt dieser Bereich bei der „Krone“ keine so große Rolle. Dafür gibt es hier einen ausgeprägten Bereich „Home and Garden“.

Grafik von “DerStandard"

Nun sehen wir uns noch an, ob es Unterschiede gibt, wann die Artikel zu den verschiedenen Themen publiziert werden. Nachfolgende Grafik zeigt für Der Standard die Verteilung der Veröffentlichungen über die Zeit für die beiden häufigsten Kategorien „Politik“ und „Sport“.

Die Artikelanzahl für den Bereich Sport steigt am Morgen deutlich langsamer an als für Politik. Liegt das daran, dass über Sport morgens noch nicht zu viel zu berichten ist, oder daran, dass Sportredakteure gerne länger schlafen?

Die Daten für die Artikel von Krone und „oe24.at“ zeigen dasselbe Bild.

Ordnet man die einzelnen Artikel auch einer „Themenlandkarte“ zu, so ergibt sich ein Bild, wie sich die verschiedenen Artikel verteilen. Nachfolgende Grafik zeigt die Verteilung der Artikel und der wichtigsten Kategorien für Der Standard .

Nahe beieinander liegende Punkte stehen dabei für Artikel, die ähnlich sind, und die Farben geben die Themen wieder.

Für diese Abbildung wurde für den Titel jedes Artikels ein „Sentence Embedding“ (https://github.com/UKPLab/sentence-transformers) berechnet, das die Bedeutung des Titels kodiert. Mehr hierzu im Artikel:

https://medium.com/towards-artificial-intelligence/sentence-embeddings-with-sentence-transformers-library-7420fc6e3815

Anschließend wurde mit dem Verfahren „t-SNE“ ein dimensionsreduzierter 2D-Plot erzeugt. Mehr dazu im Artikel:

https://towardsdatascience.com/an-introduction-to-t-sne-with-python-example-5a3a293108d1

Wie sieht es mit der Länge der Artikel zu den Themen in den unterschiedlichen Medien aus?

Die durchschnittliche Textlänge bei der Kronen Zeitung unterscheidet sich von Thema zu Thema kaum und ist auch deutlich kürzer als bei Der Standard. Bei „oe24.at“ ist das Bild ähnlich mit der Ausnahme, dass die Artikel generell etwas länger sind und es für den Bereich „Automotive“ längere Beiträge gibt.

Die durchschnittliche Textlänge bei  Der Standard liegt beim Zehnfachen im Vergleich mit der  Kronen Zeitung. Da bestätigen die Daten das Vorurteil, dass Boulevardzeitungen kaum Text liefern. Der Standard weist auch signifikante Unterschiede in der Länge zwischen den Themengebieten auf. News-Beiträge sind zum Beispiel deutlich kürzer als der Rest.

Können wir etwas über einzelne Personen oder Redaktionsteile aussagen?

Manche Zeitungen kennzeichnen die Artikel mit den Namen der Redakteure oder mit Teilen der Redaktion. So lassen sich bei der Kronen Zeitung die Artikel den einzelnen Bundesländer-Redaktionen zuordnen – damit wird deutlich, wie aktiv die einzelnen Redaktionen sind.

Man sieht, dass über den gesamten betrachteten Zeitraum die Wiener Zentralredaktion am aktivsten ist und Bundesländer wie „Burgenland“ und „Vorarlberg“ nur wenig beitragen.

Wertet man Artikel aus, die den Namen des Autors aufweisen, so lassen sich personenbezogene Aussagen treffen. In der nachfolgenden Abbildung sind daher die Namen unkenntlich gemacht.

Der Auswertung können einige interessante Informationen entnommen werden, so erkennt man festangestellte Redakteure und freie Mitarbeiter leicht an der Anzahl ihrer Beiträge. Über den Farbcode können die Personen thematischen Bereichen zugeordnet werden, und Lücken in den Veröffentlichungen können auf Urlaube hindeuten. So können auch Indizien für gemeinsame Urlaube in der Redaktion aus solchen Grafiken gesammelt werden. Deuten diese auf eine nähere persönliche Beziehung der Personen hin?

Fazit

Fragestellungen und Informationen, wie die zuletzt genannten, deuten auf die Gefahr der Auswertungen hin. Dabei wurden ausschließlich öffentliche, frei verfügbare Daten verwendet. Die Brisanz entsteht erst durch die Aggregation und Verknüpfung vieler Daten zusammen mit der geeigneten Visualisierung. Der Mensch ist dann auf dieser Basis dank seiner großen Fähigkeiten zur Mustererkennung in der Lage, Schlüsse zu ziehen.

Ein Mitbewerber kann zum Beispiel die Themengebiete von Redakteuren identifizieren, um diese abzuwerben. Ein Vorgesetzter kann private Verbindungen von Mitarbeitern ausspähen – und vieles mehr …