/ Blog

Welche Informationen verbergen sich in Online-NachrichtenbeitrÀgen? Datenanalyse von Online News

Die von Tageszeitungen online publizierten Nachrichten stellen eine wichtige Informationsquelle dar. Dabei enthalten sie nicht nur die Aussagen, die verbreitet werden sollen, sondern auch implizit weitere Informationen ĂŒber den Publisher und seine Angestellten. Dieser Informationsfluss ist in der Regel nicht beabsichtigt, und die Herausgeber sind sich dessen nicht einmal bewusst.

Andreas Stöckl

Dabei handelt es sich nicht um geheime versteckte Botschaften, die in einzelnen Nachrichten eingebettet sind, so wie manche Personen geheime Botschaften in Songs der „Beatles“ zu finden glauben, sondern um Informationen, die erst dann ersichtlich sind, wenn man eine Vielzahl von Daten gemeinsam und richtig kombiniert betrachtet. In diesem Beitrag möchte ich das anhand einiger Beispiele aufzeigen.

Ich werde im Beitrag zum Beispiel Hinweise finden, dass Redakteure der Tageszeitung Der Standard am Wochenende gerne lÀnger schlafen und lÀngere BeitrÀge am Morgen oder am Wochenende vormittags schreiben. Den restlichen Tag scheinen Agenturmeldungen zu dominieren.

Vor allem die Kronen Zeitung, aber auch das Portal „oe24.at“ publizieren, nicht unerwartet, kaum lĂ€ngere Artikel – dass es hier im Unterschied zu Der Standard um das Zehnfache geht, ist doch etwas ĂŒberraschend.

Aus den Publikationen namentlich genannter Redakteure lassen sich Informationen gewinnen, wie ihr Urlaubsverhalten ist oder welchen anderen Redakteuren sie möglicherweise nahestehen.

Die Daten

Als Daten fĂŒr die Beispiele habe ich die Nachrichtenartikel der Onlineausgabe von drei österreichischen Tageszeitungen ausgewĂ€hlt:

Die beiden ersten sind dabei dem Boulevard zuzuordnen, Letztere wird als QualitÀtszeitung bezeichnet.

Ich habe jeweils ĂŒber einen Zeitraum von 3 Monaten (11. 8. 2020–9. 11. 2020) die Texte der Nachrichten, gemeinsam mit einigen Metadaten wie Veröffentlichungszeitpunkt, Autor etc., gesammelt. Das ergab ein Datenvolumen von:

Erster Überblick ĂŒber die Daten

Um einen ersten Überblick ĂŒber die Daten zu erhalten, betrachten wir die Anzahl an Artikeln, welche die unterschiedlichen Zeitungen an den einzelnen Tagen veröffentlicht haben.

Alle drei betrachteten Zeitungen weisen einen Wochenzyklus auf, der bei Der Standard am ausgeprĂ€gtesten ist, an den Wochenenden und Feiertagen wird deutlich weniger publiziert. Es werden im Schnitt etwas ĂŒber 100 Artikel geschrieben. Auf „oe24.at“ seit Anfang Oktober deutlich mehr.

Wann werden Artikel geschrieben, und wie lang sind diese?

Betrachten wir nun die Tageszeit und den Wochentag, zu denen die Nachrichten veröffentlicht wurden. Die GrĂ¶ĂŸe der Punkte beschreibt dabei die Anzahl der Artikel. Der Farbcode gibt zusĂ€tzlich die durchschnittliche TextlĂ€nge (Anzahl der Worte) pro Zeitpunkt an. Blaue Kreise stehen fĂŒr kurze Artikel, je dunkler der Rotton ist, desto lĂ€nger sind die Artikel.

Publiziert wird ĂŒberwiegend am Tag, und am Wochenende wird etwas spĂ€ter begonnen. Hier scheinen die Redakteure etwas lĂ€nger schlafen zu wollen. Generell wird am Wochenende weniger veröffentlicht.

An der EinfĂ€rbung kann man sehen, dass sich die Redaktion von  Der Standard offenbar am Morgen jeden Tages und am Wochenende Zeit nimmt, lange Artikel zu schreiben, wie man das von einem „QualitĂ€tsmedium“ erwartet.

Werden spÀter am Tag hauptsÀchlich kurze Agenturmeldungen verbreitet?

Die nĂ€chste Abbildung zeigt ein etwas anderes Bild fĂŒr die Redaktion von „Österreich – oe24.at“, hier gibt es nur eine geringe Anzahl lĂ€ngerer Artikel um 6 Uhr morgens, kurz vor Mitternacht und Freitagmittag.

Welche Arten von Artikeln sind dies?

Auch hier wird wochentags mehr publiziert.

Bei der Kronen Zeitung sind bezĂŒglich der ArtikellĂ€nge keine ausgeprĂ€gten Tendenzen zu sehen, die Publikationsmenge verteilt sich ab 6 Uhr morgens ĂŒber den ganzen Tag. LĂ€ngere Artikel werden hier praktisch nicht fabriziert. Eine Analyse der generellen ArtikellĂ€nge in Zusammenhang mit Themen in den unterschiedlichen Zeitungen betrachten wir im nachfolgenden Beitrag.

Es ist auch wenig Unterschied zwischen Wochenende und normalen Wochentagen festzustellen.

Zu welchen Themen wird publiziert?

Grafik von "DerStandard"

Ich möchte aber nicht nur wissen, wann und mit welcher TextlĂ€nge publiziert wird, sondern auch ĂŒber welche Themen. Dazu habe ich die einzelnen Artikel einer automatischen Themenzuordnung unterzogen.

Die Analyse wurde mit der „News Intelligence Platform“ von „AYLIEN“ (https://aylien.com/) durchgefĂŒhrt und als Kategorisierung „IAB“ (https://developers.mopub.com/publishers/ui/iab-category-blocking/) verwendet. Diese Kategorisierung wurde entwickelt, um Online-Werbeanzeigen die richtigen Inhalte zuordnen zu können.

In meinem Beispiel kamen nur die Hauptkategorien zum Einsatz.

Betrachten wir nun, wie viele Artikel in den wichtigsten Kategorien von den drei Nachrichtenproduzenten veröffentlicht wurden. Die GrĂ¶ĂŸe der Kreise spiegelt dabei die Gesamtzahl im betrachteten Zeitraum wider.

In allen drei Zeitungen ist „Law, Gov’t & Politics“ das klar dominierende Thema. Beim „Standard“ und „oe24.at“ gefolgt vom Bereich „Sport“. Überraschenderweise spielt dieser Bereich bei der „Krone“ keine so große Rolle. DafĂŒr gibt es hier einen ausgeprĂ€gten Bereich „Home and Garden“.

 

Nun sehen wir uns noch an, ob es Unterschiede gibt, wann die Artikel zu den verschiedenen Themen publiziert werden. Nachfolgende Grafik zeigt fĂŒr Der Standard die Verteilung der Veröffentlichungen ĂŒber die Zeit fĂŒr die beiden hĂ€ufigsten Kategorien „Politik“ und „Sport“.

Die Artikelanzahl fĂŒr den Bereich Sport steigt am Morgen deutlich langsamer an als fĂŒr Politik. Liegt das daran, dass ĂŒber Sport morgens noch nicht zu viel zu berichten ist, oder daran, dass Sportredakteure gerne lĂ€nger schlafen?

Die Daten fĂŒr die Artikel von Krone und „oe24.at“ zeigen dasselbe Bild.

Ordnet man die einzelnen Artikel auch einer „Themenlandkarte“ zu, so ergibt sich ein Bild, wie sich die verschiedenen Artikel verteilen. Nachfolgende Grafik zeigt die Verteilung der Artikel und der wichtigsten Kategorien fĂŒr Der Standard .

Nahe beieinander liegende Punkte stehen dabei fĂŒr Artikel, die Ă€hnlich sind, und die Farben geben die Themen wieder.

FĂŒr diese Abbildung wurde fĂŒr den Titel jedes Artikels ein „Sentence Embedding“ (https://github.com/UKPLab/sentence-transformers) berechnet, das die Bedeutung des Titels kodiert. Mehr hierzu im Artikel:

https://medium.com/towards-artificial-intelligence/sentence-embeddings-with-sentence-transformers-library-7420fc6e3815

Anschließend wurde mit dem Verfahren „t-SNE“ ein dimensionsreduzierter 2D-Plot erzeugt. Mehr dazu im Artikel:

https://towardsdatascience.com/an-introduction-to-t-sne-with-python-example-5a3a293108d1

Wie sieht es mit der LĂ€nge der Artikel zu den Themen in den unterschiedlichen Medien aus?

Die durchschnittliche TextlĂ€nge bei der Kronen Zeitung unterscheidet sich von Thema zu Thema kaum und ist auch deutlich kĂŒrzer als bei Der Standard. Bei „oe24.at“ ist das Bild Ă€hnlich mit der Ausnahme, dass die Artikel generell etwas lĂ€nger sind und es fĂŒr den Bereich „Automotive“ lĂ€ngere BeitrĂ€ge gibt.

Die durchschnittliche TextlĂ€nge bei  Der Standard liegt beim Zehnfachen im Vergleich mit der  Kronen Zeitung. Da bestĂ€tigen die Daten das Vorurteil, dass Boulevardzeitungen kaum Text liefern. Der Standard weist auch signifikante Unterschiede in der LĂ€nge zwischen den Themengebieten auf. News-BeitrĂ€ge sind zum Beispiel deutlich kĂŒrzer als der Rest.

Können wir etwas ĂŒber einzelne Personen oder Redaktionsteile aussagen?

Manche Zeitungen kennzeichnen die Artikel mit den Namen der Redakteure oder mit Teilen der Redaktion. So lassen sich bei der Kronen Zeitung die Artikel den einzelnen BundeslĂ€nder-Redaktionen zuordnen – damit wird deutlich, wie aktiv die einzelnen Redaktionen sind.

Man sieht, dass ĂŒber den gesamten betrachteten Zeitraum die Wiener Zentralredaktion am aktivsten ist und BundeslĂ€nder wie „Burgenland“ und „Vorarlberg“ nur wenig beitragen.

Wertet man Artikel aus, die den Namen des Autors aufweisen, so lassen sich personenbezogene Aussagen treffen. In der nachfolgenden Abbildung sind daher die Namen unkenntlich gemacht.

Der Auswertung können einige interessante Informationen entnommen werden, so erkennt man festangestellte Redakteure und freie Mitarbeiter leicht an der Anzahl ihrer BeitrĂ€ge. Über den Farbcode können die Personen thematischen Bereichen zugeordnet werden, und LĂŒcken in den Veröffentlichungen können auf Urlaube hindeuten. So können auch Indizien fĂŒr gemeinsame Urlaube in der Redaktion aus solchen Grafiken gesammelt werden. Deuten diese auf eine nĂ€here persönliche Beziehung der Personen hin?

Fazit

Fragestellungen und Informationen, wie die zuletzt genannten, deuten auf die Gefahr der Auswertungen hin. Dabei wurden ausschließlich öffentliche, frei verfĂŒgbare Daten verwendet. Die Brisanz entsteht erst durch die Aggregation und VerknĂŒpfung vieler Daten zusammen mit der geeigneten Visualisierung. Der Mensch ist dann auf dieser Basis dank seiner großen FĂ€higkeiten zur Mustererkennung in der Lage, SchlĂŒsse zu ziehen.

Ein Mitbewerber kann zum Beispiel die Themengebiete von Redakteuren identifizieren, um diese abzuwerben. Ein Vorgesetzter kann private Verbindungen von Mitarbeitern ausspĂ€hen – und vieles mehr ...

Jetzt fĂŒr unseren Newsletter anmelden!