Przegląd prasy z ostatnich dwóch miesięcy, czyli rzut okiem na ponad 36 000 artykułów.

December 4, 2012
By

This post was kindly contributed by SmarterPoland » R - go there to comment and to read the full post.

Na początku października zacząłem kolekcjonować wpisy przesyłane w formacie RSS z kilku polskich portali informacyjnych. Między innymi (w kolejności alfabetycznej): bankier.pl, gazeta.pl, interia.pl, polityka.pl, tvn24.pl, wiadomosci24.pl, wp.pl, wyborcza.pl, rp.pl i kilka innych najpopularniejszych portali informacyjnych (popularność mierzona liczą odwiedzin zgodnie z alexa.com). Zbierane wpisy zawierają tytuły i streszczenia artykułów pojawiających się na tych portalach. Łącznie w ciągu dwóch miesięcy uzbierało się ponad 36500 wpisów. W formacie RSS nie mają zazwyczaj całej treści artykułu, która pojawia się na portalu, ale mają tytuł i streszczenie/pierwszy akapit. Mając takie streszczenia zobaczmy co ostatnio się działo. Kto o kim, co i dlaczego pisze.

Dane, które zebrałem są dostępne do pobrania w zakładce [zbiory danych] pod pozycją o nazwie RSS (uwaga ten plik ma 15 MB). Znajduje się tam również instrukcja jak wczytać te dane do programu R, można wiec samodzielnie z nimi eksperymentować. Dane są surowe (czytaj: zanieczyszczone), więc przed użyciem należy je oczyścić.

Z tymi danymi jeszcze będziemy pracować, ale dziś chciałbym pokazać kilka wstępnych wyników. Poniżej pokażę w jakich mediach poświęca się więcej uwagi którym politykom, w jakim kontekście pisze się o nauce, co się działo w Chinach, jakie ceny przyciągają uwagę, czego chce SLD i co pisano o Macieju Sthurze.

Ale po kolei.

Zacznę od pytania, które nurtowało mnie od dawna, mianowicie czy na różnych portalach informacyjnych będzie widać wyraźne faworyzowanie polityków którejś z partii. Czytając wiadomości krążące po sieci, można znaleźć wiele opinii, że ,,obiektywny dziennikarz” to oksymoronem. Ale wrażenia i opinie to jedno a twarde dane to drugie.

Jak powstał poniższy wykres? Sprawdziłem czyje nazwiska pojawiają się najczęściej w polskiej prasie. Pierwsza piątka to Tusk, Komorowski, Obama, Kaczyński i Pawlak. Ponieważ prezydenci zasługują na specjalne traktowanie to usunąłem ich z dalszych rozważań. Dla pozostałych trzech nazwisk zliczyłem liczbę wystąpień w tytułach artykułów z poszczególnych portali a następnie unormowałem te liczby. Po tej obróbce, dla każdego z portali mamy trzy liczby sumujące się do 1 pokazujące ,,widoczność” każdego z tych nazwisk w ramach portalu.

Pokażmy te rozkłady za pomocą wykresu trójkątnego. Zaznaczmy, że badana jest widoczność nazwiska a nie nastawienie treści w jakim się pojawia.

Najczęściej pojawiającym nazwiskiem jest nazwisko premiera, co nie jest zaskoczeniem. Procentowo najwięcej można go spotkać na portalach rp.pl i bankier.pl. Najrzadziej pojawia się na portalu wiadomosci24.pl. Drugie co do popularności jest nazwisko byłego premiera i te pojawia się na portalu wiadomosci24.pl dosyć często, w przeciwieństwie do bankier.pl. Trzecim z rozważanych nazwisk jest nazwisko byłego wicepremiera, które raczej znajdziemy na portalu bankier.pl czy TVN24.pl niż na portalu wp.pl. Można by powiedzieć, że każdy znajdzie coś dla siebie o ile szuka informacji o przewodniczącym którejś z partii. Nie ma widać większego celebryty niż szef partii.

Mając zebrane RSSy, możemy zrobić znaczenie więcej. Użyjmy platformy IBM Many Eyes i funkcji ,word tree’/,drzewo słów’ (używaliśmy jej już między innymi tutaj do wizualizacji drugiego expose premiera).
Drzewo słów pokazuje kontekst w którym znajduje się określone słowo lub sekwencja słów. Można poeksperymentować z tą funkcją na tytułach 36 000 artykułów z poprzednich dwóch miesięcy na tej stronie.

Poniżej pokażę kontekst w którym występowało kilka interesujących słów wraz z krótkimi komentarzami.

Zacznijmy od tego w jakim kontekście pojawia się słowo ,nauka’. (nasza prasa nie ma nawyku pisania pozytywnie o polskiej nauce, a szkoda)

Przyjrzeć się tytułom odnoszącym się do Macieja Stuhra (dostało mu się za Pokłosie, swoją drogą odpowiedź odpowiedź Pasikowskiego na całe zamieszanie – majstersztyk)

Sprawdzić co pisano o becikowym (bez zmian)

Zobaczyć cenami czego interesują się media (mieszkania, gaz i energia to stałe tematy)

A co pisano o Chinach (wybory przeszły niezauważone)

Pobawić się różnymi innymi pomysłami (np słowo egzamin)

Podsumować co z wypowiedzi W. Pawlaka znalazło się w mediach

J.w. ale dla W. Putina

Zobaczyć czego chce SLD

Jeżeli macie inne pomysły na słowa których można poszukać w tytułach to dane i narzędzie do ich analizy online
są dostępne tutaj.

Tags: , , , , , , ,

Comments are closed.