Pięć rzeczy, których nie wiedzieliście o papieżach

This post was kindly contributed by SmarterPoland » R - go there to comment and to read the full post.

Jakiś czas temu trafiłem na blog aktuariusza Arthura Charpentiera, który pokazywał jak w programie R pobrać bezpośrednio z Internetu informację o latach sprawowania urzędu przez papieży [blog tutaj]. A następnie badał jak długo papieże sprawowali swój urząd na przestrzeni ostatnich 2000 lat.
Na wspomnianym blogu można np. zobaczyć czy czas sprawowania urzędu papieża zmienia się z wydłużającą się średnią życia w populacji (choć trudno o jednoznaczne wnioski, ponieważ nie mamy informacji o datach urodzenia papieży).
Po przeczytaniu tego bloga miałem wrażenie, że z pobranych danych można wyciągnąć znacznie więcej informacji, a same dane można ciekawiej pokazać.
Dziś pokażę jak wyglądała moja zabawa z tymi danymi.

Zacznijmy od wczytania danych.
Arthur Ch. parsował ręcznie kod HTML, ale zamiast tego mógł użyć funkcji readHTMLTable{XML}. Dzięki niej wczytanie danych z tej strony jest bardzo proste.

tabele <- readHTMLTable("http://oce.catholic.com/index.php?title=List_of_Popes")
tabelaZPapiezami <- tabele[[4]]

Jak długo papieże piastują swój urząd?

Histogramy nie zawsze są dobrym rozwiązaniem do pokazywania rozkładu zmiennej.
W przypadku badania czasu sprawowania urzędu, lepiej wykorzystać dwa narzędzia ze skrzynki z narzędziami do analizy przeżycia: funkcję przeżycia i funkcję hazardu.

Zacznijmy od funkcji przeżycia. Przedstawia ona, jaka część (procent) obiektów miała czas życia przynajmniej x. W naszym przypadku pokaże ona jaki procent papieży sprawowało swój urząd przez przynajmniej x lat.
Z poniższego wykresu wynika, że ponad połowa papieży sprawowała swój urząd przynajmniej 6 lat, ale również, mniej więcej jedna czwarta sprawowała swój urząd nie dłużej niż dwa lata.

Drugim narzędziem do prezentacji tego typu danych jest funkcja hazardu. W naszym przypadku, pokaże ona, jaka część papieży przestaje pełnić swój urząd w x’tym roku pełnienia urzędu.
W potocznym języku mówilibyśmy o ryzyku śmierci w x’tym roku, ale w statystyce, słowo ,ryzyko’ jest często używane w innych znaczeniach, dlatego mówimy tu o funkcji hazardu.

Na poniższym wykresie zaznaczono też przedziały ufności. Widzimy, że ryzyko śmierci jest bardzo wysokie w pierwszym roku. Później, przez wiele lat, utrzymuje się stałym, niższym poziomie 10% na rok.

Jeżeli chodzi o czasy życia, to interesowała mnie jeszcze hipoteza. Czy po papieżach, którzy krótko sprawowali swój urząd jest jakaś preferencja by wybrać papieża młodszego, mogącego potencjalnie dłużej sprawować swój urząd?
Innymi słowy, czy jest jakaś (dodatnia lub ujemna) autokorelacja w czasach życia papieży?

Aby uciec od założeń związanych z rozkładem wykorzystałem dwa testy nieparametryczne, jeden to test serii (runs.test()) a drugi to test dokładny Fishera (fisher.test()).

> table(poprzednik = W2[-266], nastepca = W2[-1])
         nastepca
poprzednik    5 lat lub mniej 6lat lub wiecej
 5 lat lub mniej       72       60
 6lat lub wiecej       60       73

Żaden z testów nie wykazał istotnych odstępstw od niezależności.

Ilu z papieży jest świętymi lub błogosławionymi?

Informację o czasie urzędowania można przedstawić w sposób ,,odwrotny”, tzn. pokazując liczbę papieży rozpoczynających urząd w kolejnych wiekach.
Przy okazji [ponieważ taka informacja była w danych] zaznaczyłem też, który papież został uznany za świętego lub błogosławionego.

Imiona

Kolejna rzecz, która mnie interesowała to imiona papieży. Zobaczmy najpierw jakie imiona papieże wybierali najczęściej. Do pokazania tego użyjemy chmury słów z funkcji wordcloud().

[ciekawostka: w numeracji imienia John doszło do pomyłki, przez co był papież John XXII, choć wszystkich Johnów było 21, btw: papieże o imieniu John Paul nie są wliczani do imion John ani Paul]

Wybierzmy teraz pięć najpopularniejszych imion papieży i zobaczmy czy imiona te cieszyły się różną popularnością w różnych okresach czasu.

Z poniższego wykresu wynika, że imię ,John’ było częste wśród papieży przed rokiem 1000, a po roku 1000 częściej zdarzały się imiona Innocent i Clement.
Imię Gregory cieszy się mniejszą ale stałą popularnością.

W tym katalogu, można znaleźć powyższe wykresy w postaci wektorowej, jak również skrypt R użyty do wykonania wszystkich powyższych wykresów (nie wklejam go poniżej ponieważ części kodu pochodzą z bloga Artura Ch. i są one bardzo bałaganiarskie ;-) ).