Author Archive for smarterpoland

Czy ,,Friends” są istotnie lepsi niż ,,Breaking Bad”? Test dwóch grup na przykładzie IMDB

Tydzień temu pokazywałem aplikację pozwalającą na analizę trendu w ocenach seriali telewizyjnych. Aplikacja powstała by z jej pomocą omawiać regresję liniową. Dzisiaj kontynuujemy temat. Poniżej można pobawić się aplikacją pozwalającą na porównanie średnich ocen dwóch różnych seriali. Czy Friends są wyżej oceniani niż Breaking Bad? I czy ta różnica jest istotna statystycznie? Aby odpowiedzieć na […]

Spark + R = SparkR

Spark podbija coraz więcej serc. Nic dziwnego, skoro z wielu stron płyną komentarze o znaczącym (o rząd wielkości) przyśpieszeniu czasu potrzebnego na analizę dużych zbiorów danych. Mamy rozbudowany mechanizm składowania (cache) obiektów w pamięci, dzięki czemu wykonując iteracyjnie operacje na tych samych danych nie ma potrzeby katowania dysku. Jak dla mnie pewną wadą tej platformy […]

Dlaczego Game of Thrones rośnie a Family Guy spada

Przygotowałem taką małą apkę, pozwalającą na przyglądanie się trendom w średnich ocenach seriali. Dane o ocenach odcinków pobrałem z bazy danych IMDB. Kolorami oznaczone są seriale, czarna linia to regresja liniowa, szara kropkowana linia to lokalny wielomianowy trend. Apka jest przygotowana po to by opowiadać licealistom w ramach Matematyki dla Ciekawych Świata o co chodzi z […]

SER @ CINEMA, Machine Learning + Deep Learning [19 lutego]

Najbliższy spotkanie SERowe z żywymi prelegentami odbędzie się w marcu. W między czasie, 19 lutego, planujemy eksperyment grupowego oglądania filmów o Machine Learningu. Rozmawiałem ostatnio z Czarkiem D. o tym jak wiele ciekawych referatów nagrywa się podczas takich konferencji jak ICML, COLT czy NIPS. Od słowa do słowa zrodził się pomysł, by spotkać się i […]

Rozbieramy choinkę – część druga: shiny

Przed świętami pokazaliśmy interaktywną choinkę napędzaną statystykami popularności imion nadawanych dzieciom. Po świętach pokazaliśmy jak w pakiecie ggplot2 narysować choinkę. Wczoraj pomiędzy Pałacem Kultury i Nauki a Dworcem Centralnym natknąłem się na choinkę, która wciąż świeci. Przyznacie, że choinka w lutym wygląda już dziwnie. Potraktujmy to jako znak, że najwyższy czas do końca rozebrać i […]

Ładne mapy ciepła

Czy wiecie, na których skoczniach Kamil Stoch zdobył najwięcej punktów w poprzednim sezonie? Jakiś czas temu natknąłem się na pakiet pheatmaps dla programu R, który generuje ładniejsze mapy ciepła niż standardowy heatmap z R. Stąd też jego nazwa p(retty)heatmaps. Zobaczmy te mapy na przykładzie. Zazwyczaj pakiet pheatmaps jest wykorzystywany w genomice, ale my poniżej użyjemy […]

Wizualizacja danych PISA – eksperyment na MINI PW i MIM UW

Trochę wzorując się na Randym Pauschu, trochę z ciekawości, zrobiłem w tym semestrze taki oto eksperyment: Na dwóch bardzo dobrych wydziałach, czyli MIM na Uniwersytecie Warszawskim i MINI na Politechnice Warszawskiej, dla chętnych studentów poprowadziłem kurs Techniki Wizualizacji Danych. Podczas kursu większość czasu spędziliśmy z pakietem ggplot2, ale było też trochę czasu na shiny, rCharts, […]

Czy prosta regresja liniowa może pobić na głowę SVM i Random Forest?

Znajomy brał udział w projekcie, w którym na podstawie historii należało wykonać predykcję w przód cechy Y. Problem polegał na tym, że cecha Y wykazywała tendencje do wzrostu. Na potrzeby tego wpisu Y to może być mleczność krów lub zapotrzebowanie na energię czy cokolwiek innego co z czasem średnio rośnie. Rozmawialiśmy trochę o tym co […]