Matematyka, PISA, zajęcia z modeli liniowych i mieszanych

March 7, 2013
By

This post was kindly contributed by SmarterPoland » R - go there to comment and to read the full post.

Dziś mamy kolejny gościnny wpis. Tym razem poświęcony analizie danych PISA pod kątem cech korelujących z wynikami testu z matematyki. Dane PISA to źródło wielu ciekawych informacji, pracowaliśmy z nimi podczas poprzednich wakacji z wolontariuszami i będziemy jeszcze nie raz z nimi pracować.

Zanim przejdę do gościnnego wpisu streszczę historię jego powstania. Wiem, że wśród czytelników są osoby zaangażowane/uwikłane w dydaktykę przedmiotów związanych z analizą danych. Mam nadzieję, że dla nich ten rys historyczny będzie ciekawy.

W semestrze zimowym prowadziłem przedmiot dotyczący modelowania z użyciem modeli liniowych i mieszanych. Zaliczenie można było uzyskać na podstawie pięciu projektów. Wszystkie projekty dotyczyły analizy tego samego zbioru danych PISA 2009. Najlepsze wyniki z pierwszego projektu były przedstawiane publicznie, by każdy mógł z nich skorzystać i zrobić coś lepszego na drugim projekcie. Później najlepsze wyniki z drugiego projektu były przedstawiane publicznie tak by każdy mógł z nich skorzystać i zrobić coś lepszego na trzecim projekcie, i tak dalej.
Mamy więc pięć projektów dotyczących tego samego zbioru danych. Celem każdego z projektów jest opisanie, co wpływa na wyniki uczniów z egzaminu z matematyki. Zapisanych było około 20 studentów i wszyscy oni pięciokrotnie podchodzili do tego problemu. W miarę jak na wykładzie pojawiały się coraz bardziej zaawansowane techniki, widać było co nowego dzięki nim możemy odkryć/pokazać w zbiorze danych PISA.
Ostatni projekt polegał na przygotowaniu i przedstawieniu w postaci plakatu struktury zależności pomiędzy zmiennymi.
Mòj plan był prosty. Przez cztery projekty studenci szukali interesujących zależności, a w ostatnim projekcie najciekawsze rzeczy należało podsumować na jednej kartce/plakacie. Idealnie by było, gdyby taki plakat mógł zastąpić kilkudziesięciostronicowy raport z setką wykresów.

Poniżej mam przyjemność przedstawić jeden z lepszych wyników tego eksperymentu. Projekt wykonany przez Barbarę Rubikowską, Jana Gąskę, Krzysztofa Opalskiego i Marcina Wnuka. Prezentacja plakatów była ustna, ale na potrzebę tego bloga autorzy przygotowali krótki opis wyników.

Efekt szkoły i sposobu nauki

Barbara Rubikowska, Jan Gąska, Krzysztof Opalski, Marcin Wnuk

Wersja pdf plakatu.

W badaniu PISA, poza samymi wynikami testów, zebrane są różnorodne informacje na temat ucznia, jego rodziców i szkoły, w której się uczy. Dzięki temu mogliśmy sprawdzić, jak płeć, sposób nauki oraz efekt szkoły wpływają na wynik ucznia w teście z matematyki.

Aby zbadać wyżej postawiony problem, postanowiliśmy zbudować dwa modele: liniowy i mieszany. Bazą modeli (efektami stałymi uwzględnionymi w obu modelach) są płeć oraz zmienne opisujące sposób nauki. Tych ostatnich dane PISA zawierały aż kilkanaście; my postanowiliśmy ograniczyć ich liczbę do sześciu najbardziej istotnych statystycznie. Opis tych zmiennych wraz ze statystykami odpowiedzi, wykresami pudełkowymi obrazującymi wpływ zmiennych na wynik z matematyki oraz współczynnikami i p-wartościami w obu zbudowanych modelach, znajduje się po prawej stronie plakatu.

Modele różnią się między sobą sposobem uwzględnienia efektu szkoły. W przypadku modelu liniowego jest to efekt stały – do równania modelu dodaliśmy kilka istotnych statystycznie zmiennych związanych ze szkołą, do której dany uczeń uczęszcza. Opis tych zmiennych wraz ze statystykami odpowiedzi, wykresami i współczynnikami w modelu liniowym znajduje się po lewej stronie plakatu. W modelu mieszanym szkoła jest efektem losowym.

Modele zbudowaliśmy za pomocą pakietu R. Na środku plakatu znajduje się podsumowanie modeli. P-wartości w testach, w których hipotezą zerową jest nieistotność danej zmiennej, są bliskie zeru (R sygnalizuje nam to za pomocą znaku ***), więc możemy uznać, że wszystkie zmienne uwzględnione jako efekty stałe istotnie wpływają na wynik z matematyki uzyskany przez ucznia. Również efekt losowy szkoły okazał się istotny; w modelu mieszanym odpowiada za około 1/6 zmienności wyniku.

Poniżej podsumowania każdego z modeli znajdują się wyniki testów diagnostycznych oraz wykresy diagnostyczne dla tego modelu. Wynika z nich, że zarówno założenia modelu liniowego (normalność reszt, niezależność reszt od zmiennej objaśnianej, jednorodność wariancji reszt, brak obserwacji odstających), jak i modelu mieszanego (niezależność efektów losowych od reszt oraz normalność tych dwóch wielkości) są spełnione bądź tylko nieznacznie naruszone.

Interpretacja modeli oraz możliwe wnioski z nich płynące znajdują się na dole plakatu. Ciekawą zmienną okazał się logarytm z liczby uczniów, który w miejscowościach wiejskich i w małych miastach wpływa dodatnio na wyniki uczniów, a w dużych miastach raczej ujemnie (wykres w lewym dolnym rogu). Najlepiej wypadli w teście uczniowie szkół prywatnych w dużych miastach, których rodzice wywierają presję na szkołę. Lepsze wyniki z matematyki uzyskują ogólnie chłopcy, uczniowie, którzy do nauki podchodzą rozsądnie: nie „wkuwają” materiału, tylko starają się go zrozumieć, zapamiętać najważniejsze rzeczy i odnieść to, czego się uczą, do wiedzy zdobytej wcześniej. Pamiętajmy jednak, że są to tylko ogólne tendencje – jeśli dobrze przyjrzymy się wykresom pudełkowym, zauważymy, że najlepszy wynik w Polsce (jedyny powyżej 800 punktów) uzyskał uczeń z miejscowości wiejskiej uczęszczający do szkoły publicznej, w której rodzice nie wywierają presji na placówkę.

Tags: , , , ,

Comments are closed.