SER IX – Data science deathmatch: R vs. Python / Rozproszone obliczenia – SparkR

Najbliższy SER już 23 kwietnia! Zaczynamy o 18:00 od prezentacji, „Data science deathmatch: R vs. Python”, którą przedstawi Filip Cyprowski. Druga prezentację rozpocznie Filip Stachura o 19:00, tytuł referatu to „Rozproszone obliczenia – SparkR”. Pomiędzy prezentacjami zapraszamy na pizze i stymulujące rozmowy w kuluarach a o godzinie 20:00 zaczynamy afterparty w Kwadracie (http://www.kwadrat.waw.pl/) ul. Poznańska 7 […]

Интересное из мира R (6-12 апреля 2015 г.)

В блоге RStudio Хэдли Уикхэм (Hadley Wickham) объявил о выходе своего нового пакета readr, предназначенного для импорта данных в среду R. В отличие от функций базовой версии R, функции пакета…

R обладает неограниченными возможностями для анализа и визуализации данных. Узнай больше у меня на сайте!

PAZUR w Poznaniu

Dziś kilka słów od Macieja Beresewicza w sprawie planowanego na jutro PAZURa w Poznaniu. — Maciej Beresewicz SKN Estymator, Katedra Statystyki UEP oraz Katedra Metod Matematycznych i Statystycznych UP serdecznie zaprasza na kolejne spotkanie użytkowników R w Poznaniu, które odbędzie się 10 kwietnia (piątek). Zaplanowaliśmy dla Państwa dwa wystąpienia przygotowane przez pracowników Wydziału Matematyki i […]

Pogromcy Danych – największa w Polsce klasa przetwarzania i analizy danych w R

Przed chwilą ruszył pierwszy kurs z serii Pogromcy Danych. Dostęp przez stronę http://pogromcydanych.icm.edu.pl/, można logować się kontem na gmailu, facebooku lub na moodlu. Przed chwilą mieliśmy 1730 osób zgłoszonych uczestników. Liczba ta ciągle rośnie, ale już teraz jest to olbrzymia, mam nadzieję że uda się udźwignąć to zainteresowanie. Około południa zaczniemy rozsyłać maila z przypomnieniami […]

Интересное из мира R (30 марта – 5 апреля 2015 г.)

Импорт данных в R из Excel – довольно распространенная операция. Несмотря на наличие нескольких пакетов, позволяющих выполнять эту задачу, часто пользователи сталкиваются с разного рода проблемами. В…

R обладает неограниченными возможностями для анализа и визуализации данных. Узнай больше у меня на сайте!

中国政治坐标系数据的一点分析

清明节有点空闲,凑巧又看到一份很有趣的数据,下文是对这份数据的一点点分析结果。

1、数据整理
整体数据并不大,读到R里面首先做了点处理。
- 将选项(“强烈同意”,”同意”,”反对”,”强烈反对”) 映射为分值(2,1,-1,-2)
- 对出生年份进行转换,计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120)
- 怀疑70岁以上的人可能是乱写的,删除之。
- 将其它字符型也转为数字编号
- 将18岁以下而填写过高学历和过高收入的数据删除。
- 删除有缺失的数据。

2、有趣的发现
这个数据可以做的分析点有很多,我只做了其中一小部分,观察各种题目的相关性如何。因为已经是离散数据了,所以使用了标准化后的互信息来计算变量之间的相关性。这个数字应该是在0-1之间,发现大部分的回答相关性并不强,多在0.1以下。所以下面所谓相关的回答只是矮子里拔将军。

- 在50个问题中,哪两个问题的回答之间最相关?
发现第3题和第6题的回答相关性最高(0.13)。
[1] “发生重大社会安全事件时.即使认为信息公开会导致骚乱的风险.政府仍应该开放信息传播.”
[2] “由高校自主考试招生比全国统一考试招生更好.”

- 哪个问题和学历的相关性最高?
第41题相关性较高,得到相关性为0.009
[1] “两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何.”

- 哪个问题和年龄的相关性最高?
第35题相关性较高,为0.01。而且这个题目和收入的相关性也是最高的。
[1] “那些关系到国家安全.以及其他重要国计民生的领域.必须全部由国有企业掌控.”

- 哪个问题和性别的相关性最高?
第30题相关性较高,为0.077。让人比较惊奇的是,女性回答不给予补贴的比例比男性高。
[1] “改善低收入者生活的首要手段是国家给予财政补贴和扶持.”

- 哪些问题和收入有相关性?
这次使用了GBM模型,计算了问题回答对收入的重要性。发现如下三个问题是最重要的。(除了年龄、学历、性别因素之外)
[1] “条件允许的话应该武力统一台湾.” (负相关)
[2] “两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何.”(正相关)
[3] “国家领导人及开国领袖的形象可以作为文艺作品的丑化对象.” (正相关)

3、其它
最后还做了一个总体的分布图。根据出题者的思路,1-20题为政治方面,21-40题为经济方面,41-50题为文化方面,可以计算每个人在这三个方面的平均得分。我尝试将这三个维度进行散点图绘制。基本上是一个略有点扁的圆形。大部分人在中间,少数人在边缘。

当然后续有兴趣的同学也可以继续搞点聚类之类的事。或者是按照不同属性(收入、时间)来看看圆形的变化。参考代码在此

这份数据除了能了解国人整体的政治观点之外,还有两个奇特的用法。一个是用坐标距离来大致判断两个人是否可以做朋友。还可以用于大致判断某个人未来的收入。所以女性同胞们,千万不要去找那些要武力统一台湾的当自己男朋友。