中国政治坐标系数据的一点分析

清明节有点空闲,凑巧又看到一份很有趣的数据,下文是对这份数据的一点点分析结果。

1、数据整理
整体数据并不大,读到R里面首先做了点处理。
- 将选项(“强烈同意”,”同意”,”反对”,”强烈反对”) 映射为分值(2,1,-1,-2)
- 对出生年份进行转换,计算出在2015年的年龄并分为10个年龄组(0,18,22,25,30,35,40,50,60,70,120)
- 怀疑70岁以上的人可能是乱写的,删除之。
- 将其它字符型也转为数字编号
- 将18岁以下而填写过高学历和过高收入的数据删除。
- 删除有缺失的数据。

2、有趣的发现
这个数据可以做的分析点有很多,我只做了其中一小部分,观察各种题目的相关性如何。因为已经是离散数据了,所以使用了标准化后的互信息来计算变量之间的相关性。这个数字应该是在0-1之间,发现大部分的回答相关性并不强,多在0.1以下。所以下面所谓相关的回答只是矮子里拔将军。

- 在50个问题中,哪两个问题的回答之间最相关?
发现第3题和第6题的回答相关性最高(0.13)。
[1] “发生重大社会安全事件时.即使认为信息公开会导致骚乱的风险.政府仍应该开放信息传播.”
[2] “由高校自主考试招生比全国统一考试招生更好.”

- 哪个问题和学历的相关性最高?
第41题相关性较高,得到相关性为0.009
[1] “两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何.”

- 哪个问题和年龄的相关性最高?
第35题相关性较高,为0.01。而且这个题目和收入的相关性也是最高的。
[1] “那些关系到国家安全.以及其他重要国计民生的领域.必须全部由国有企业掌控.”

- 哪个问题和性别的相关性最高?
第30题相关性较高,为0.077。让人比较惊奇的是,女性回答不给予补贴的比例比男性高。
[1] “改善低收入者生活的首要手段是国家给予财政补贴和扶持.”

- 哪些问题和收入有相关性?
这次使用了GBM模型,计算了问题回答对收入的重要性。发现如下三个问题是最重要的。(除了年龄、学历、性别因素之外)
[1] “条件允许的话应该武力统一台湾.” (负相关)
[2] “两个成年人之间自愿的性行为是其自由.无论其婚姻关系为何.”(正相关)
[3] “国家领导人及开国领袖的形象可以作为文艺作品的丑化对象.” (正相关)

3、其它
最后还做了一个总体的分布图。根据出题者的思路,1-20题为政治方面,21-40题为经济方面,41-50题为文化方面,可以计算每个人在这三个方面的平均得分。我尝试将这三个维度进行散点图绘制。基本上是一个略有点扁的圆形。大部分人在中间,少数人在边缘。

当然后续有兴趣的同学也可以继续搞点聚类之类的事。或者是按照不同属性(收入、时间)来看看圆形的变化。参考代码在此

这份数据除了能了解国人整体的政治观点之外,还有两个奇特的用法。一个是用坐标距离来大致判断两个人是否可以做朋友。还可以用于大致判断某个人未来的收入。所以女性同胞们,千万不要去找那些要武力统一台湾的当自己男朋友。

Метод “случайный лес” помогает понять факторы, определяющие расселение чужеродного вида

Двустворчатый моллюск дрейссена речная (Dreissena polymorpha) является одним из наиболее агрессивных пресноводных видов-вселенцев. Выходец из Понто-Каспийского региона, этот вид сегодня встречается…

R обладает неограниченными возможностями для анализа и визуализации данных. Узнай больше у меня на сайте!

Membuat bagian bawah plot yang lebih lebar

Saya pernah berhadapan dengan masalah dengan terpotongnya label pada sumbu-x (horizontal), karena lebel yang digunakan terlalu panjang.  Koding berikut ini akan menjelaskannya.

cacah ->
labels -list>
for (i in 1:10) {

 labels[i]“,-paste>
   i,sep=”")
}

barplot( height=cacah, names.arg=labels, horiz=F,  

  las=2,col=”lightblue”, main=”Before”)

Perhatikan label pada sumbu-x gambar di atas, nampak labelnya sedikit terpotong.  Untuk mengatasi itu kita gunakan parameter mar.

“mar” merupakan vektor numerik yang berbentuk c(bawah, kiri, atas, kanan), nilai vektor ini memberikan ukuran lebar margin pada keempat sisi plot.  Nilai defaultnya adalah c(5, 4, 4, 2)

#melebarkan 6 poin disisi bawah
op ->
barplot( height=cacah, names.arg=labels, horiz=F, las=2,col=”skyblue”,

   main=”Setelah”)

rm(op)

Hasilnya dibserikan oleh gambar di bawah ini:


Robisz to źle, czyli jak źle pokazać liczby zebranych głosów

W ostatnich dniach od trzech osób (dziękuję Krzysztofowi T., Maciejowi B. i Markowi S.) dostałem link do artykułu ,,prezentującego” liczby zebranych głosów przez kandydatów na prezydenta (źródło gazeta.pl). Sugeruję przyjrzenie się wykresom z tego artykułu połączone z próbą odnalezienia przynajmniej trzech problemów z prezentacją. Trzy problemy, które mnie rzuciły się w oczy to: 1. Wysokość […]

Диагностика линейных регрессионных моделей. Часть 3

Это сообщение является последним по теме диагностики линейных моделей (см. первые две части здесь и здесь). Обсуждение этой темы мы завершим рассмотрением наиболее распространенных количественных…

R обладает неограниченными возможностями для анализа и визуализации данных. Узнай больше у меня на сайте!

Интересное из мира R (23-29 марта 2015 г.)

Во вторник на этой неделе состоялся вебинар “Reproducibility with Revolution R Open and the Checkpoint Package”, организованный, как несложно догадаться, компанией Revolution Analytics. Обсуждался…

R обладает неограниченными возможностями для анализа и визуализации данных. Узнай больше у меня на сайте!