Author Archive for 写长城的诗

数据科学的课程资源(转)

关于数据科学的问答:What is Data Science?How do I become a Data Scientist?How does Data Science differ from traditional statistical analysis?关于数据科学的课程:Concepts in Computing with Data, BerkeleyPractical Machine Learning, Be…

大数据分析的四类陷阱

高科技领域的人们正摩拳擦掌以迎接大数据(Big Data)时代的到来。大数据技术的本质是能够对数十亿的信息进行分析,从中获得有价值的洞见。例如惠普的研究人员就能根据Twitter来预测好莱…

清明时节说死刑

死刑是自人类社会发展以来就诞生的一种剥夺人生命的刑罚。死刑除了是对于不守规则的事件的惩罚外,也是对破坏规则的情况的一种极重度的威吓。这个史前就已有的制度,是对进行不容于社会的行为的严厉惩罚之一。世界上几乎每一个国家或地区都曾有过“死刑”这种刑罚制度,时至今日,仍有一些国家继续存有并继续执行死刑。然而多数国家已经废止了死刑,有些国家则是已经10年以上未执行过死刑,或是仅允许在战时使用死刑。

在最近卫报的一则文章中,根据从2007到2011年的死刑数据进行了一些可视化工作。特别是根据大赦国际最近公布的一份报告,给出了一份死刑执行情况的气泡地图。形象的说明了当今世界上还有哪些国家在判决与执行死刑。本文则是照猫画虎,以说明R语言中googleVis包ggplot2包的使用方法。

上图是利用卫报所提供的数据,将2007年到2011年所有判决死刑的数字按国别汇总。由于中国对该数据进行了保密,所以2009年后的数据没法得到。但仅基于前两年的数字,也有八千例左右的死刑判决,远超其它国家,所以可以从图上看到“红色的中国”。越是灰色的区域表示死刑判决越少,而白色的区域则是表示废除了死刑的国家,但俄罗斯应该是个例外,估计是缺乏数据的原因。大致来看,似乎社会经济发达的区域,死刑判决数较少。

下图则是从1991年到2011年间,保留死刑的国家数目和废除死刑国家数目的条形图。蓝色条形表示废除死刑国家数目的多少。很容易从图中看到在未来的趋势。

R代码如下:

data1 <- read.csv('d:/data.csv',T)
names(data1) <- c('country','code','sentenced')
library(googleVis)
g1 <- gvisGeoMap(data1, locationvar='code', numvar='sentenced','country',options=list(region='world',colors='[0xDCDCDC,0xEE2C2C,]' ,dataMode="regions",width=600, height=400))
plot(g1)
# print(g1, 'chart')
 
data2 <- read.csv('d:/data2.csv',T)
names(data2) <- c('year','executing','abolitionist')
library(reshape)
data2.melt <-melt(data2,measure=c('executing','abolitionist'))
library(ggplot2)
p <- ggplot(data2.melt,aes(x=factor(year),y=value,fill=variable))
p + geom_bar()

新书推荐:Machine Learning in Action

如果你经常阅读原版书籍,那你应该对那些印制精美的封面有很深刻的印象。例如O’Reilly的软件开发系列,都是采用最为简洁的黑白铜版画,主题是一两只珍稀动物。而另一家著名出版商Manning…

用R来进行布丰投针实验

在3月14日也就圆周率日那一天,果壳网推出一篇文章《圆周率日特献:π究竟牛B在哪里?》。其中就提到了布丰(Buffon)用投针实验来计算π的近似值。不过这篇文章并没有详细说明如何用软

Twitter的数据科学家是如何工作?

本文翻译自technologyreview对Edwin Chen的一篇访谈文章。Edwin Chen是一位在Twitter工作的数据科学家,在为Twitter工作之前,他在麻省理工学院学习纯数学和语言学。在这个访谈中,Edwin Chen给我们分享…

如何使用reshape包进行数据汇总

在数据分析过程中,利用各种图表进行数据探索是必要的前期工作。描述性统计中就包括了直方图、散点图等工具来探索连续数据,对于分类数据,则可以采用条形图、交叉分组表等工具。Exc…