Chinese

中国的环境状况在全球的位置

August 4, 2012
By
中国的环境状况在全球的位置

由美国耶鲁大学和哥伦比亚大学联合推出的“年度全球环境绩效指数”(EPI)排名在2012年年初放出。此排名旨在评估一个国家的环境政策,环境卫生与生态系统之平衡的状态,涵盖10项领域共...

Read more »

用igraph包探索世界航空网络

July 31, 2012
By
用igraph包探索世界航空网络

本文使用的数据仍然是上篇博文中用到的世界航班数据,不过本例不再仅限于中国国内航班。如果用社交网络的角度来观察数据,一个机场可以看作是一个人,而机场之间的来往航班可以看作...

Read more »

中国国内航线信息的可视化

July 26, 2012
By
中国国内航线信息的可视化

上图是对国内机场和航线信息进行了一个简单的可视化。圆点表示了中国163个机场的位置,线条显示了5381条航线。之前曾在这个网站上见到了作者用R语言来对全世界的航线进行可视化。正所

Read more »

用stringr包处理字符串

July 25, 2012
By
用stringr包处理字符串

《Machine Learning for Hackers》一书的合著者John Myles White近日接受了一个访谈。在访谈中他提到了自己在R中常用的几个扩展包,其中包括用ggplot2包来绘图,用glmnet包做回归,用tm包进行文本挖掘,...

Read more »

来玩一玩全球500强排行榜数据

July 23, 2012
By
来玩一玩全球500强排行榜数据

金融时报在7月20日公布了全球500强排行榜。根据这个数据尝试回答下面的一些问题。1. 哪个行业的上榜公司最多?看得出来,银行、石油、制药是前三强。2. 哪个国家的上榜公司最多?美国公...

Read more »

用gbm包来提升决策树能力

July 20, 2012
By
用gbm包来提升决策树能力

中国有句老话:三个臭皮匠,顶个诸葛亮。这个说法至少在变形金刚中得到了体现,没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领...

Read more »

随机森林及其副产品

July 15, 2012
By
随机森林及其副产品

随机森林(Random Forest)方法是Leo Breiman于2001年提出的一种集成学习(Ensemble Learning)方法,它是传统决策树方法的扩展,将多个决策树进行组合,来提高预测精度。随机森林利用分类回归树(CART)

Read more »

O’Reilly新书推荐:用R和Ruby来探索万物

July 13, 2012
By
O’Reilly新书推荐:用R和Ruby来探索万物

这本书绝对是个另类,它并不以严肃的学术研究或商业项目作为主题,而是以好玩为宗旨。用R和Ruby这两种免费工具,来探索我们身边的各种数据资源。首先作者用两章篇幅对Ruby和R作了一个

Read more »