Blog Archives

中国国内航线信息的可视化

July 26, 2012
By
中国国内航线信息的可视化

上图是对国内机场和航线信息进行了一个简单的可视化。圆点表示了中国163个机场的位置,线条显示了5381条航线。之前曾在这个网站上见到了作者用R语言来对全世界的航线进行可视化。正所

Read more »

用stringr包处理字符串

July 25, 2012
By
用stringr包处理字符串

《Machine Learning for Hackers》一书的合著者John Myles White近日接受了一个访谈。在访谈中他提到了自己在R中常用的几个扩展包,其中包括用ggplot2包来绘图,用glmnet包做回归,用tm包进行文本挖掘,...

Read more »

来玩一玩全球500强排行榜数据

July 23, 2012
By
来玩一玩全球500强排行榜数据

金融时报在7月20日公布了全球500强排行榜。根据这个数据尝试回答下面的一些问题。1. 哪个行业的上榜公司最多?看得出来,银行、石油、制药是前三强。2. 哪个国家的上榜公司最多?美国公...

Read more »

用gbm包来提升决策树能力

July 20, 2012
By
用gbm包来提升决策树能力

中国有句老话:三个臭皮匠,顶个诸葛亮。这个说法至少在变形金刚中得到了体现,没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领...

Read more »

随机森林及其副产品

July 15, 2012
By
随机森林及其副产品

随机森林(Random Forest)方法是Leo Breiman于2001年提出的一种集成学习(Ensemble Learning)方法,它是传统决策树方法的扩展,将多个决策树进行组合,来提高预测精度。随机森林利用分类回归树(CART)

Read more »

O’Reilly新书推荐:用R和Ruby来探索万物

July 13, 2012
By
O’Reilly新书推荐:用R和Ruby来探索万物

这本书绝对是个另类,它并不以严肃的学术研究或商业项目作为主题,而是以好玩为宗旨。用R和Ruby这两种免费工具,来探索我们身边的各种数据资源。首先作者用两章篇幅对Ruby和R作了一个

Read more »

在R中进行基于稳健马氏距离的异常检验

July 11, 2012
By
在R中进行基于稳健马氏距离的异常检验

我们研究的数据中经常包含着一些不同寻常的样本,这称之为异常值(Outlier)。这些异常值会极大的影响回归或分类的效果。异常值产生的原因有很多,其中可能是人为错误、数据测量误差,或...

Read more »

谈一谈支持向量机分类器

July 6, 2012
By
谈一谈支持向量机分类器

支持向量机(Support Vector Machine)名字听起来很炫,功能也很炫,但公式理解起来常有眩晕感。所以本文尝试不用一个公式来说明SVM的原理,以保证不吓跑一个读者。理解SVM有四个关键名词:

Read more »