Author: 写长城的诗

红楼梦文本折腾纪要

虽然对红学一无所知,也不敢说精于文本挖掘,但并不妨碍我们勇于折腾的生活方式。上周参加了第五届R会议,学到不少好东西,其中一个就是中文分词的工具。当然就找个对象来折腾一下

被knitr包给震撼到了

在食神这部电影中,薛小燕以极为夸张的方式表现了黯然销魂饭有多么好吃。各位可回想一下这个场景,只不过将赞叹的对象换成knitr包。knitr包是谢益辉创建的一个用于生成动态报告的R语言

用glmnet包实施套索算法(LASSO)

当我们使用数据训练分类器的时候,很重要的一点就是要在过度拟合与拟合不足之间达成一个平衡。防止过度拟合的一种方法就是对模型的复杂度进行约束。模型中用到解释变量的个数是模型…

尝试用animation包来玩GIF动画

谢益辉创建的这个animation包实在是很好玩,上面这个GIF动画就是用lattic包绘制的静态图形构建的。要在R里面玩动画除了要安装animation包之外,还需要安装配套软件。例如安装ImageMagick,以方便…

rpart包和party包的简单比较

决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强,不怕噪声数据和缺失数据。决策树模型的基本计算步骤如下:…

分享几本数据挖掘书籍

The Elements of Statistical Learning: Data Mining, Inference, and Prediction广受推崇的统计学习书籍,重视理论基础,图文并茂,各种算法讲解清晰。但没有涉及实务中的问题,如特征选择。Principles_of_Data_Mini…

用ggplot2包来绘制地图

自从四月份进行重大升级之后,0.90版的ggplot2包更新了很多新功能。之前的博文谈到了升级版的二维直方图。今天我们要谈的是绘制地图的新功能。其图形元素主要是通过geom_map来实现,在它