Author Archive for 写长城的诗

用glmnet包实施套索算法(LASSO)

当我们使用数据训练分类器的时候,很重要的一点就是要在过度拟合与拟合不足之间达成一个平衡。防止过度拟合的一种方法就是对模型的复杂度进行约束。模型中用到解释变量的个数是模型…

尝试用animation包来玩GIF动画

谢益辉创建的这个animation包实在是很好玩,上面这个GIF动画就是用lattic包绘制的静态图形构建的。要在R里面玩动画除了要安装animation包之外,还需要安装配套软件。例如安装ImageMagick,以方便…

rpart包和party包的简单比较

决策树模型是一种简单易用的非参数分类器。它不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强,不怕噪声数据和缺失数据。决策树模型的基本计算步骤如下:…

分享几本数据挖掘书籍

The Elements of Statistical Learning: Data Mining, Inference, and Prediction广受推崇的统计学习书籍,重视理论基础,图文并茂,各种算法讲解清晰。但没有涉及实务中的问题,如特征选择。Principles_of_Data_Mini…

用ggplot2包来绘制地图

自从四月份进行重大升级之后,0.90版的ggplot2包更新了很多新功能。之前的博文谈到了升级版的二维直方图。今天我们要谈的是绘制地图的新功能。其图形元素主要是通过geom_map来实现,在它

为KNN分类器增加Cross-Validation功能

有这么一句很有趣的话,如果一个东西走路象鸭子、叫起来象鸭子、吃起来也象鸭子,那它就是一只鸭子。这是一种很符合我们直觉的思维方式:将未知的对象和已知的东西相比较,如果各个…

日历中的夏天

看着有节,摸着无节–打一生活用品不知不觉,夏日已慢慢临近。姑娘们飞扬的裙角,小贩叫卖的西瓜,蚊蝇嗡嗡的声音,以及翻过的一页日历,都提醒着你–夏天快来了。夏季有着不同的定

关于机器学习的几个视频资源

最著名的视频课程可能就是斯坦福大学的机器学习公开课,在网易公开课栏目可以观看全部的20节课程。其中15节已经翻译有中文字幕。缺点是视频不算很清晰,而且好象全是黑板推算,理论