Blog Archives

如何批量处理文本文件

November 25, 2012
By
如何批量处理文本文件

最近数据堂为了弄数据挖掘比赛提供了一批用户行为日志数据。对于以前没玩过的数据,我是特别的好奇。处理这批文本文件确实花了不少时间。数据以不同的日期作文件夹分别存放,每个文...

Read more »

新书推荐:数据之魅

November 21, 2012
By
新书推荐:数据之魅

在amazon书店里头,如果将统计类和数据挖掘类书籍除外的话,还真没有一本正经八百讲数据分析的书。不过《Data Analysis with Open Source Tools》倒是填补了这个空白。一般说到数据分析,可能要么...

Read more »

三门问题的模拟

November 17, 2012
By
三门问题的模拟

有一个著名的蒙提霍尔问题,亦称为三门问题(英文:Monty Hall problem),大致出自美国的电视游戏节目Let's Make a Deal。问题的名字来自该节目的主持人蒙提·霍尔(Monty Hall)。这个游戏的玩法

Read more »

用Shiny包快速搭建基于R的交互网页应用

November 12, 2012
By
用Shiny包快速搭建基于R的交互网页应用

RStudio是我最喜欢用的R语言IDE,其开发团队最近又推出了一个新的产品,即Shiny包。它的作用是快速搭建基于R的交互网页应用。使得那些对代码不熟悉的人士在工作中也可以应用统计模型。对

Read more »

参加上海第五届R会议的PPT和代码

November 3, 2012
By
参加上海第五届R会议的PPT和代码

上海的这次R会议来了很多知名公司和嘉宾,参与听众反应也非常热烈。感觉比北京的要好一些哦。而我只不过讲了一些业余玩的东东,附上本次演讲的PPT和代码。

Read more »

果壳中的R第二版新鲜出炉

November 1, 2012
By
果壳中的R第二版新鲜出炉

《R in Nutshell》是O'REILLY公司出版的果壳系列图书之一。该系列图书的特点是知识覆盖面广,讲解全面细致,索引、参考资料以及进一步阅读都包括在内,是非常难得的桌头参考书籍。 《R in Nut...

Read more »

在R语言中使用SQL

October 9, 2012
By
在R语言中使用SQL

数据分析经常需要从外部获得数据。很多情况下数据存放在关系型数据库中。一般我们可以用SQL来提取需要的数据,存为文本再由R来读入。这种方式结合了数据库的储存能力和R的分析能力,

Read more »

Economist风格的统计绘图

October 6, 2012
By
Economist风格的统计绘图

《Economist》(经济学人)是一份由伦敦经济学人报纸有限公司出版的杂志,于1843年9月由詹姆士·威尔逊创办。杂文章写得机智,幽默,有力度,严肃又不失诙谐,并且注重于如何在最小的篇

Read more »