Chinese

2012年的学习、工作和生活

在《英雄志》里面,沉毅木讷的伍定远一直到35岁才跳出公门、踏入江湖,由此获得一系列的奇遇、成长和体验,这番际遇让人感慨。既然2012的玛雅末日没有来,就将过去一年发生的事情在第…

新书推荐:脏数据手册

当你学完一本数据分析软件教程,在电脑上做完了所有的练习题,志得意满地准备去处理实际问题时候,你会被真实世界的“脏数据”所震惊。例如那些随处可见的缺失和格式不一的数据会让…

来玩玩QQ群的数据

上周COS论坛上有位老兄发布了一个关于QQ群的数据,正好拿来玩玩。这批数据并不复杂,只有两列,一列是用户名,一列是用户发言时间,不过从这批数据中仍然可以得出一些好玩的东西,且

推荐两本python书

python虽然不是专门的数据分析工具,但是它的库超多。随着数据分析相关各种库的日益完善,也可以用它来处理一些数据方面的工作,特别在数据预处理方面。这门书号称是数据分析,实际上…

决策树之三国争霸

决策树是一种简洁实用的数据挖掘方法。在R中通常可以用rpart包和party包来实现两种算法的决策树。最近著名的C4.5决策树算法的升级版本C5.0已经可以在官网下载到。对于这三种决策树算法,

如何批量处理文本文件

最近数据堂为了弄数据挖掘比赛提供了一批用户行为日志数据。对于以前没玩过的数据,我是特别的好奇。处理这批文本文件确实花了不少时间。数据以不同的日期作文件夹分别存放,每个文…

新书推荐:数据之魅

在amazon书店里头,如果将统计类和数据挖掘类书籍除外的话,还真没有一本正经八百讲数据分析的书。不过《Data Analysis with Open Source Tools》倒是填补了这个空白。一般说到数据分析,可能要么…