Posts Tagged ‘ 数据预处理 ’

如何批量处理文本文件

November 25, 2012
By
如何批量处理文本文件

最近数据堂为了弄数据挖掘比赛提供了一批用户行为日志数据。对于以前没玩过的数据,我是特别的好奇。处理这批文本文件确实花了不少时间。数据以不同的日期作文件夹分别存放,每个文...

Read more »

抓取网页数据的几种套路

September 21, 2012
By
抓取网页数据的几种套路

没有数据就没有乐趣。有的数据提供者心肠很好,会直接给出txt或是csv文档。这个时候我们可以直接在R里头用read.table()函数把数据读进来。有的时候我们需要的数据在网页上以一个表格呈现

Read more »

用stringr包处理字符串

July 25, 2012
By
用stringr包处理字符串

《Machine Learning for Hackers》一书的合著者John Myles White近日接受了一个访谈。在访谈中他提到了自己在R中常用的几个扩展包,其中包括用ggplot2包来绘图,用glmnet包做回归,用tm包进行文本挖掘,...

Read more »

用lubridate包来处理时间数据

July 1, 2012
By
用lubridate包来处理时间数据

人生有一道难题,那就是如何使一寸光阴等于一寸生命。在数据分析中也有一道难题,那就是如何自如的操作时间数据。R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它

Read more »

北上广三地的空气质量抽样比较

June 7, 2012
By
北上广三地的空气质量抽样比较

从前看《龙文鞭影》里的小故事,印象中有“秦宓论天”这么一个典故。在莫谈国事的天朝,“天”乃是肉食者的禁脔,草民无权过问,茶馆里只能谈天气。但最近不仅不能谈“天”,据说连...

Read more »

降维中的特征选择

June 5, 2012
By
降维中的特征选择

在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要...

Read more »

在R语言中使用正则表达式

April 11, 2012
By
在R语言中使用正则表达式

有时候我们要处理的是非结构化的数据,例如网页或是电邮资料,那么就需要用R来抓取所需的字符串,整理为进一步处理的数据形式。R语言中有一整套可以用来处理字符的函数,在之前的博

Read more »

如何使用reshape包进行数据汇总

March 24, 2012
By
如何使用reshape包进行数据汇总

在数据分析过程中,利用各种图表进行数据探索是必要的前期工作。描述性统计中就包括了直方图、散点图等工具来探索连续数据,对于分类数据,则可以采用条形图、交叉分组表等工具。Exc...

Read more »