Chinese

成为优秀的数据挖掘者所需要的七条建议

June 14, 2012
By
成为优秀的数据挖掘者所需要的七条建议

这七条建议是数据挖掘领域的资深专家Dean Abbott在一个访谈中提到的部分内容,原文可以参见这里。1、在数据挖掘项目中最为重要的是清晰的定义问题。将商业目标与合适的数据分析技术相匹...

Read more »

基于密度的聚类分析

June 10, 2012
By
基于密度的聚类分析

聚类分析是一种无监督学习方法,目的是捕获数据的自然结构,从而将数据划分为有意义的组。聚类分析还可以用来对大数据进行预处理,为进一步的数据挖掘工作起到压缩和降维的作用。在...

Read more »

北上广三地的空气质量抽样比较

June 7, 2012
By
北上广三地的空气质量抽样比较

从前看《龙文鞭影》里的小故事,印象中有“秦宓论天”这么一个典故。在莫谈国事的天朝,“天”乃是肉食者的禁脔,草民无权过问,茶馆里只能谈天气。但最近不仅不能谈“天”,据说连...

Read more »

降维中的特征选择

June 5, 2012
By
降维中的特征选择

在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要...

Read more »

红楼梦文本折腾纪要

June 1, 2012
By
红楼梦文本折腾纪要

虽然对红学一无所知,也不敢说精于文本挖掘,但并不妨碍我们勇于折腾的生活方式。上周参加了第五届R会议,学到不少好东西,其中一个就是中文分词的工具。当然就找个对象来折腾一下

Read more »

被knitr包给震撼到了

May 22, 2012
By
被knitr包给震撼到了

在食神这部电影中,薛小燕以极为夸张的方式表现了黯然销魂饭有多么好吃。各位可回想一下这个场景,只不过将赞叹的对象换成knitr包。knitr包是谢益辉创建的一个用于生成动态报告的R语言

Read more »

用glmnet包实施套索算法(LASSO)

May 19, 2012
By
用glmnet包实施套索算法(LASSO)

当我们使用数据训练分类器的时候,很重要的一点就是要在过度拟合与拟合不足之间达成一个平衡。防止过度拟合的一种方法就是对模型的复杂度进行约束。模型中用到解释变量的个数是模型...

Read more »

尝试用animation包来玩GIF动画

May 17, 2012
By
尝试用animation包来玩GIF动画

谢益辉创建的这个animation包实在是很好玩,上面这个GIF动画就是用lattic包绘制的静态图形构建的。要在R里面玩动画除了要安装animation包之外,还需要安装配套软件。例如安装ImageMagick,以方便...

Read more »