Blog Archives

R语言基础入门之四:常用的统计推断

November 13, 2011
By
R语言基础入门之四:常用的统计推断

通常一个研究项目能够获得的数据是有限的,以有限的样本特征来推断总体特征就称为统计推断。推断又可细分为区间估计和假设检验,二者虽有区别,但却是一枚硬币的两面,之间有着紧密...

Read more »

数据挖掘之你问我答(5/5)

November 13, 2011
By
数据挖掘之你问我答(5/5)

注:本文是由Tim Graettinger的文章编译而来问题五:最新的算法一定能得到更好的结果吗?并非如此。在读研究生的时候,我学到了各种预测建模的算法,并将大部分进行了编程实践。毕业后我...

Read more »

数据挖掘之你问我答(4/5)

November 11, 2011
By
数据挖掘之你问我答(4/5)

注:本文是由Tim Graettinger的文章编译而来问题四:我的模型在训练数据上表现很好,为什么在新数据上表现很糟?你遇到的就是被称为“过度拟合”(over-fit)的典型症状。通常是在为稀有事件

Read more »

在R中使用DataMarket的公开数据源

November 11, 2011
By
在R中使用DataMarket的公开数据源

在如今的商业世界中,各种数据和统计数字是非常重要的决策依据,但良好的数据通常很难获得。因为数据来源分散而且格式不一,世界各地的分析人员往往花费了无数的时间进行数据检索、...

Read more »

数据挖掘之你问我答(3/5)

November 10, 2011
By
数据挖掘之你问我答(3/5)

注:本文是由Tim Graettinger的文章编译而来问题三:进行数据挖掘需要多少数据?这是迄今为止关于数据挖掘最常见的问题,这个问题得到如此多的关注是有其原因的。当你第一次进行数据挖掘...

Read more »

R语言新书:R并行计算

November 8, 2011
By
R语言新书:R并行计算

近年来R语言已经成为流行的开源数据分析软件,但其局限性在于单处理器核心作业和内存限制。想要成为跨平台的优秀软件,则必须经过商用海量数据的考验。而并行计算是一种当前热门的

Read more »

R语言基础入门之三:常用统计函数运算

November 7, 2011
By
R语言基础入门之三:常用统计函数运算

在R语言中经常会用到函数,例如上节中讲到的求样本统计量就需要均值函数(mean)和标准差函数(sd)。对于二元数值数据还用到协方差(cov),对于二元分类数据则可以用交叉联列表函数(table)。下

Read more »

数据挖掘之你问我答(2/5)

November 7, 2011
By
数据挖掘之你问我答(2/5)

注:本文是由Tim Graettinger的文章翻译而来问题二:如何使决策者购买我的数据挖掘项目?一般我都是以自身经验有感而发的,所以,我谈论的这些东西并非基于对人或企业行为的详尽研究。这...

Read more »