Chinese

Moneyball与体育数据挖掘

培根曾说,知识就是力量。如果以Billy Beane的角度来看,他也许会说,数据就是金钱。一、背景《Moneyball》是Michael Lewis在2003年出版的一本书,讲述奥克兰运动家棒球队总经理比利·比恩(Billy …

R语言多元分析系列之五:聚类分析(完)

聚类分析(Cluster Analysis)是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它是在没有先验知识的情况下,对样本按各自的特性来进行合理的分类。聚类分析被

R语言多元分析系列之四:判别分析

判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判…

R语言多元分析系列之三:多维标度分析

多维标度分析(MDS)是一种将多维空间的研究对象简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。设想一下如果我们在欧氏空间中已知一些点的座标,由此

R语言多元分析系列之二:探索性因子分析

探索性因子分析(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。 因而,EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。EFA和PC…

R语言多元分析系列之一:主成分分析

主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,…

新书推荐:《Visualize This》

这是一个数据的时代,各种数据铺天盖地涌现出来,如何从中获取有用的信息?人类的大脑喜欢图形,因此将数据可视化或许是种方法。数据可视化是美学、数据分析和专业知识的结合,能以…

缺失数据的处理

对于缺失数据通常有几种应付手段,一种是当缺失数据较少时直接删除相应样本,另一种是对缺失数据进行插补,最后是使用对缺失数据不敏感的分析方法,例如决策树。基本上缺失数据处理…