Blog Archives

再谈广义线性模型

January 5, 2012
By
再谈广义线性模型

广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在OLS的假设中,响应变量是连续数值数据且服从正态分布,而且响应变量期望值与预测变量之间的关系是线性关系。

Read more »

转载:来自 Google 的 R 语言编码风格指南

January 5, 2012
By
转载:来自 Google 的 R 语言编码风格指南

本文转自Xiao Nan的博客R语言是一门主要用于统计计算和绘图的高级编程语言. 这份 R 语言编码风格指南旨在让我们的 R 代码更容易阅读、分享和检查. 以下规则系与 Google 的 R 用户群体协同设计...

Read more »

Moneyball与体育数据挖掘

January 4, 2012
By
Moneyball与体育数据挖掘

培根曾说,知识就是力量。如果以Billy Beane的角度来看,他也许会说,数据就是金钱。一、背景《Moneyball》是Michael Lewis在2003年出版的一本书,讲述奥克兰运动家棒球队总经理比利·比恩(Billy ...

Read more »

R语言多元分析系列之五:聚类分析(完)

January 2, 2012
By
R语言多元分析系列之五:聚类分析(完)

聚类分析(Cluster Analysis)是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它是在没有先验知识的情况下,对样本按各自的特性来进行合理的分类。聚类分析被

Read more »

R语言多元分析系列之四:判别分析

December 27, 2011
By
R语言多元分析系列之四:判别分析

判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判...

Read more »

R语言多元分析系列之三:多维标度分析

December 22, 2011
By
R语言多元分析系列之三:多维标度分析

多维标度分析(MDS)是一种将多维空间的研究对象简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。设想一下如果我们在欧氏空间中已知一些点的座标,由此

Read more »

R语言多元分析系列之二:探索性因子分析

December 20, 2011
By
R语言多元分析系列之二:探索性因子分析

探索性因子分析(Exploratory Factor Analysis,EFA)是一项用来找出多元观测变量的本质结构、并进行处理降维的技术。 因而,EFA能够将将具有错综复杂关系的变量综合为少数几个核心因子。EFA和PC...

Read more »

R语言多元分析系列之一:主成分分析

December 20, 2011
By
R语言多元分析系列之一:主成分分析

主成分分析(principal components analysis, PCA)是一种分析、简化数据集的技术。它把原始数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,...

Read more »