Chinese

ggplot2绘图入门系列之二:图层控制与直方图

如前文所述,ggplot2使用图层将各种图形元素逐步添加组合,从而形成最终结果。第一层必须是原始数据层,其中data参数控制数据来源,注意数据形式只能是数据框格式。aes参数控制了对哪些

ggplot2绘图入门系列之一:导论

1 什么是ggplot2ggplot2是用于绘图的R语言扩展包,其理念根植于《Grammar of Graphics》一书。它将绘图视为一种映射,即从数学空间映射到图形元素空间。例如将不同的数值映射到不同的色彩或透明…

Twitter文本挖掘初步

Twitter已经成为社交媒体领域重要的信息来源,也是数据挖掘和可视化的重点研究对象。据说华尔街的多家对冲基金公司已经在利用twitter数据挖掘来衡量人们的情绪,从而预测资本市场的运动

数据挖掘项目失败的原因

注:本文编译自globalknowledgeblog.com在商业智能(BI)领域内,预测分析和数据挖掘(PADM)一直缓慢而稳步的成长。机器学习(Machine Learning)技术是支持PADM的重要驱动力量。在过去二十年间出现

用nls函数进行非线性回归

在许多实际问题中,回归模型中响应变量和预测变量之间的关系可能是复杂的非线性函数。有时候能通过变量变换的方法可以将其变为线性模型,有时则不能。在后一种情况下,就需要采取专…

再谈广义线性模型

广义线性模型(generalized linear model, GLM)是简单最小二乘回归(OLS)的扩展,在OLS的假设中,响应变量是连续数值数据且服从正态分布,而且响应变量期望值与预测变量之间的关系是线性关系。

转载:来自 Google 的 R 语言编码风格指南

本文转自Xiao Nan的博客R语言是一门主要用于统计计算和绘图的高级编程语言. 这份 R 语言编码风格指南旨在让我们的 R 代码更容易阅读、分享和检查. 以下规则系与 Google 的 R 用户群体协同设计…

Moneyball与体育数据挖掘

培根曾说,知识就是力量。如果以Billy Beane的角度来看,他也许会说,数据就是金钱。一、背景《Moneyball》是Michael Lewis在2003年出版的一本书,讲述奥克兰运动家棒球队总经理比利·比恩(Billy …