Author Archive for 写长城的诗

用R来进行布丰投针实验

在3月14日也就圆周率日那一天,果壳网推出一篇文章《圆周率日特献:π究竟牛B在哪里?》。其中就提到了布丰(Buffon)用投针实验来计算π的近似值。不过这篇文章并没有详细说明如何用软

Twitter的数据科学家是如何工作?

本文翻译自technologyreview对Edwin Chen的一篇访谈文章。Edwin Chen是一位在Twitter工作的数据科学家,在为Twitter工作之前,他在麻省理工学院学习纯数学和语言学。在这个访谈中,Edwin Chen给我们分享…

如何使用reshape包进行数据汇总

在数据分析过程中,利用各种图表进行数据探索是必要的前期工作。描述性统计中就包括了直方图、散点图等工具来探索连续数据,对于分类数据,则可以采用条形图、交叉分组表等工具。Exc…

R语言编程入门之七:程序查错(完)

写程序难免会出错,有时候一个微小的错误需要花很多时间来调试程序来修正它。所以掌握必要的调试方法能避免很多的无用功。基本的除错方法是跟踪重要变量的赋值情况。在循环或条件分…

如何用21点来击败赌场?

21点也许是世界上最受欢迎的扑克牌游戏之一。玩家要尽量使手中牌的点数和达到21点,或是接近21点,但不能超过,再和庄家比较点数和的大小以定输赢。熟悉概率的诸位都知道,在赌场的各…

ggplot2的新特性:显示二维统计量

ggplot2包可称得上是R语言中最为复杂和炫目的绘图包了。本博客也用了一系列文章对该包进行了介绍。在最近的3月初,其版本从0.89升级到了0.90,升级后的新版本提供了许多新的功能。其中之

R语言编程入门之六:循环与条件

循环for (n in x) {expr}R中最基本的是for循环,其中n为循环变量,x通常是一个序列。n在每次循环时从x中顺序取值,代入到后面的expr语句中进行运算。下面的例子即是以for循环计算30个Fibonacci数

数据挖掘工程师面试指南

数据挖掘领域是一个独特的行业,通常的招聘面试方法可能不大适用于本行业的特点。在招聘一个合格的数据挖掘工程师时,公司一般关注以下三个方面:他聪明吗?聪明意味着能透过复杂的…