Author Archive for 写长城的诗

数据挖掘工程师面试指南

数据挖掘领域是一个独特的行业,通常的招聘面试方法可能不大适用于本行业的特点。在招聘一个合格的数据挖掘工程师时,公司一般关注以下三个方面:他聪明吗?聪明意味着能透过复杂的…

需要几次相亲才能找到靠谱的她/他?

说到相亲就不得不提到著名的麦穗问题。说有一天,苏格拉底带领几个弟子来到一块成熟的麦地边。他对弟子们说:“你们去麦地里摘一个最大的麦穗,但要求只能摘一次,只许进不许退,我…

重磅推荐:《机器学习之黑客帝国》

好吧,我承认这个书名翻译的有点霸气,但它的确是配得上这个名头。《Machine Learning for Hackers》是由O’Reilly出版的关于机器学习领域中R语言应用的新书。 在这里所谓的“黑客”并非是喜欢侵

R语言编程入门之五:向量化运算

和matlab一样,R语言以向量为基本运算对象。也就是说,当输入的对象为向量时,对其中的每个元素分别进行处理,然后以向量的形式输出。R语言中基本上所有的数据运算均能允许向量操作。

R语言编程入门之四:字符串处理

尽管R语言的主要处理对象是数字,而字符串有时候也会在数据分析中占到相当大的份量。特别是在文本数据挖掘日趋重要的背景下,在数据预处理阶段你需要熟练的操作字符串对象。当然如

R语言编程入门之三:输入与输出

如同ATM机一样,你首先得输入银行卡,才能输出得到钞票。数据分析也是如此,输入输出数据在分析工作中有重要的地位。下面对R语言中一些重要的输入输出函数进行小结,而其它的函数请

Twitter中推荐关注对象的一种简单实现

社交媒体中的数据挖掘是当今比较热门的领域之一。各平台公司都想从用户的数据中寻找其偏好特征,提供个性化的服务。其中一种服务就是在微博平台中向用户推荐值得关注的对象名单。如…

用R实现生命游戏(Game of Life)

生命游戏是英国数学家John Horton Conway在1970年发明的细胞自动机(cellular automaton)。它最初于1970年10月在《科学美国人》杂志中出现。生命游戏是在一个二维矩形世界中,这个世界中的每个方