Posts Tagged ‘ 数据挖掘 ’

用gbm包来提升决策树能力

July 20, 2012
By
用gbm包来提升决策树能力

中国有句老话:三个臭皮匠,顶个诸葛亮。这个说法至少在变形金刚中得到了体现,没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领...

Read more »

随机森林及其副产品

July 15, 2012
By
随机森林及其副产品

随机森林(Random Forest)方法是Leo Breiman于2001年提出的一种集成学习(Ensemble Learning)方法,它是传统决策树方法的扩展,将多个决策树进行组合,来提高预测精度。随机森林利用分类回归树(CART)

Read more »

谈一谈支持向量机分类器

July 6, 2012
By
谈一谈支持向量机分类器

支持向量机(Support Vector Machine)名字听起来很炫,功能也很炫,但公式理解起来常有眩晕感。所以本文尝试不用一个公式来说明SVM的原理,以保证不吓跑一个读者。理解SVM有四个关键名词:

Read more »

朴素贝叶斯分类与贝叶斯网络

July 3, 2012
By
朴素贝叶斯分类与贝叶斯网络

朴素贝叶斯分类(Naive Bayes Classifier)是一种简单而容易理解的分类方法,看起来很Naive,但用起来却很有效。其原理就是贝叶斯定理,从数据中得到新的信息,然后对先验概率进行更新,从而...

Read more »

成为优秀的数据挖掘者所需要的七条建议

June 14, 2012
By
成为优秀的数据挖掘者所需要的七条建议

这七条建议是数据挖掘领域的资深专家Dean Abbott在一个访谈中提到的部分内容,原文可以参见这里。1、在数据挖掘项目中最为重要的是清晰的定义问题。将商业目标与合适的数据分析技术相匹...

Read more »

分享几本数据挖掘书籍

May 15, 2012
By
分享几本数据挖掘书籍

The Elements of Statistical Learning: Data Mining, Inference, and Prediction广受推崇的统计学习书籍,重视理论基础,图文并茂,各种算法讲解清晰。但没有涉及实务中的问题,如特征选择。Principles_of_Data_Mini...

Read more »

为KNN分类器增加Cross-Validation功能

May 6, 2012
By
为KNN分类器增加Cross-Validation功能

有这么一句很有趣的话,如果一个东西走路象鸭子、叫起来象鸭子、吃起来也象鸭子,那它就是一只鸭子。这是一种很符合我们直觉的思维方式:将未知的对象和已知的东西相比较,如果各个...

Read more »

数据挖掘的错误与陷阱

February 12, 2012
By
数据挖掘的错误与陷阱

1 只关注训练数据训练样本之外的数据才是真正重要的。安德森医疗中心的研究人员在十年前使用神经网络来检测癌症。相对于训练样本,他们的检验样本表现不佳,但还算不错的。但他们认

Read more »