中国有句老话:三个臭皮匠,顶个诸葛亮。这个说法至少在变形金刚中得到了体现,没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领...
Read more »
随机森林(Random Forest)方法是Leo Breiman于2001年提出的一种集成学习(Ensemble Learning)方法,它是传统决策树方法的扩展,将多个决策树进行组合,来提高预测精度。随机森林利用分类回归树(CART)
支持向量机(Support Vector Machine)名字听起来很炫,功能也很炫,但公式理解起来常有眩晕感。所以本文尝试不用一个公式来说明SVM的原理,以保证不吓跑一个读者。理解SVM有四个关键名词:
朴素贝叶斯分类(Naive Bayes Classifier)是一种简单而容易理解的分类方法,看起来很Naive,但用起来却很有效。其原理就是贝叶斯定理,从数据中得到新的信息,然后对先验概率进行更新,从而...
这七条建议是数据挖掘领域的资深专家Dean Abbott在一个访谈中提到的部分内容,原文可以参见这里。1、在数据挖掘项目中最为重要的是清晰的定义问题。将商业目标与合适的数据分析技术相匹...
The Elements of Statistical Learning: Data Mining, Inference, and Prediction广受推崇的统计学习书籍,重视理论基础,图文并茂,各种算法讲解清晰。但没有涉及实务中的问题,如特征选择。Principles_of_Data_Mini...
有这么一句很有趣的话,如果一个东西走路象鸭子、叫起来象鸭子、吃起来也象鸭子,那它就是一只鸭子。这是一种很符合我们直觉的思维方式:将未知的对象和已知的东西相比较,如果各个...
1 只关注训练数据训练样本之外的数据才是真正重要的。安德森医疗中心的研究人员在十年前使用神经网络来检测癌症。相对于训练样本,他们的检验样本表现不佳,但还算不错的。但他们认