成为优秀的数据挖掘者所需要的七条建议

June 14, 2012
By

This post was kindly contributed by 数据科学与R语言 - go there to comment and to read the full post.



这七条建议是数据挖掘领域的资深专家Dean Abbott在一个访谈中提到的部分内容,原文可以参见这里

1、在数据挖掘项目中最为重要的是清晰的定义问题。将商业目标与合适的数据分析技术相匹配并不是一件容易的事情。所以项目首要任务就是明确问题和目标变量。

2、不去试图代替业务专家。业务专家拥有专门业务领域的知识,他可以帮助你理解数据的意义。数据挖掘者本身并不能给出商业方案。其作用在于将数据信息处理成有意义的结构,然后使业务专家做出更好的商业决策。

3、单独一个模型无法把握全局。每个模型都会提供一个不同的视角,所以我们需要将多个学习器加以组合,使我们对数据的把握更为全面。

4、决策树是一种贪婪算法。决策树模型的结果可能会欺骗你,因为分枝一旦确定就不能再回头修改。而随机森林是决策树的组合算法,从而弥补了这种贪婪的特性。

5、归纳有时候对数据是不公平的。计算平均数等统计量有时候是有用的,但也会有欺骗性,所以将数据可视化永远是必要的步骤。

6、没有什么能击败时间。管理人士需要提供数据分析师充足的时间资源。时间可以发酵灵感,有时候在不经意间,你能构想出解决问题的处理方法。

7、何时停手并没有一定之规。一般来讲,如果建立的模型表现一致,就可以说已经从数据中获得了足够的东西。有时候你还得考虑项目所剩的时间和其它资源,以决定何时终止挖掘。毕竟数据挖掘的边际报酬是递减的,你需要考虑到进一步实施挖掘工作的回报问题。

Tags:

Comments are closed.