数据挖掘之你问我答(1/5)

November 4, 2011
By

This post was kindly contributed by 数据科学与R语言 - go there to comment and to read the full post.


注:本文是由Tim Graettinger的文章翻译而来

问题一:你推荐什么样的数据挖掘工具?

首先,我们需要搞清楚一些东西:你的数据挖掘目标是什么?你的团队怎么样?目前正在使用的工具和能力如何?

先想想你的数据挖掘目标。你是打算以一次性的项目来解决单一业务问题?或者你要在企业内部建立数据挖掘的核心能力?你的目标将影响你选择的软件工具。此外,你的预算是否支持你的既定目标?这里面还要考虑到培训和支持成本。

下面请允许我提出两个更广泛的建议:

  • 写一个“愿望清单”。假设资金不成问题的话,你会买什么样的工具?为什么?真的,写下你的选择。这个愿望清单在后来是非常有用的。
  • 慢慢起步。在开始做数据挖掘项目时,弄清楚你到底需要什么样的工具。根据实际需要去购买软件。

其次,密切关注你团队的技能和背景。他们是MBA或者业务专家吗?如果是这样,你可能要考虑使用行业或特定应用的软件工具(例如,贷款审批或欺诈检测)以发挥自己的长处。相反,你的团队主要是由统计人员和分析师组成吗?那么装备更丰富的技术工具软件会使他们表现更好。这些软件通常允许更灵活的数据转换和建模方式(回归,决策树,神经网络等)。在任何情况下,关键是你所使用的工具应该是适合团队技能的,适合他们自身的工作和思考方式,并适合业务和数据挖掘应用以及预测分析。

第三,考虑你已经拥有和购买的软件工具。将它与“愿望清单”进行比较。寻找二者的相似和差异部分。根据我的经验,数据挖掘团队需要使用不同的工具来完成其工作。当然,我本人也使用各种软件工具以共同完成以下主要任务:

  • ETL(数据的提取,转换和读入):将原始数据进行旋转,汇集,或是再制到一个单一的分析性的文件中。
  • EDA(探索性数据分析):计算各种统计量,创建交叉联列表,进行数据可视化,并最终解释和理解数据。
  • Modeling(建模):建立回归,决策树,神经网络等模型。在这里一个重要的考虑因素是要编写代码使模型能运行在另一个环境中。
  • Reporting and Presentation(报告和呈现):展现数据挖掘工作的结果,监测随着时间的推移现实世界模型结果的变化。其中有用的工具可能包括很普通的如Excel或PowerPoint,也可能是非常专业,这需要根据你的的业务运营和流程来调整。

最后,让我们谈谈你的工具搜索策略吧。现在你已经清楚自己和团队的目标,你们现有的能力和需求。我认为KDNuggets.com是了解数据挖掘信息的起点。该网站包括了丰富的行业和应用软件产品,介绍了大量的商业或开源软件。

我也希望你加入专业的社交网站,如LinkedIn和AnalyticBridge的小组讨论。你会从过去的贴子中获得丰富而不凡的见解。你可以发表你自己的具体问题,与相似经历或行业技术的人一同讨论。祝你好运!

Tags:

Comments are closed.