| This post was kindly contributed by 数据科学与R语言 - go there to comment and to read the full post. |
近年来R语言已经成为流行的开源数据分析软件,但其局限性在于单处理器核心作业和内存限制。想要成为跨平台的优秀软件,则必须经过商用海量数据的考验。而并行计算是一种当前热门的解决途径。
O'Reilly最新出版了《Parallel R, Data analysis in the distributed world》,此书虽然只有122页,但包含了R语言中Snow、Multicore、Parallel、Hadoop、RHIPE、Segure几大扩展包的使用,分别讲解各自优势与缺点。在这些扩展包的帮助下,R语言可以拓展到多核心和多机运行,解决海量数据的运算问题。
- Snow: 适合在传统的云环境下工作
- Multicore: 在多核心多处理器的计算机上很流行
- Parallel: 在R语言的最新版2.14中包括进来
- R+Hadoop: 提供了低门槛的集群运算模式
- RHIPE: 利用Hadoop的力量与R协同工作和交互
- Segue: 可以使用Elastic MapReduce作为R的后台
