新书推荐:大数据时代的工具集

February 21, 2012
By

This post was kindly contributed by 数据科学与R语言 - go there to comment and to read the full post.


该书简要介绍了60多种大数据相关的工具,从NoSQLMapReduce,以及各种机器学习和可视化工具。初看这本书封面的时候很容易被唬住,以为又是O'Reilly出的一本大作。实际上它只是一本超薄的小册子,或者更准确的说,是一篇超长的文章。对于业界专家来讲,这本书可能不值一晒,但对于想跨进Big Data大门的初学者,此书还是有一些参考价值。至于在哪可以得到这本书,你懂的。

本书目录:

1.相关术语
2.非关系数据库
MongoDB、BigTable、HBase、Hypertable等数据库工具
3.MapReduce
Hadoop、Hive、Pig、Cascading、S4、MapR等架构。
4.存储
S3和Hadoop Distributed File System
5.服务器
EC2、Google App Engine、Elastic Beanstalk、Heroku
6.分析处理
R、Yahoo! Pipes、Mechanical Turk等数据处理工具。
7.自然语言处理
Natural Language Toolkit、OpenNLP、Boilerpipe、OpenCalais
8.机器学习
WKA、Mahout、scikits.learn
9.可视化
Gephi、GraphViz、Processing、Tableau
10.数据获取
Google Refine、Needlebase、ScraperWiki
11.序列化
JSON、BSON、Thrift、Avro、Protocol Buffers

Tags: ,

Comments are closed.