Chinese

如何搭建一台深度学习服务器

在计算机时代的早期,一名极客的满足感很大程度上来源于能DIY一台机器。到了深度学习的时代,前面那句话仍然是对的。

缘起
在2013年,MIT科技评论将深度学习列为当年十大科技突破之首。其原因在于,模型有其为庞大的网络结构,参数够多,学习能力够强,能配合大数据达到惊人的效果。而且,能自动学习特征,避免了“特征工程”这种繁琐的手工劳动。对于图像、音频和文字处理领域有极大的意义。因为最近在尝试用深度学习做文本挖掘,所以需要一台深度学习服务器(相信我,如果用CPU来跑,你的人生显得好短)。

那么就有三个选择项:
A、购买组装好的服务器,例如NVIDIA DIGITS DEVBOX
B、购买云服务,例如Amazon的GPU服务
C、自己攒一台深度学习服务器。
A项从性价比上不合算,而且不一定买的到。B项的云服务对于研究探索性质工作而言也比较贵,机器配置也不一定合适,所以我们就C项了。

硬件选择:基本思路是单显卡机器,保留升级空间

显卡选择:
先解释一点,深度学习为什么需要显卡计算?
GPU 是为大规模的并行运算而优化;
GPU 上则更多的是运算单元(整数、浮点的乘加单元,特殊运算单元等等);
GPU 往往拥有更大带宽的显存,因此在大吞吐量的应用中也会有很好的性能。
这里有一个很有趣的解释视频,解释了GPU和CPU的计算区别。

所以显卡选择最重要,因为准备基于CUDA计算(CUDA (Compute Unified Device Architecture) 是NVIDIA开发的GPU并行计算环境。),所以只能选择Nvida系列的。在英伟达产品系列中,有消费领域的GeForce系列,有专业绘图领域的Quadro系列,有高性能计算领域的Tesla系列,如何选择?

有论文研究,太高的精度对于深度学习的错误率是没有提升的,而且大部分的环境框架都只支持单精度,所以双精度浮点计算是不必要,Tesla系列都去掉了。从显卡效能的指标看,CUDA核心数要多,GPU频率要快,显存要大,带宽要高。这样,最新Titan X算是价格便宜量又足的选择。

CPU选择:
在深度学习任务中,CPU并不负责主要任务,单显卡计算时只有一个核心达到100%负荷,所以CPU的核心数量和显卡数量一致即可,太多没有必要,但是处理PCIE的带宽要到40。

主板选择:
需要支持X99架构,支持PCIe3.0,还要支持4通道DDR4内存架构。如果要搞四显卡并行,PCIE带宽支持要达到40,并且支持4-Way NVIDA SLI技术。

内存:
达到显存的二倍即可,当然有钱的话越大越好。

电源问题:一个显卡的功率接近300W,四显卡建议电源在1500W以上,为了以后扩展,选择了1600W的电源。

机箱散热:
因为各种部件相当庞大,需要有良好散热功能的大机箱,选择了Tt Thermaltake Core V51机箱,标配3个12cm风扇。未来如果需要还可以加装水冷设备。

以上就是主要硬件环境的选择和安装。

软件环境安装:

主要安装了Ubuntu系统,CUDA环境,以及theano、keras环境

1、安装ubuntu 14.04(不要安装麒麟版本)
通过官网下载iso文件刻录U盘安装,在SSD硬盘上自动安装完成。
2、安装cuda 7.5 deb文件(自带显卡驱动)
2.1 获取CUDA安装包,在NVidia官网下载local deb文件。
2.2执行如下命令安装:
    $ sudo dpkg -i cuda-repo-ubuntu1410-7-0-local_7.0-28_amd64.deb
    $ sudo apt-get update
    $ sudo apt-get install cuda
2.3设置环境变量:sudo gedit /etc/profile
    $ export PATH=/usr/local/cuda-7.5/bin:$PATH
    $ export LD_LIBRARY_PATH=/usr/local/cuda-7.5/lib64:$LD_LIBRARY_PATH
2.4重启机器:用其中一个样例进行验证测试
    $ cuda-install-samples-7.5.sh ~
    $ cd ~/NVIDIA_CUDA-Samples_7.5/5_Simulations/nbody
    $ make
    $ ./nbody
    或者在sample目录中make测试项目1_utility,再运行./deviceQuery

3、安装python以及theano工具
3.1 直接下载安装anaconda套件64位版本。
    下载后用conda升级到最新。anaconda自带openblas,使numpy和theano计算能达到最大效能
3.2 修改了theano配置文件,使之缺省由gpu运算
在主目录下新建.theanorc文件
.theanorc中输入下面的内容
[cuda]
root=/usr/local/cuda/bin/
[global]
floatX = float32
device = gpu0
[nvcc]
fastmath = True
3.3 安装完成后参考如下地址进行测试
THEANO_FLAGS=floatX=float32,device=gpu python `python -c “import os, theano; print os.path.dirname(theano.__file__)”`/misc/check_blas.py
3.4 安装keras
    通过anaconda安装pip install keras
    注意keras依赖的theano是dev版本的,需要从github下源码来安装。注意本系统此时有两个python,所以要写路径
    sudo /home/user/anaconda/bin/python setup.py develop

4、设置远程服务器调用
4.1 安装ssh,启动服务
4.2 设置notebook server
在ipython中如下命令设置密码:
from IPython.lib import passwd
passwd()
记下生成的字符串。
创建一个ipython配置文件,比如起名叫myserver
ipython profile create myserver
vim ~/.ipython/profile_myserver/ipython_notebook_config.py
编辑文件,加入下面几项:
c = get_config()
c.IPKernelApp.pylab = ‘inline’ #启动inline模式
c.NotebookApp.ip = ‘*’
c.NotebookApp.open_browser = False
c.NotebookApp.password = u’sha1:yourhashedpassword’  #把第二步的密码考进来
c.NotebookApp.port = 6868   #自己设一个端口号
启动服务
ipython notebook –profile=myserver

4.3 远程浏览器调用
远程中浏览器登陆http://192.168.3.31:6868/,输入密码,即可进入ipython notebook。
如果需要保持连接,则
nohup ipython notebook –profile=myserver
杀掉连接
lsof nohup.out
kill -9 “PID”

完工!

最后的硬件配置:
CPU: Intel X99平台 i7 5960K
内存: DDR4 2800 32G(8G*4)
主板: GIGABYTE X99-UD4
显卡: GTX Titan X
硬盘: SSD+普通硬盘

系统和软件
操作系统: Ubuntu 14.04.3 x64
CUDA: 7.5
Anaconda 2.3
Theano 7.0
Keras 2.0

参考资料:
http://timdettmers.com/2014/08/14/which-gpu-for-deep-learning/
http://timdettmers.com/2015/03/09/deep-learning-hardware-guide/
http://graphific.github.io/posts/running-a-deep-learning-dream-machine/
http://docs.nvidia.com/cuda/cuda-quick-start-guide/index.html#ubuntu-x86_64-deb
http://deeplearning.net/software/theano/tutorial/using_gpu.html#cuda

之前网上找到另一种安装theano方式是自行安装组件。但尝试未成功,有可能是因为CPU等硬件不同,可能需要自行编译安装openblas,numpy, scipy, theano等环境,极为繁琐。最后还是直接用Anaconda方便。

基于深度学习的中文分词尝试

最近折腾deeplearning和NLP比较多,其实就是在看Stanford的cs224d课程啦。抽空尝试了一下使用词向量和神经网络做中文分词。

使用的数据是参考资料中的中文分词资源,即Bakeoff中微软研究院的中文语料库,它的训练文本带有每个字的标注(BEMS),同时带有测试文本和测试脚本。此外使用了补充的语料库,即sogou新闻语料库,不带字标注,但可用来学习字向量。

使用的工具是python中的gensim库和keras库,gensim可用于学习词向量,keras是基于theano的深度学习库。在本例中只使用了普通的MLP方法。

整体工作的步骤如下:
– 步骤1:使用sogou的语料库建立初始的字向量,向量维度为100,迭代50次。
– 步骤2:读入有标注的训练语料库,处理成keras需要的数据格式。
– 步骤3:根据训练数据建模,使用左右各3个字做为上下文,7*100个神经元为输入层,隐藏层为100,输出层为4,神经网络结构为[700->100->4],总共进行了约50次迭代。
– 步骤4:读入无标注的测试语料库,用训练得到的神经网络进行分词标注
– 步骤5:使用自动脚本检查最终的效果

最终测试脚本输出的summary如下,F值为0.913。
=== SUMMARY:
=== TOTAL INSERTIONS: 2872
=== TOTAL DELETIONS: 2896
=== TOTAL SUBSTITUTIONS: 6444
=== TOTAL NCHANGE: 12212
=== TOTAL TRUE WORD COUNT: 106873
=== TOTAL TEST WORD COUNT: 106849
=== TOTAL TRUE WORDS RECALL: 0.913
=== TOTAL TEST WORDS PRECISION: 0.913
=== F MEASURE: 0.913
=== OOV Rate: 0.026
=== OOV Recall Rate: 0.673
=== IV Recall Rate: 0.919

具体代码可以参见github

后续折腾畅想:
– 本例中带标注的语料库相当大,可以直接在这个上面先训练字向量试试。
– 有空时还可以测试下jieba分词的效果评估。
– 用RNN等其它的方法试试效果。

参考资料:
[中文分词资源]
[中文分词标注法]
[word2vec原理]
[基于word2vec的中文分词]

用代码来理解boosting方法

提升方法是集成学习中预测能力最强的一种方法。在R和Python中都有相应的扩展库和丰富的函数。不过对于初学者来讲,理解这种方法不是很容易。本文基于R的决策树包实现两种基本的提升树,即回归提升树和分类提升树。有助于理解提升方法的原理,以及各项参数的作用。公式推导可以见这篇文章

实现可重复的统计slides

制作幻灯片是数据分析师的必备技能之一,优秀的slides对外可以忽悠住客户,对内可以震慑住领导。精良的slides要秀外慧中,有逻辑有内容,还要有外形有风格。达到这种标准并不容易。在过去,你可能使用office中的ppt来做传统意义的幻灯片,将图片和代码费力的copy到一张张的slides上去,然后到处找模板。但这种方式已经凹特了。

在HTML5的发展背景下,已经出现了大批以网页形式的slides框架,例如:Google IO 2012\HTML5 slides\HTML5 Rocks\Shower\Deck.js这个名单可以很长。而这里只是其中六种演示框架的介绍。在这些slides框架下,你只需要懂一点点web知识,将图片和数据嵌入到一个html模板中,就可以生成一个动态可交互的slides。

实际上对于统计分析的slides,有一种工具可以使我们的制作效率更高。这就是谢益辉的knitr包。knitr像一把钥匙,打开了可重复统计报告的大门,同时也打开了通向html的大门。可以使R代码、运算结果和分析文字自然的融为一体,能自由的输出为LaTex、Markdown或者是Html。在借助knitr打通了这些奇经八脉之后,可以惊奇的发现,knitr可以将以上所有东西粘在一起,有助于实现可重复的统计分析幻灯片。

以后的工作流应该是这样的:数据分析的过程和结果均存放在rmd文件中,可根据不同需要转换为pdf或是html,当需要制作slides的时候,只要将生成的html进行一点加工,加入一些js/css效果即可生成美观炫目的slides。目前已经有很多这类现成的例子,例如coursera的公开课data analysis就是使用了这种slides来讲解R和数据分析。作者利用的是名为slidify的R包,直接从rmd文档生成html5的slides页面,非常推荐各位去下载来研究一下。

slidify使用的默认框架是io2012,比较淡雅朴素,另一种比较炫目的框架是reveal.js,这里有一个例子值得参考下。这份slides的原码可以在此找到。这份slides是使用reports包来生成的,基本流程如下:

install.packages(“reports”)
library(reports)
presentation(‘example’)
setwd(‘~/example’)
reveal.js()

安装reports包后使用presentation建立一个目录,这个目录会在当前R工具目录下自动生成,之后用户在目录下的rmd文件中编辑内容,保存后生成html文件,最后使用reveal.js函数生成slides,你会在reveal.js目录下找到index.html,就是最终的文件。由于reports包的瑕疵问题,在reveal.js前一步你可能需要手动切换一下工作目录。而且最好是再手动编辑一下index.html文件,以完全自定义实现reveal.js的各种特效。笔者也做了一个简单的slides可以看一看。关于reveal.js的完整资料看这里。 

相比reports包,slidify要显得稳定些,使用方法也类似,但它还放在github上,所以要用devtools包来下载它:

install_github(“slidify”, “ramnathv”)
install_github(“slidifyLibraries”, “ramnathv”)
library(slidify)
author(‘example’)
slidify(‘index.Rmd’)

加载slidify后使用author,它会自动在当前工作目录下建立example目录,并打开index.Rmd文档,供用户编辑,当然在写slides的时候需要遵从一定的格式才会让它识别。写完之后使用slidify即可生成网页。目前slidify支持的框架不多,但在开发版本中已经支持了包括reveal.js在内的很多框架了,所以尽请期待吧。

初学D3的感觉

简单来讲有如下三点感受:

  • D3很强大
  • D3并不容易学
  • 学会D3并不等于学会了可视化

一山还有一山高,在翻过ggplot2这座山后,发现还有D3这座珠穆朗玛。ggplot2已经非常好了。能够实现The Grammar of Graphics的精义,有很丰富的对象和灵活的自由度,但这都还不够,因为ggplot2只能够生成静态的图形。如果你只需要写一篇分析报告,那么ggplot2是足够的。但如果你想让数据在网页上飞翔,就需要D3做为翅膀。

D3和ggplot2的共同点在于都可以实现数据到图形元素的映射,但D3更为底层一些。它的优点在于:

  • 用D3进行可视化,你只需要一个浏览器+编辑器就可以完成工作,并不需要其它环境,也便于分享。
  • 灵活性强,它可以很好的利用现有的web技术 HTML, CSS, SVG,操纵页面的任何一个对象,和数据绑定,无中生有的生成svg元素,进而由浏览器渲染成图形。
  • 它也能利用现有浏览器上可以实现的js函数,实现和用户的即时交互。
  • 此外,大量的文档和案例提供了很好的学习资源。

底层也意味着用它来绘图不是一蹴而就的事情。D3并不是一个图表库,例如它没有任何一个函数可以直接画出箱线图出来。它只是javaScript的一个函数库,你需要考虑到各个方面,操很多心,费很多步骤才能画出一个简单的图形。当然现在已经有了很多基于D3的库,例如Vega,在R里面也有clickme包可以将数据直接转为D3。不过对于D3,知道的越多越好,例如HTML,CSS,SVG,DOM,JavaScript。

可以这样来描述一下D3的特点:D3是一个组装生产线,这个生产线首先要放在一个车间里面,这个车间就是HTML。其次生产线上要有元件进来用以组装,有两种主要元件分别是数据和svg元素,D3首先读取json,csv,tsv格式文件,然后将数据和body内的svg元素属性绑定,组装的结果是一个新的HTML页面,最后的任务就是交给浏览器去展现数据特征。而D3这个生产线应该如何运转,则依赖于工程师头脑中的生产工艺或方法。

D3是一种可视化的工具,它本身并不能告诉你如何实现一个优秀的可视化。正如同拿着青釭剑的夏侯恩,并不能击败常山赵子龙。学会了D3,只是学会了将数据摆放到屏幕上,但什么样的摆放方式才是美的,有效的。这还需要更多可视化的理论学习和实践。

数据可视化本身不是目的,目的在于传送数据中隐藏的信息。人类不善于直接解读数据。但人类的视觉系统善于阅读图形,并从中搜寻模式。可视化就是将数据编码成图形,再由其它人读取图形,解码信息。这种可视化实际上是一种对已知数据进行解释性可视化的过程,一种讲故事的方式,这种情况下用D3是很适合的。而另一种探索性可视化,是对未知数据的描述,讲故事的人本身不晓得数据中有什么玄机,此时用D3就不大合适了,而应该换用快速的绘图工具。不过总而言之,学习D3是值得的,正如同学习R一样,谢益辉曾说:使用R将迫使你深入的理解统计,而使用D3也有同样的效果,使D3它将迫使你成为真正的可视化大师。

正所谓:内修于心,外显于形。

其它:
学习D3的预备资料:
http://www.w3school.com.cn/
www.codecademy.com
学习D3的几种入门材料:
http://code.hazzens.com/d3tut/lesson_0.html
http://www.dashingd3js.com/table-of-contents
http://ofps.oreilly.com/titles/9781449339739/