北上广三地的空气质量抽样比较

June 7, 2012
By

This post was kindly contributed by 数据科学与R语言 - go there to comment and to read the full post.


从前看《龙文鞭影》里的小故事,印象中有“秦宓论天”这么一个典故。在莫谈国事的天朝,“天”乃是肉食者的禁脔,草民无权过问,茶馆里只能谈天气。但最近不仅不能谈“天”,据说连“天气”也不能谈了。所谓越是禁止的就越有破禁的快感。今天就来专门谈一谈天气。武汉的天气我们已经谈过,本文就来干涉下上海、北京和广州三地的天气内政,焦点即是这三个城市的空气质量情况。

我们的思路是从Twitter上采集空气质量数据,由于美国上海领事馆目前只公布了不到700条信息,所以我们只采集了660条,该数据是每小时公布一次,也就得到了最近约一个月的数据。我们的重点是AQI(Air Quality Index)数字。关于AQI的解释可以看这里。 收集的数据发现有少量是缺失值,这可能是仪器故障、爆表或是人员失误。而且广州领事馆发布的数据有不少格式不符的。数据收集之后进行了预处理,以转成容易处理的数据框格式。然后我们绘制了小提琴图,以观察不同城市的AQI数据,数值越大表明空气质量越差。


从上图可以看到北京空气相对更糟糕些,AQI值大量集中于100-200一带,这是不利于健康的范围。上海和广州则相对略好一点。我们还可以将数据按不同的时点加以归纳,观察在一天之中哪一个时点空气质量相对糟糕或者较好。我们按不同的时点计算了该时点处的AQI中位数,然后连成线绘制成下图。

当然看得出来,北京的AQI如飞龙在天,并在中午11点左右达到最高,晚上7,8点钟达到最低。而上海则比较平坦,在晚上的AQI却出现了高点,这是在说明上海人夜生活丰富吗?相对看来北京人的生活是比较有规律的。广州的低点在凌晨时分,高点则出现在午后。

另外我们还可以按不同的星期数来归纳数据,以观察一周七天时间内,空气质量是否有所变化。我们按不同的星期数计算了AQI中位数,从下图看到,这三个城市的模式有点相近,周三的空气质量较好,而周末空气质量较差。这一点北京表现的最为突出。所以说周末还是宅在家里吧。

由于我们得到的只是美国大使馆和领事馆的单个地点数据,所以不一定代表了整体城市。各位还可以等待更多数据来加以分析。有兴趣的还可以将香港东京等其它城市的空气质量数据进行比较。

用一个段子来做为结束吧。诸葛亮和周瑜不约而同想到火攻之计来破曹操水军,但周瑜却因西风肆虐无法施计一筹莫展。孔明轻摇羽扇,微微一笑说,“公瑾放心,我夜观天象,三日内必有东风。”周瑜闻言变色大喝道:“还不与我把诸葛拿下!我家主公早有明令,严禁各国外交人员从事与身份不符的天气监测数据发布服务!”

R代码在此处

Tags: , ,

Comments are closed.