大数据与小数据
来源: 时间:2015-01-14

  读《南方周末》的《解读2014中国电影市场:影院在给房地产打工》一文,被访人物新影联影业总经理周铁东的一段话,于我相当打烙印:“美国有资格说大数据,它有大数据,对观众有观众分割学,有各种各样地缘人口数据,而且它有独立于行业之外的许多专业的调研和咨询公司,但我们没有这样的系统建设。当我们能够存积了翔实客观、没有被污染、没有被掺水的小数据的时候,我们才有资格去谈大数据。”文章是解读电影市场的,大数据的话茬由电影牵扯出来,可见今日大数据覆盖范围之广和数据量之大。但是这段话最触动我的一点,倒是其中的“小数据”。

  大与小是相对的。大数据究竟有多大?百度百科对“大数据”大的解释是:“大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理,并整理成为有效的资讯。”另据计算,2014年全球数据量如果下载的话,需要花费880亿年。

  然而,再大的数据也是人们一点一滴聚沙成塔、集腋成裘的。换句话说,没有小数据的积少成多、百川归海,大数据也是无源之水、无本之木。这里所说的小数据,是指每个行业、每个单位、每个人生产或使用的数据。对我们统计人而言,你搜集的每一笔原始数据,你填报的每一张报表,你撰写的每一篇分析,乃至你为了数据的“翔实客观,没有被污染,没有被掺水”所作的种种努力,都是小数据的点点滴滴,都是大数据的源头之水。站在这一高度,每一个统计人都已置身在大数据的时代浪潮中,都有责任在统计的航船上,认准方向,找准位置,做一个合格的划桨人。

  《大数据时代》的作者维克托·迈尔-舍恩伯格认为:“大数据将带来对人的重新认识,不是在阿波罗神庙,而是在小世界网络中,认识你自己。”时代的巨变是启迪人们重新认识自己、认识世界的最好契机。在小数据时代统计曾有信息主体的自豪与自诩,但跨进大数据时代,统计在欢呼应用空间更加开阔和用武之地更为拓展的时候,也应清醒地看清和认识自己的地位、局限和挑战。在大数据的海量和技术里,统计是非常重要的一块,但只是“一块”,而不是全部。“统计是数据的科学”,但“数据的科学”不仅仅是统计。

  这样认识统计并非自我菲薄,而是为了找准统计在大数据时代的定位,更好把握统计数据与整个大数据的关系,使统计真正成为大数据时代的骄子。在大数据方兴未艾、众说纷纭的当今,统计人明了自己与大数据和小数据的关系,既抓大也不放小,既放眼宏观也着手微观,既讲数据技术也讲数据文化,才有可能脚踏实地走上大数据的坦途。

  在北京卫视“我是演说家”节目中,有一叫梁植的选手,是清华博士。他演讲开始时,拿出一个小小的挖掘机模型,然后从挖掘机的相关数字和信息生发开去,把挖掘机的“小数据”与房地产、GDP、中国制造业等等“大数据”的关联和观点表达得透彻清晰,非常振聋发聩,而又激发人们思考一个严峻的问题——疲软的中国创造如何坚挺?中国制造如何解困?

  联系所谓大数据与小数据思考,觉得梁植的演讲,在具体事例和细节中,把小数据与大数据的息息相关诠释得透辟清晰。虽然没有大数据与小数据的概念或推导,但让人悟出道理和逻辑上的血脉相通。

  统计人在本职本岗耕耘收获的“小数据”,自然会成为大数据的一部分。成就大数据的人是无数努力造就小数据的人,在这些人中,统计人应当当仁不让,拼力成为当之无愧的专业之师、生力之旅、奉献之魂。这些人和他们为之努力的“小数据”,虽然只是大数据的“沧海一粟”,但大数据的沧海就是这样的集合汇聚而成。

  数据的江湖,有波澜壮阔,也有细流涟漪,相辅相成,相映生辉。让我们在大数据时代,做好小数据,用好大数据。