登录×
电子邮件/用户名
密码
记住我
存储世界

大数据的阴影

刘远举:这是一个大数据的时代。某些令人忧虑的领域,却很可能比令人兴奋的领域,更早获得大数据的优势。

这是一个大数据的时代,商业、社会管理、科研、创业,言必称大数据。

大数据(Big Data)又称为巨量资料,指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。“大数据”概念最早由维克托•迈尔•舍恩伯格和肯尼斯•库克耶在编写《大数据时代》中提出,指不用随机分析法(抽样调查)的捷径,而是采用所有数据进行分析处理。所以,大数据区别于以往的数据收集的最本质区别是,抛弃人类之前限于成本的的抽样分析方法,而是存储一切,分析一切。

大数据的理解

这种“数据全存”的收集,在互联网,甚至是移动互联网出现之前的时代是不可想象的。现在,随着储存能力、计算能力、互联网与移动互联网、智能手机的深入生活,收集数据的技术发达,充满生活中的各个场景,“把数据全部存起来”成为一种可能。

数据虽然存起来了,但如何理解数据,却成为一个问题。

在大数据的热潮中,人们开始相信,只要足够好的技术,足够多的数据,计算机能够比人更了解他们的自己。

有一个非常经典的例子。一位男性顾客到全美第二大零售商塔吉特店中投诉,声称商店竟然给他还在读书的女儿寄婴儿用品的优惠券。后来发现,女儿真的已经怀孕了。这被宣扬成为数据比人更理解人的例子。

实际上,情况恰好相反。商场知道女儿怀孕,无非是收集了顾客的消费数据发现规律。比如,孕妇在怀孕头三个月过后会购买大量无味的润肤露;在头20周,孕妇会补充如钙、镁、锌等营养素;当女性开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。然后,凭借这些信息,商场提前邮寄相关促销信息。

实际上,并不是大数据更理解人的例子,甚至反应了机器的愚蠢,自作主张,把婴儿的优惠用品寄给了还在读书的女儿,而且还寄到了她家里。当然,预测模型可以加入变量,比如年纪、职业、婚姻状况来避免尴尬。但是,人是复杂的,有很多非理性因素,无法加入所有变量。

大数据与计算能力的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术对海量数据进行分布式数据挖掘。但是,这种模式的计算能力仅是在数量上的增加。如果仍然是把数据放入模型,抽样虽然并不时髦,但边际效应仍然有效,少量的数量就能达到与大数据差不多的效果。

所以,只有应用各种新的数据处理方法,“数据”才能成为“大数据”,才能从中发掘出新的意义,进而产生新的价值。机器计算相比大脑的优势在与对于巨量数量的处理,如果机器也同时也能具有大脑的逻辑、分析、判断、联想、想象、情感能力,则可以轻易超越大脑的智能。

目前,依靠神经网络的机器学习,人工智能已经初步崭露头角。在这种方法之下,随着数据量的积累,系统会越来越好。相比过去人工智能的方法很难受益于数据量的提升,新的方法之下,20%的贡献来自方法的改进,80%来自数据量的提升,从而实现依靠数据量推动的,系统从量变到质变的飞跃。

FT中文网客户端
点击或扫描下载
FT中文网微信
扫描关注
FT中文网全球财经精粹,中英对照
设置字号×
最小
较小
默认
较大
最大
分享×