大数据正把我们变成新的物种。首先,大数据改变了我们的思维方式,让我们从因果关系的串联思维变成了相关关系的并联思维。第二,大数据改变了我们的生产方式,物质产品的生产退居次位,信息产品的加工将成为主要的生产活动。第三,大数据改变了我们的生活方式,我们的精神世界和物质世界都将构建在大数据之上。大数据不仅仅是一门技术,更是一种全新的商业模式,它与云计算共同构成了下一代经济的生态系统。一切皆信息。
《大数据时代》是一本真正懂大数据的人写的实实在在的关于大数据方方面面的书。
我拿到这本书的当晚,只看了引言部分,就迫不及待在豆瓣上标记了在读。因为又感受那种真正的行家出手时才会有的,厚积薄发高屋建瓴势如破竹的快感。我当时便下断言,这本书已经秒杀所有同题。等到第二天我将这本书看完,觉得我前一晚的判断还是正确的。这本书条理分明、详略得当、引述丰富,把大数据梳理得无比清晰,解决了很多困惑我已久的问题,至少要比那些以其昏昏使人昭昭的所谓专家学者好五倍。
大数据是2012年TMT圈最时髦概念的排头兵。今年3月腾讯推出QQ圈子,按共同好友的连锁反应摊开你的人际关系网,把你的前女友推荐给未婚妻,让人震惊之余,也会感慨这是腾讯多年数据积累的厚积薄发;手机游戏愤怒的小鸟年中曾透露其每天用户登录超过140万次,运营商Rovio每发布一个新的应用,都会立即改变流量,虽然这个量级跟国内的新浪微博和铁道部12306相比还差很远,但光从“体积”看这也算是个大数据了;今年11月奥巴马大选连任成功的胜利果实也被归功于大数据,因为他的竞选团队进行了大规模与深入的数据挖掘。时代杂志更是断言,依靠直觉与经验进行决策的优势急剧下降,在政治领域,大数据的时代已经到来;各色媒体、论坛、专家铺天盖地的宣传让人们对大数据时代的来临兴奋不已,无数公司和创业者都纷纷跳进了这个狂欢队伍。几乎每天都能看到有人在谈论大数据,大数据好像成了可以把任何东西都往里面装的框。尽管我们都知道大数据绝不会仅仅只是“大”而已,但真正能说清楚大数据是什么的人却不多。
在这大数据时代来临的前夜,这本书的作者,野心勃勃的舍恩伯格将这个问题说清楚了。他不断下定义举例子,试图给大数据划定疆域与边界,从思维、商业、管理三个维度分析大数据可能给人类带来的变革和挑战。他还指出大数据时代处理数据理念上的三大转变:“不要随机样本,而是全体数据”“不是精确性,而是混杂性”“不是因果关系,而是相关关系”。作者认为包括文字、方位、沟通等一切事物皆可量化,这些数据的价值在被发掘后仍能不断给予,并厘清了在挖掘过程中数据、技术和思维三类玩家的角色定位。同是大数据行家的译者周涛认为这本书好在三个地方:观点掷地有声、观念高屋建瓴、例子丰富详实。而这三者近乎完美地结合起来,作者驾驭大问题的能力和丰富的知识令人赞叹。
抽样分析是信息收集手段不完善时代的产物,它或许能更快更好地发现问题,但却不能回答事先没考虑过的问题。书中举了大数据与乔布斯癌症治疗的故事,乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人,他得到的不是样本,而是包括整个基因的数据文档。由于医生可以按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。
大数据时代的另一理念是要效率而非绝对准确,要允许一点点的错误和不完美。谷歌2006年涉足机器翻译,谷歌翻译系统为了训练计算机,会吸收它所能找到的全部翻译。谷歌将语言视为能够判别可能性的数据,而非语言本身。假设你要将中文译作俄语,它可能会选择英语作为中介语言,因为在翻译的时候它能够适当增减词汇,灵活性提高了很多。
关于大数据最早最著名的例子可能来自美国第二大超市塔吉特百货。明尼苏达州一家塔吉特门店曾被客户投诉,一位中年男子指控塔吉特将婴儿产品优惠券寄给他的女儿——一个高中生。但没多久他却来电道歉,因为女儿经他逼问后坦承自己真的怀孕了。塔吉特百货就是靠着分析用户所有的购物数据,然后通过相关关系分析得出事情的真实状况。
随着大数据的出现,数据的价值也在发生改变。所有网民都会被网站要求过填写证明你是人而非机器的验证码,这项名为“CAPTCHA”的技术在2000年被发明时是为了防止垃圾邮件和不必要的骚扰,后来发明者又寻找到了使人的计算能力得到更有效利用的方法,发送两个单词,其中一个单词用来确认输入结果,另外一个机器无法识别的字符则随机发送给五个人,直到他们都输入正确才确认这个单词。这也是我们有时明明输错了最终也能登陆的原因。2009年谷歌收购了这家做验证码公司reCAPTCHA,并将其技术用于图书扫描项目,自此全世界的网民都沦为谷歌的免费打字员。因为众包的力量,这项技术每年能为谷歌省下十多亿美元。
如果数据不能为我所用,那我们将会沦为数据的奴隶。要防止这种失控局面的出现,至少需要我们在管理层面做出四种变革:1、将个人隐私保护从个人许可到由数据使用者承担责任;2、个人该为其行为而非倾向负责;3、不能让大数据成为黑匣子,它需要雇佣外部监察人来维护公众信任;4、反数据垄断大亨。