“11·11”购物狂欢节当天,天猫和淘宝共吸引了2.13亿独立用户访问,其中第一分钟就有1000万独立用户加入抢购,当天订单数达到1亿笔,通过支付宝完成的总销售额达到191亿元,是去年的3倍多,创造了中国电商行业日销售的一个新记录,并超过2011年美国“网购星期一”12.5亿美元(约合人民币78亿元)的单日最高销售额。
这是一组魔咒般的数据,它让网商和消费者为之震惊,让其他电商平台和线下零售艳羡不已,也让身在其中的阿里人倍感意外。
“这么大的能量,我们都没有想到,但我有一个预感就是,所有人对我说的预测都是错的。当天看完第一个小时的成交后,我跟我的同事说应该能达到160亿,高层瞪了我一眼,你觉得靠谱吗?我说可以的。最终比我的预测还要高。”光棍节当天,一直在数据监测直播室的大数据研究专家、淘宝网商业智能部资深总监车品觉告诉本刊记者。
如此庞大的访问量和交易量对电商平台和网银系统也是一次巨大的考验,尽管阿里巴巴在技术上和管理上进行了充分准备,并且破天荒地打破了“百花齐放”的主流企业文化,有效发挥了天猫、淘宝和支付宝的协同性,总体保持顺畅,但还是有一家银行的网银系统抵挡不住潮水般交易数据的攻势,而败下阵来。
数据可以分析历史,也可以观测未来。“双11留给我们一组宝贵的数据。”车品觉说,“它告诉我们许多不经常来的用户都在同一时间涌过来了,这些用户群至少在未来一年内应该去触发他(她)们。以前不活跃的用户在当天活跃了,这些用户看了什么产品?买了什么产品?还对哪些产品感兴趣?通过这些丰富的数据,可以发现用户的偏向。”
何为大
光棍节已让我们领教了电商大数据的潜力和火爆,接下来再带你看一下更加壮观的场景:
一秒钟内,互联网产生的数据量,比20年前整个互联网储存的数据还多;一分钟内,微博、Twitter上新发布的数据量超过10万,社交网站Facebook的浏览量超过600万;两分钟内,全球上传的照片数量超过19世纪照片数量总和;一天内,百度要处理几十PB数据;一个月内,Google处理的数据量超过400PB;2011年,全球被创建和复制的数据总量远远超过人类有史以来所有印刷材料的数据总量……
当你把想要去的目的地输入手机地图或互联网地图,或者开着车对着“语音助手”说:“我要在附近找一家素食餐厅”,短短一两秒就能让你得到满意的答案。其背后向您提供服务所涉及到的导航定位、资料检索、存取计算、数据交换等一系列动作是何等地复杂。
这就是“大数据”,一个不知不觉被数据包裹和渗透的时代。每个人都是数据的创造者和传播者,每个人也是数据的接收者和分享者。手机、平板电脑、桌面电脑、数字电视、智能电视、数字眼镜、传感器、卫星定位系统等终端设备,如雨后春笋,遍布各个角落,海量数据就这样源源不断地喷薄而出……
中国工程院院士李国杰用4个“V”来描述大数据的特征:体量浩大(Volume)、类型复杂(Variety)、生成迅速(Velocity)、价值巨大但利用密度低(Value)。
互联网和移动互联网上产生的数据,如文本、视频、图片、动漫、地理位置等,大多是非结构信息,据预测,到2012年末非结构化数据将达到整个数据量的75%以上。
涂子沛在《大数据》一书中认为,“大数据”之“大”,不仅仅在于“容量之大”,更大的意义在于,通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。
“如果每天有一两百个G以上的数据,就可以算是一个大数据公司了。”秒针系统创始人、首席技术官吴明辉表示,面对海量数据,传统的数据库软件Oracle等,已无法进行处理。目前新的数据库结构又不像传统的数据库软件那么灵活。“传统的Oracle好比自行车,大街小巷都可以骑,但它很慢;新的数据库结构相当于高铁,它只能沿着轨道走,但它很快,承载的量也很大。”
尽管美国的大数据应用已如水银泻地,无孔不入,但美国GE公司的人这样抱怨,“我们的数据仅整理清楚都需要3年,3年后再玩数据已经落伍了,更别说挖掘价值了。越老的企业,玩数据的难度越大。”
车品觉认为,用数据之前,需要先会“养数据”,但是把数据收集起来,不代表你在养,只有知道如何养大它,那才叫养。假如今天下午一点多给你两样东西:面包和五块钱,由于你吃过饭了,可能五块钱对你的吸引力更大。这个例子告诉我们人的决定会受到当时环境的影响。所以,收集数据的时候,如果不把环境数据收集过来,这个数据过几年后就没有价值了,而且很难研究。十几年后,再看“11·11”的191亿元的数据,如果不了解促销五折的背景,人们会说,不可能,那天可能有异常。
而且,车品觉表示,数据会断裂的,即过去是这个意思,未来可能不是这个意思;过去可以这样用,未来不一定能这样用。如果不用数据,只是养它,两年之后就会断裂,这些数据就是一潭死水。
有多神
2012年美国总统大选虽然尘埃落定,但与历届选举不同。此次大选伊始,美国总统的竞选团队就纷纷利用数据分析方法来寻找和锁定潜在的己方选民,并使用最前沿的数字化策略定位拉拢那些中间派选民。整个过程,大数据应用的威力可谓发挥得淋漓尽致。最终,奥巴马团队技高一筹,赢得连任。
全球零售巨头沃尔玛,是最早一批利用数据赚钱的企业。早在1969年,沃尔玛就开始利用计算机来跟踪存货,通过分析数据来挖掘销售“秘籍”。最经典的案例莫过于“啤酒+尿布”的销售。沃尔玛的研究员通过对消费者的行为数据进行分析,得到了“男性顾客会在购买尿布的同时,购买啤酒来犒赏自己”的顾客消费偏好信息。最终,沃尔玛的“啤酒+尿布”捆绑式销售取得了两种商品的销售双赢。
今年光棍节淘宝和天猫之所以牛气冲天,一个重要因素是全场5折促销的“大红包”。而美国公司早就利用大数据为用户发红包,国内的B2C公司还没有这样做。美国的电商公司进行过用户问卷调查:你喜欢这个企业吗?将数据收集回来发现,最喜欢的人对这个企业的交易贡献不是最大的。所以,需要定位这个人的回头率和价值,就知道如果失去了他(她)会损失多少。
英国有个教授做了一个数据试验,把好运和不好运的人分为两类,然后对这两类人进行跟踪测试,发现有一个元素可以区分出这两类人,那就是笑。好运的人每天都在笑,不好运的人很少笑。
物以类聚,人以群分。淘宝的数据科学家也用这种聚类法,计算一个网店如何做到小而美。首先对用户进行线上和线下的问卷调查:请告诉淘宝的哪些网店是小而美?通过数据分析发现,小而美的店,网上用户评价不一定高。而且有一个数据太聪明了,小而美的店,熟客的“客单价”(指每一个顾客平均购买商品的金额,客单价=销售额÷顾客数)不一定高,因为熟客率高对新人吸引力不够,不一定做成小而美。原来这是一个变种的钱包分享——小而美的店需要一个很好的连接关系,熟客经常逛这个网店,而且对网店的收入贡献是稳定的。淘宝还对小而美开发了一个“美指数”,这个指数可以屏蔽或过滤掉网店的作弊数据。
一组数据能让人们做一个更好的决定的时候,这组数据可以称之为聪明的数据连接。美国玩大数据的人都会谈到“OODA”,即观察Observe,定位Orient,决定Decision,行动Act。这是美国的一个空军教练发明的,为了减少战斗中的伤亡。
企业经过观察拿到数据,然后对数据进行定位,继而做出决定和行动。这是数据挖掘法。最有意思的是挖掘购物性别,某人在淘宝网上注册的性别是男,但购物的时候买的都是女性的东西,这可以推测出他的一部分购物行为是为老婆买的。这些数据表明,在营销的时候,这个账号虽然是女的,但不代表不能把男的商品推荐给她。还有,通过一些行为数据很容易判断出某个人的性别,比如购买母婴产品的用户基本是女的,而且结婚了,所以她就会为丈夫和孩子买东西。这时候,就要偏向于家庭营销,不能太注重个性化。
企业要经营一个用户,本质上要看这个用户有没有钱,爱不爱这个企业,用户所处的生命周期:毕业了吗?有男(女)朋友吗?结婚了吗?有孩子吗?根据生命周期来估计用户需要的产品和偏好。通过大数据就可以推断出这三个方面。
车品觉强调,大数据最重要的不是知道你的财富和生命周期,而是有多少稳定数据,如果有20%的稳定数据,完全可能猜到其余80%的未知数据。例如知道身份证号就可以了解到你的出生年月日和籍贯,只要寄过东西就可以知道你所处的地区,如果你在学校又是20岁左右,那你基本就是大学生,等等。仅有行为数据是不行的,因为行为数据飘忽不定。
专家认为,数据科学时代,不能有什么数据就用什么,要主动地去寻找原材料,而且还要把原材料提炼得更好一些。比如,一个人在某个网站的闲逛指数和购买指数,需要迅速计算出来,这个很重要。因为绝大多数电子商务网站都是设计给购买的人,而不是给逛的人。蘑菇街之所以能成功,是因为它专为逛而设计。今天的电子商务网站一定要能区分出用户的两种行为,这样,逛时让用户看更多商品,买时进行精准推荐,让用户赶紧买单走人,提高购物效率。
中国的企业与亚马逊相比,在大数据管理和应用方面还有较大差距,前者以结果导向数据为主,后者的数据大部分是以客户为中心。例如,招商银行在今天下午2点钟,平均有20人排队,这是业务导向。如果进入到招商银行的每个客户,平均需要2分钟能等上服务,这是以客户为中心的指标。
所以,中国的企业要努力把数据指标转为以客户为中心。B2C双边市场比较简单,以消费者为中心。而电商平台淘宝是一个三边市场,这样客户就比较多,有销售者、合作方、消费者,三边市场很复杂。通常以消费者来考核销售者,用销售者来观察消费者。
车品觉告诉记者,采用网络分析法研究关联数据对淘宝等平台类公司很重要,可以知道一个类目是不是存在过度竞争。如果竞争很密集,关联销售者的客单价都会下降,重复购买率就变低,可以知道恶性循环来了。
数据矿
大数据将是下一个社会发展阶段的石油和金矿,已成为业内人士的共识。但数据如果不加以利用,那就是闲置的资源,不仅占用更多虚拟空间,而且影响效率。所以,如何挖掘开发出其中的价值,已成为投资界、企业界以及政府和科研部门普遍关注的问题。
中国工程院院士李国杰对大数据的市场前景价值充满信心。他认为,目前人们开发和利用的价值还只是冰山一角。大数据的兴起与互联网、物联网的蓬勃发展有很大关系,根本原因是经济利益驱动,IBM、亚马逊、Google、Facebook等国际知名企业是大数据的主要推动者,国内的大数据代表性企业是百度、腾讯、阿里巴巴。
“大数据就是金矿,谁挖掘得好就可以成为竞争壁垒。而今天最好的大数据都在大公司。我的预测:互联网大公司大部分会学会驾驭大数据,越做越强;而大部分非互联网公司(电信、银行、保险)虽拥有大数据,却不知其珍贵,或用之不当。” 创新工场董事长兼首席执行官李开复在微博中如是说。
作为中国大数据的先行者,阿里巴巴集团主席马云对大数据格外重视。他在一次公开演讲中表示,“阿里积累的大量数据可以告诉我们,世界经济在发生什么,中国经济在发生什么。我们可以给宏观经济以指导,数据将会影响世界。”阿里不想占有数据,数据不用来分享,就是一堆数字,没有一点意义。为了自己和下一代商人,必须思考这些问题,并且为之而努力。
目前,国内大数据领头羊阿里巴巴、腾讯、百度都在大数据的技术、管理与应用上进行探索,努力缩小与“硅谷”的大数据公司的差距。百度虽然拥有庞大数据,但数据缺少身份信息,在开掘上需要另辟蹊径;腾讯拥有大数据三大杀手锏:PC端的QQ和Qzone,移动端的微信,如果开发利用好,能量惊人,不过目前动作有点慢;在马云的重视下,阿里巴巴提出大数据战略,发挥电商平台的集群优势,内外双管齐下,打造数据平台和数据产品,实现数据资源的最大共享。
其他电商网站京东、社交网站人人网,也利用自己的数据资源做用户行为分析。此外,一些新兴的大数据创业公司蓬勃崛起,如广告营销领域的秒针系统,帮助客户分析广告投入是否有效;提供工具系统的公司友友系统;提供数据存储和销售的天云科技;提供地理信息云服务的超图软件等。
“大数据时代,企业关注的重点将转向数据。”李国杰表示,计算机行业从追求计算速度转变为大数据处理能力,软件从编程为主转变为以数据为中心,云计算进入以分析即服务(AaaS)为主要标志的Cloud2.0时代。生物制药、新材料研制生产的流程会发生革命性的变化。“未来将形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性新兴产业。”传统信息技术企业,如华为、联想、浪潮等都在顺应大数据需要而转型。华为本来是一家通信企业,现在也在开拓数字医疗市场。
中国每年的就诊患者是世界上最多的,如果对这些医疗数据进行系统的分析,对治疗疑难病症,以及开发新药都将产生积极的影响。据麦肯锡咨询公司的研究,“大数据”技术可能为美国的医疗保健业每年创造3000亿美元的价值,如此大的市场在中国同样不可小觑。
未来,线下零售将是线上零售的最大竞争对手。比如,京东和天猫,两个对手旁边,还有更大的潜在竞争对手是线下,如沃尔玛、家乐福、苏宁、国美、物美。因为以前线上零售占线下零售的份额非常小,如同小石子扔到大海里,但如果比例逐渐扩大,就会产生市场冲突了。
例如,到移动网站充值缴费的人附近10公里有没有营业厅,有和没有,差异挺大。另有企业做过试验,对住在沃尔玛旁边的人做广告,基本不起作用,因为这个竟争对手太庞大了。
所以,为电商喝彩的同时,对线下零售的竞争实力不可低估。不过,挖掘线下交易数据的价值,需要下很大功夫,因为许多数据不知道顾客的身份。如果顾客都采用经过注册的会员卡交易,那情形就不一样了。
移动互联网将是一个数据金矿,运营商可以拿到大量用户数据,包括生活半径数据。如果能计算出客户一直都在这个生活圈,那么这个圈里分布的商店、饭店及娱乐设施都可以知道。这样对于线上和线下营销就具有很大参考价值。
对于电商是否可以与银行、电信开展数据合作,车品觉认为,“与银行、运营商开发数据产品的时代有点遥远,涉及法律、政策、数据安全等问题,以及公众是否可以接受这些数据产品。美国对个人隐私很在意,但对数据产品可以接受。”
以Facebook为代表的社交网站,数据量比电子商务网站还要丰富,如果找到挖掘和提炼的钥匙,SNS将产生巨大价值。
大数据浪潮,不单单为企业带来商业价值,也提供了千载难逢的创业和就业机会。新兴的创业公司通过出售数据产品和服务,有针对性地提供技术解决方案,把大数据赋予了商品特性。例如,美国的Cloudera公司和Factual公司,中国的秒针系统、百分点、友友系统、天云科技等。它们如星星之火,有助于大数据市场的建立和大数据商业的繁荣。
除了创业,大量的就业机会也随之产生。作为新兴产业,大数据人才的匮乏,国内外大同小异,这无疑为年轻人提供了驰骋的舞台。数据工程师、数据产品经理、数据分析师、数据咨询师、首席数据官等,各种不同的岗位为你招手。当然,最顶尖的也是21世纪“最性感的职业”是数据科学家。这到底是个什么样的职业?谁才能如愿以偿?
车品觉告诉记者,现在淘宝培养了5个数据科学家,都是博士,属于尖端人才,具备敏锐的商业感觉和出色的专业技能,对数据的严谨性超出常人的想象。做数据挖掘很容易,但达到数据科学家的水平很难。
“数据科学家”是交叉学科产生的顶级数据人才,既懂数学和统计,也懂编程和业务,能够不断地探索、创新和预测未来。秒针也在培养“数据科学家”,“已经有几个了,但整个行业里太缺乏了。”吴明辉表示。
成功的数据科学家应该具备什么素质和能力呢?哈佛商学院客座教授、德勤分析部门高级顾问托马斯达文波特和格雷洛克风投公司数据科学家D.J.帕蒂尔认为,应该是数据黑客、分析师、传播者和靠谱顾问的综合体,这样的组合可谓极其强大,同时也极其罕见。
有人说,数据是西方人的专利,东方人不适合玩数据,因为中国的文化是“差不多先生”。对于东西方数据的差异,经常与美国数据专家和行业人士交流的车品觉表示,东方的数据滋味好,有全局观,喜欢通过现象看本质,通过本质推演现象。西方是追着现象跑,喜欢把数据进行逐一分解,但看出的问题不是全部。不过,中国也要克服“马马虎虎”的缺点。
据美国权威信息技术研究与咨询公司Gartner最新发布的《2012-2013年技术曲线成熟度报告》指出,大数据成为市场的主流产品需要2~5年。