零售巨头沃尔玛正在变革其电子商务模式,而大数据是这次变革的动因。沃尔玛实验室(Walmart Labs)全球电子商务总监——斯蒂芬奥沙利文正着手将沃尔玛旗下的10个网站整合成一个,同时将目前试点的10个节点的Hadoop集群扩展到250个节点。这个过程中奥沙利文的团队将自主开发一些大数据工具以便将数据从目前的Oracle、Neteeza、Greenplum等数据库中迁移出来,奥沙利文还计划将他们开发的大数据工具开源。
沃尔玛曾在2011年收购创业公司Kosmix,该公司的社交媒体语义分析技术非常优秀,能够搜索并分析实时数据之间的关系,可以被用来向消费者提供个性化的商品推荐。收购Kosmix意味着沃尔玛正式进入了Facebook和twitter为代表的大数据世界,其规模远远超过沃尔玛信息系统日常产生和处理的数据,向大数据技术迁移成为沃尔玛唯一选择。
“大数据提供了前所未有的可能性,有些甚至超出我们的想象,我们将拥有一个全球大一统的Hadoop数据仓库,推动内部数据分享和分析,但这需要在各种数据库之上建立一个跨平台的抽象层。”在一段视频采访中,奥沙利文介绍了网站整合的原因,以及将购物者和交易数据加载到Hadoop集群中后将如何进行数据整合。奥沙利文表示还将继续使用目前的数据仓库工具,但是依赖性会小很多。奥沙利文表示把从遗留设备导入Hadoop集群碰到一些麻烦,目前合适的开源大数据工具还比较匮乏,因此计划自行开发相关工具解决这个问题并会最终把这些工具共享出来。
对于在信息技术架构方面一向“保守”的沃尔玛来说,在大数据领域与开源社区合作并推出开源工具显得不同寻常。奥沙利文认为今天的开源软件的效率和质量已经完全可以接受,沃尔玛今后也将前所未有地积极参与开源社区活动。