杨鸣:大数据从哪里来,到哪里去?

大数据(Big Data)概念和发展源起于美国,最初由EMC集团(包括思科和威睿)、甲骨文公司和IBM倡议发展。全球信息咨询机构国际数据公司(IDC)对大数据的技术定义是:通过高速捕捉、发现或分析,从大容量数据中获取价值的一种新的技术架构。大数据具有4V特点:Volume(体量)、Velocity(速度)、Variety(多样性)、Value(价值)。

有些人误以为大数据只是数据技术处理的升级,即如何存储和备份所有的数据,但是,行家们谈论大数据,通常意味着用新的方式对数据进行分析并做出合理的解释。大数据的应用将有助于决策人灵活应对现实世界中“数据海啸”所引起的机遇和挑战。“大数据”可以引起“大动作”,如优化机构的决策和模式。2012年在美国企业和事业单位的技术总管所进行的有关大数据的调查就表明了,大数据具有重要作用——76%的受访人认为大数据使机构的决策质量和速度大大改善;68%认为有利于机构作出更好的业务规划和预测;67%认为有利于提高机构内部运营效率;65%认为有利于改善外接客户与服务;65%认可减低运营或财务支出;67%认为有利于增加局势预测能力;60%认为有利于量化分析危机;56%认为有利于数据中心的实时操控和问题自动排解等等。

实际上,在移动互联网飞速发展的今天,各类个人生活、企业经营和政府管理等方面的数据都在不断以几何方式递增,大数据正在不断激发巨大的力量。正如IBM首席执行官罗睿兰曾说过,“数据将是下一个大的自然资源,它将区分每个行业的胜者与输家。”国内的先行者如阿里巴巴已经尝试通过数据和C2B的结合,利用电子商务平台引导和激发消费力,引领消费模式的变革。业内人士也相信,阿里今年对于新浪的收购也是其利用大数据布局未来(移动)互联网江湖的重要一环。其他领域当然也不例外。“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”正如哈佛大学社会学教授加里•金所言。

这么说,似乎已经解答了大数据“从哪里来、到哪里去”的问题,但实际不然。大数据大热的同时,更要求我们洞察现实,避免其演变成为一场概念炒作或者是划地圈钱的运动。我们应该清楚的是:大数据本身并没有什么意义,如何从不断激增的数据中去除垃圾、寻找价值进而采取行动的过程才是其真正价值所在。

多年来,科技界一直在改变着信息技术(IT)中的技术(T)含量,例如通过引进大型计算机、客户端服务器、网络供应(IP)、云计算等技术重点。这在一定程度上改变了我们信息技术落后的局势,但遗憾的是,这些技术却并没有成功变革计算机与丰富的人类信息的互动方式。人类信息的技术理解需要根本上的新方法,为人类应对越来越巨大的信息量提供洞察力、想法和直觉。实际上,我们可以看到,在有史以来的科技产业中,一次信息(I)在信息技术(IT)或信息科学(IS)中正发生正变化,向着增加智能“I”(Intelligence)的方向发展。“信息科学”也许可以解读为科学信息,因为未来的信息计算,将以大数据模式呈现,更注重信息的智能化,并足以引起人类社会信息交互方式的根本性转变。

以智能分析为前提的信息应用将会以更大规模解读人类,解开人类信息的价值。比如谷歌公司采用的是Big Query(大查询)大数据网络服务模式,用来操作大规模数据集的互动分析,可以查询高达数十亿行的网络数据。Big Query既方便扩展又易于使用,可满足强大的数据分析需求。Big Query中最大优点是可以对非常大的数据集进行互动分析,例如,欧中帕克斯公司经营了一个全球度假胜地网络,他们想找到最管用的营销技巧,以便在繁忙的假期到来之前就可以摸准和查获所有的潜在客人。他们利用Big Query建立新的网络应用程序,“仅需点击按键,即可确定特定数据,将某特定国家或特定时间区域的客人预订信息的查询结果全部调出来”,然后再将这些查询结果插入谷歌的可视化API系统,形成分析图表。

处理这样巨大的任务,谷歌的Big Query在几秒钟的嚓嚓声中,就梳理了数百万条的数据记录。相比之下,若选用任何其他系统,同样的数据查询都可能至少需要8分钟之久。这个网络查询系统使欧中帕克斯能够及时访问所需信息,然后设定价格,最后帮助他们最大限度地提高收入。据统计,他们的数据运营成本每年可节约15万欧元,最重要的是,由于采用云端应用程序,他们并不需要在本部计算中心运行系统软件与数据,设备费用又可节约近80万欧元。

在定义大数据时,一些专家喜欢展望未来:更高超的技术,更快的处理速度,更有效的处理方式,他们通常以Hadoop分布算法,Map Reduce数据集成算法,和云计算为例。但实际上,大数据的处理与整合是一个非常复杂的过程,其中更离不开一个非常特殊的环节-人类的大脑。目前,通过广泛网络参与方式,把成千上万个大脑的智慧叠加、合成来获取解决方案的方式备受青睐,在这里,杰夫•豪于2006年提出的“众包”概念(Crowd Sourcing)得到了很好的诠释。

Kaggle利用“众包”,打造了崭新的大数据社会智力参与模式,Kaggle搭建数据众包平台,让统计专家和科学家们走上前台,竞相告诉企业如何解读和应用数据。Kaggle通过网络应征和科研攻关的挑战模式,建立起经验丰富的客户解决方案团队,帮助客户在备份数据中识别问题,寻找企业所需要的价值模式。此外,Kaggle从多流数据采集到数据整合,采用便于定制的解决方案,在貌似杂乱的数据丛林中,为企业找出可用的信息,并提供360度的视角为客户分析数据。类似的众包平台不止一个,Crowd Analytix和TunedIT也是佼佼者。

业内普遍认为,2013年将成为大数据的元年,但如何处理和分析庞大的数据正考验着科学家和企业家。总之,没有智能分析的数据,或只分析却不采取行动,或有行动却没有积极方面的影响,都不会被人为具有任何价值。因此,当你听到周围谁在炒作大数据时,请记住数据本身并没有任何价值,关键在于你用它做了什么或者它刺激你做了什么,最后产生了怎么样的影响。

Skip to toolbar