杨鸣:大数据可改变企业发展游戏规则—技术处理及模式分析

由于人类数据存储量的不断上升,而各种汲取有意义数据模型的技术成本则持续下降,越来越多的企业可受益于大数据的推动。目前的大数据技术 ,如阿帕奇公司的Hadoop大数据平台,较早进军大数据领域,作为一个新兴产业,取得了初步的成功。大数据有望在近期带动企业开辟各种大型网络业务活动和云端服务,协助企业占据改变游戏规则的竞争优势

大数据要改变企业发展游戏规则,首先要能随意扩大缩放规模。LinkedIn采用在线分析处理(OLAP)类的解决方案,为在世界各地的1亿7千5百多万网络成员提供服务。由于会员们都在浏览器前等待页面加载,它必须能够在几十毫秒内解答用户疑问。LinkedIn用户的数据查询的跨度相对减少 – 通常是几十,最多上百项 ,所以该数据可以在一个标度上共享。数据关联可局限到查询者本人,不允许分析超出会员本人界外的数据内容。

为了保证缩放规模,LinkedIn采用双引擎驱动数据查询:1)、可批量计算多维数据集的线下引擎,2)、用户实时查询服务的在线引擎。下线引擎利用Hadoop的分批处理方法,计算具有高吞吐量的数据块。然后写入多维数据集的Voldemort(伏地魔)分布式数据库,与伏地魔存储中的LinkedIn的开源键入值(key-value)合成有关数据集。在用户加载网页时,通过在线引擎查询伏地魔存储器。这个架构中的每一数据块均在用户可交易硬件上运行,可以很容易地水平扩展。

1、公共服务:Hadoop分/缩式数据处理框架

大数据的社会共享能力将成为业务发展的动力。以经营弹性云服务的亚马逊商务云为例,Hadoop为亚马逊弹性云搭建了基于分/缩算法(MapReduce)强大的数据处理框架,使之成为可集中管理、便于扩展、和易于使用的公共智能数据分析平台。亚马逊利用Hadoop中的MapReduce分批查询机制,形成一系列具有广泛生态系统的的工具,可将数据分析同时部署到一个高档次、安全的公关基础设施服务平台。

亚马逊网络服务为用户提供按需接入技术,提高成本效益的大数据处理技术,帮助用户收集,存储,计算和协作来自各地的各种规模的数据集,除了具有先进的Hadoop的管理服务和弹性分/缩(MapReduce)机制,亚马逊数据中心的计算硬件使用强大的英特尔®至强®处理器E5系列,为用户定制高效的,可扩展的大数据分析。

亚马逊云端公共服务平台,可帮助行业创建基于弹性云(EC2)的云端技术服务与资源供给系统,为公司用户提供或开发具有国际先进技术水平的云技术商务应用平台。服务内容可包括各种云端技术服务、操作系统,资源配置、数据信息服务、及配套业务应用软件。平台操作简便,用户仅需选择一个预先配置的最佳操纵模式,通过配套服务和工具即可启动和运行公司所需的云端业务。这使公司可以轻松进行基于云数据中心的、功能强大的商业计算和数据处理,把自定义的应用程序和业务环境加载到数据中心服务系统上。

2、核力引擎:BigQuery(大查询)网络数据处理

谷歌公司采用的是BigQuery(大查询) 大数据网络服务模式,用来操作大规模数据集的互动分析,可以查询高达数十亿行的网络数据。BigQuery既方便扩展又易于使用,可满足强大的数据分析需求。 BigQuery中最大优点是可以对非常大的数据集进行互动分析,例如,欧中帕克斯(Center Parcs Europe)公司经营一个全球度假胜地网络,他们想找到最管用的营销技巧,在繁忙的假期到来之前可以摸准和查获所有的潜在客人。他们利用BigQuery建立新的网络应用程序,“仅需点击按键,即可确定特定数据,将某特定国家或特定时间区域的客人预订信息的查询结果调出来”,然后再将这些查询结果插入谷歌的可视化API系统,形成图表和图形。

处理这样巨大的任务,谷歌的BigQuery在几秒钟的嚓嚓声中,就梳理了数百万条​​的数据记录。相比之下,若选用任何其他系统,同样的数据查询都可能至少需要8分钟之久。这个网络查询系统使欧中帕克斯能够及时“访问预订信息,设定价格,并最大限度地提高收入。”他们的数据运营成本每年可节约15万欧元,最重要的是,由于采用云端应用程序,他们并不需要在本部计算中心运行系统软件与数据,设备费用又可节约近80万欧元。

3、个性数据:图索法(Graph Search)数据处理

脸谱网(Facebook)的发展更离不开大数据。 Facebook的用户群数目已成为天文数字,现有用户超过10亿,其中7.43亿是活动用户。脸谱网面临数据轰击的速度,种类和数量是如此之巨大,不是只靠数据中心就可以对付。脸谱网成功的一个主要的原因是创建了图索法(Graph Search)数据处理模式,其影响力之大可最终盖过搜索巨头谷歌。因为谷歌数据只是通过公开网上搜索,相同选项大多数人都会得到相同的结果。然而在Facebook上,同样的搜索,比如“苹果”,不同用户会得到完全不同的结果,因为Facebook的图索法能够做到深度的个性化。

图索法不仅让用户可以搜寻Facebook网的数据,还可以在搜索结果上包含一种社交信息层面。用户能够在搜索到的Facebook的个人主页上,发现更为密切的,令他们更感兴趣的链接。例如,通过图索法,用户可能会查找到住在旧金山有那些朋友,这些朋友中有谁喜欢冲浪,还能随意调出朋友们的照片,了解朋友们的喜好,等等。在Facebook上用户可查找与朋友相互可分享的任何东西,由于公开分享的内容可以根据用户的愿望设置,所以即使查找同样内容,不同的人看到的却是不同的结果。

4、开放结构:NoSQL(非关联检索)数据库

在现实世界中,要做决定,你会喜欢有多个取自不同来源和角度的见解。大数据的魅力正是如此,可跨越任何信息源和性质不同的数据,为要作决定的用户提供所需的见解。例如经营网络社交游戏的Zynga公司,在收购OMGPOP网之后,其网络移动游戏增长一度居行业之首。有数以百万计的用户端同时上OMGPOP网玩“农家乐”(Farmville),还有6个星期内就扩大到3600万用户的“想画就画”(Draw Something)程式,因此Zynga需要有一种即简单,又快速,又有弹性的数据库。为此他们开发出了特别为大数据时代设计的新一类产品,称为NoSQL(非关联检索)数据库。来满足千万用户使用和共时处理和传递实时数据。NoSQL游戏“清脆的” 实时数据响应意味着更好的整体用户体验,实时数据也使用户更愿选择,或花更多的时间来玩您的游戏或应用程序。不难想像,实时数据甚至还会在商业竞争中帮你取胜。

NoSQL数据库为数据存储和检索提供了简单的,轻量的机制,比传统的关联型数据库提供了更高的可扩展性和可用性。 NoSQL数据存储使用较宽松的同构数据模型来实现横向拓展及更高的可用性,其数据存储一般不采用SQL表格式方法存储数据。NoSQL通过高度优化的检索和附加操作,加快数据记录存储,增加互动速度。与完整的SQL系统相比,虽然运行数据的灵活度有所减少,但数据模型的可扩展性和互动性能却有显著提高。

5、社会智能:大数据众包(CrowdSourcing)模式

在定义大数据时,多数专家认为大数据需要用更高超的技术,减少可容忍的处理时间,更有效地处理大量数据,他们通常以Hadoop分布算法,MapReduce数据集成算法,和云计算为例。其实大数据的处理与整合更离不开一个非常特殊的技术-人类的大脑,并通过广泛网络参与方式,把成千上万个大脑的智慧叠加,合成,并“众包”(CrowdSourcing)给用户。杰夫·豪于2006年在一篇网文中创造了CrowdSourcing这个术语,他在文章中描述了如何利用众包模式充分发挥个人智力的社会参与能力。他认为众包是大数据所需要的“特殊技术”(模式),他以加州大学伯克利分校SETI@Home项目为例:SETI@Home以分布式计算方式,挖掘数以百万计的家庭个人电脑的待用处理功率,通过互联网连人带机打包形成备用的待机工作网络,其最大卖点是利用数以百万计的个人电脑和人脑的处理能力。

“众包”模式以崭新的大数据社会智力参与模式,很快为企业用户所青睐。例如,Kaggle(可雇)数据众包平台让统计数据专家和科学家们走上前台,竞相告诉企业如何解读和应用数据。Kaggle通过网络应征和科研攻关的挑战模式,建立起经验丰富的客户解决方案团队,帮助客户在备份数据中识别问题,寻找企业所需要的价值模式。此外,Kaggle从多流数据采集到数据整合,采用便于定制的解决方案,在貌似杂乱的数据丛林中,为企业找出可用的信息,并提供360度的视角为客户分析数据。

Kaggle认为任何公司都会需要它的数据分析众包模式,通过数据分析,让事实说话。相比传统的咨询公司,数据分析家霍华德说,过去的咨询公司在相当程度上有“蛇油推销员”的特征,往往在漂亮的图片和文字背后缺乏科学的根据。”他说,Kaggle的众包竞争模式反而“是世界上迄今为止用来搭建和培育[预测]数据分析模型的最好方法。客户通过这种基于“智能分析价值链”的数据分析模式,找出数据应用的最好方法。由于数据分析的每一步都不能出错,客户才能开发出数据的真正价值,所以 Kaggle的数据统计专家们也可一揽到底,在每一步都能为客户提供帮助。

6、智能分析:大数据启动云端智能服务

笔者最终还是要强调智能分析在大数据中的重要作用,无论是如何的不厌其烦。在云计算时代,大数据可启动各种云端智能服务。例如, 杨鸣博士设计的“都市物流与交通大数据管理平台,” 是一个用来设计与管理城市密集区域内智能交通与物流云服务系统。系统利用云计算大数据服务,传感技术、云端智能信息技术以及通过各类监控设备、视频、以及实时数据的处理和分析,整合基于云端大数据分析的智能交通管理和物流分配与引领、打造城市智能交通与物流综合信息平台。通过实施大规模智能化数据采集、分析和分流发布,为市区交通和物流用户提供实时交互路况、供货以车辆调度信息,提高市区交通及物流运行效率。

该方案通过云端技术的智能整合,提高现代信息服务的使用效率:使数据中心整体计算服务容量提高3倍;硬件购置成本降低 50%;以 10:1 的比率减少设备运维成本。通过虚拟机制流动资源管理、系统自动监控、自动服务器密度配置、和按需量化计算服务, 我们可帮助客户节省50-60%的运营成本,成倍提高业务能力,并可随时满足和扩大他们的业务发展需求。这使公司用户在大幅度地削减技术投资成本的同时,确保高度的业务灵活性,能对不断变化的市场环境,作出快速反应和决策。

人脑智慧在梳理大数据方面依然起到最终的决定作用。例如2012年美国总统大选,两党双方均不惜代价,利用大数据来预测大选中选民的趋势。当时罗姆尼共和党坚信形势对自己有利,蓄势待发。奥巴马民主党也分秒不停,想摸准选民的风向,主导选情。数周内他们对选情数据进行的细粒度采集和多位形势分析,作为制定竞选策略和掌握获胜机遇的机制。

笔者在这次竞选分析参与活动中深有体会。在数据分析上笔者利用权威数据源,根据选情与数据不对称表现,通过多维数据变量的综合分析,对影响选情的观念范式转移度进行界定,最终推导选情分析。早在2012年一月大选初期,笔者在华裔教授专家网发表的博文“2012中美互动,文明的冲突,争执应有道”中曾断言欧巴马必胜,共和党对手必败。

在2012年10月欧巴马与罗姆尼第一次公开辩论后,罗姆尼选情被大幅看好,综合民调支持率曾在数周内高出欧巴马。笔者根据历史和现实选情变化和实时竞选数据,分析首次辩论对大选的影响,又在博文中指出这是为时尚早的民意波动,欧巴马的竞选主导地位依然坚挺。

距总统大选日只有4天,选战依然难解难分。笔者根据当时9个摇摆州的摇摆情况,推断当时的选情局势基本决定大选结果。笔者当日发博文“杨鸣:美国2012总统大选,谁主沉浮?”认定选情对奥巴马民主党越来越有利,而共和党阵地渐失,很难再会翻盘,罗姆尼在9个摇摆州中恐怕拿不下2个。断定“除非出现如台湾大选那种总统候选人遭枪击突发事件出现,奥巴马必胜,不会再有意外选情发生。”后来发现,奥巴马阵营采用大数据辅助竞选,使民主党得以把握奥巴马总统大选的胜算。

Skip to toolbar