有关大数据,看这一篇就够了!

导读>科技的进步在很多的时候总会超出我们的想象,试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和,一个人产生的数据量超过现在全球数据量的总和,甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和,世界会发生什么呢?那就取决于你的想象力了。 一、大数据的初步理解 似乎一夜之间,大数据(Big Data)变成一个IT行业中最时髦的词汇。 首先,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球海量的数字资产(或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少,在IT行业没有形成成型的概念。现在随着全球数字化、网络宽带化、互联网应用于各行各业,累积的数据量越来越大,越来越多企业、行业和国家发现,可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率,才逐步形成大数据这个概念。 有一个有趣的故事是关于奢侈品营销的。PRADA在纽约的旗舰店中每件衣服上都有RFID码。每当一个顾客拿起一件PRADA进试衣间,RFID会被自动识别。同时,数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间,数据都被存储起来加以分析。如果有一件衣服销量很低,以往的作法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多。那就能另外说明一些问题。也许这件衣服的下场就会截然不同,也许在某个细节的微小改变就会重新创造出一件非常流行的产品。 还有一个是关于中国粮食统计的故事。中国的粮食统计是一个老大难的问题。中国的统计,虽然有组织、有流程、有法律,但中央的统计人员依靠省统计人员,省靠市,市靠县,县靠镇,镇靠村,最后真正干活或上报的是基层兼职的调查人员,由于众所周知的KPI考核导向的原因,层层加码,几乎没有人相信这个调查数据,而其中国家统计局的人是最不信的。在前两年北京的一个会议上,原国家统计局总经济师姚景源向我们讲述了他们是如何做的。他们采用遥感卫星,通过图像识别,把中国所有的耕地标识、计算出来,然后把中国的耕地网格化,对每个网格的耕地抽样进行跟踪、调查和统计,然后按照统计学的原理,计算(或者说估算)出中国整体的整体粮食数据。这种做法是典型采用大数据建模的方法,打破传统流程和组织,直接获得最终的结果。 最后是一个炒股的故事。这个故事来自于2011年好莱坞的一部高智商电影《永无止境》,讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物,然后他将这种高智商用于炒股。库珀是怎么炒股的呢?就是他能在短时间掌握无数公司资料和背景,也就是将世界上已经存在的海量数据(包括公司财报、电视、几十年前的报纸、互联网、小道消息等)挖掘出来,串联起来,甚至将Face Book、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向,通过海量信息的挖掘、分析,使一切内幕都不是内幕,使一切趋势都在眼前,结果在10天内他就赢得了200万美元,神奇的表现让身边的职业投资者目瞪口呆。这部电影简直是展现大数据魔力的教材性电影,推荐没有看过的IT人士看一看。 从这些案例来看,大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题:人类通常只使用了20%的大脑,如果剩余80%大脑潜能被激发出来,世界会变得怎样?在企业、行业和国家的管理中,通常只有效使用了不到20%的数据(甚至更少),如果剩余80%数据的价值激发起来,世界会变得怎么样呢?特别是随着海量数据的新摩尔定律,数据爆发式增长,然后数据又得到更有效应用,世界会怎么样呢? 单个的数据并没有价值,但越来越多的数据累加,量变就会引起质变,就好像一个人的意见并不重要,但1千人、1万人的意见就比较重要,上百万人就足以掀起巨大的波澜,上亿人足以改变一切。 数据再多,但如果被屏蔽或者没有被使用,也是没有价值的。中国的航班晚点非常多,相比之下美国航班准点情况好很多。这其中,美国航空管制机构一个的好做法发挥了积极的作用,说起来也非常简单,就是美国会公布每个航空公司、每一班航空过去一年的晚点率和平均晚点时间,这样客户在购买机票的时候就很自然会选择准点率高的航班,从而通过市场手段牵引各航空公司努力提升准点率。这个简单的方法比任何管理手段(如中国政府的宏观调控手段)都直接和有效。这里多说一两句,过去一个暴政国家对内的控制主要是物理上的暴力,就是强力机构权力无限大,搞国家恐怖主义;而现在一个暴政国家,主要是就靠垄断信息、封锁信息,让民众难以获得广泛而真实的信息,从而实现国家的控制。这个信息封锁,就是对大数据的封锁。 没有整合和挖掘的数据,价值也呈现不出来。《永无止境》中的库珀如果不能把海量信息围绕某个公司的股价整合起来、串联起来,这些信息就没有价值。 因此,海量数据的产生、获取、挖掘及整合,使之展现出巨大的商业价值,这就是我理解的大数据。在互联网对一切重构的今天,这些问题都不是问题。因为,我认为大数据是互联网深入发展的下一波应用,是互联网发展的自然延伸。目前,可以说大数据的发展到了一个临界点,因此才成为IT行业中最热门的词汇之一。 二、大数据将重构很多行业的商业思维和商业模式 我想以对未来汽车行业的狂野想象来展开这个题目。 在人的一生中,汽车是一项巨大的投资。以一部30万车、七年换车周期来算,每年折旧费4万多(这里还不算资金成本),加上停车、保险、油、维修、保养等各项费用,每年耗费应在6万左右。汽车产业也是一个很长产业链的龙头产业,这个方面只有房地产可以媲美。 但同时,汽车产业链是一个低效率、变化慢的产业。汽车一直以来就是四个轮子、一个方向盘、两排沙发(李书福语)。这么一个昂贵的东西,围绕车产生的数据却少的可怜,行业产业链之间几无任何数据传递。 我们在这里狂野地想象一番,如果将汽车全面数字化,都大数据了,会产生什么结果? 有些人说,汽车数字化,不就是加个MBB模块吗?不,这太小儿科了。在我理想中,数字化意味着汽车可以随时联上互联网,意味着汽车是一个大型计算系统加上传统的轮子、方向盘和沙发,意味着可以数字化导航、自动驾驶,意味着你和汽车相关的每一个行动都数字化,包括每一次维修、每一次驾驶路线、每一次事故的录像、每一天汽车关键部件的状态,甚至你的每一个驾驶习惯(如每一次的刹车和加速)都记录在案。这样,你的车每月甚至每周都可能产生T比特的数据。 好了,我们假设这些数据都可以存储并分享给相关的政府、行业和企业。这里不讨论隐私问题带来的影响,假设在隐私保护的前提下,数据可以自由分享。 那么,保险公司会怎么做呢?保险公司把你的所有数据拿过去建模分析,发现几个重要的事实:一是你开车主要只是上下班,南山到坂田这条线路是非繁华路线,红绿灯很少,这条路线过去一年统计的事故率很低;你的车况(车的使用年限、车型)好,此车型在全深圳也是车祸率较低;甚至统计你的驾驶习惯,加油平均,临时刹车少,超车少,和周围车保持了应有的车距,驾驶习惯好。最后结论是你车型好,车况好,驾驶习惯好,常走的线路事故率低,过去一年也没有出过车祸,因此可以给予更大幅度的优惠折扣。这样保险公司就完全重构了它的商业模式了。在没有大数据支撑之前,保险公司只把车险客户做了简单的分类,一共分为四种客户,第一种是连续两年没有出车祸的,第二种过去一年没有出车祸,第三种过去一年出了一次车祸,第四种是过去一年出了两次及以上车祸的,就四种类型。这种简单粗暴的分类,就好像女人找老公,仅把男人分为没有结过婚的、结过一次婚的、结过二次婚的、结过三次及以上婚的四种男人,就敢嫁人一样。在大数据的支持下,保险公司可以真正以客户为中心,把客户分为成千上万种,每个客户都有个性化的解决方案,这样保险公司经营就完全不同,对于风险低的客户敢于大胆折扣,对于风险高的客户报高价甚至拒绝,一般的保险公司就完全难以和这样的保险公司竞争了。拥有大数据并使用大数据的保险公司比传统公司将拥有压倒性的竞争优势,大数据将成为保险公司最核心的竞争力,因为保险就是一个基于概率评估的生意,大数据对于准确评估概率毫无疑问是最有利的武器,而且简直是量身定做的武器。 在大数据的支持下,4S店的服务也完全不同了。车况信息会定期传递到4S店,4S店会根据情况及时提醒车主及时保养和维修,特别是对于可能危及安全的问题,在客户同意下甚至会采取远程干预措施,同时还可以提前备货,车主一到4S店就可以维修而不用等待。 对于驾驶者来说,不想开车的时候,在大数据和人工智能的支持下,车辆可以自动驾驶,并且对于你经常开的线路可以自学习自优化。谷歌的自动驾驶汽车,为了对周围环境作出预测,每秒钟要收集差不多1GB的数据,没有大数据的支持,自动驾驶是不可想象的;在和周围车辆过近的时候,会及时提醒车主避让;上下班的时候,会根据实时大数据情况,对于你经常开车的线路予以提醒,绕开拥堵点,帮你选择最合适的线路;在出现紧急状况的时候,比如爆胎,自动驾驶系统将自动接管,提高安全性(人一辈子可以难以碰到一次爆胎,人在紧急时的反应往往是灾难性的,只会更糟);到城市中心,寻找车位是一件很麻烦的事情,但未来你可以到了商场门口后,让汽车自己去找停车位,等想要回程的时候,提前通知让汽车自己开过来接。 车辆是城市最大最活跃的移动物体,是拥堵的来源,也是最大的污染来源之一。数字化的车辆、大数据应用将带来很多的改变。红绿灯可以自动优化,根据不同道路的拥堵情况自动进行调整,甚至在很多地方可以取消红绿灯;城市停车场也可以大幅度优化,根据大数据的情况优化城市停车位的设计,如果配合车辆的自动驾驶功能,停车场可以革命性演变,可以设计专门为自动驾驶车辆的停车楼,地下、地上楼层可以高达几十层,停车楼层可以更矮,只要能高于车高度即可(或者把车竖起来停),这样将对城市规划产生巨大的影响;在出现紧急情况,如前方塌方的时候,可以第一时间通知周围车辆(尤其是开往塌方道路的车辆);现在的燃油税也可以发生革命性变化,可以真正根据车辆的行驶路程,甚至根据汽车的排污量来收费,排污量少的车甚至可以搞碳交易,卖排放量卖给高油耗的车;政府还可以每年公布各类车型的实际排污量、税款、安全性等指标,鼓励民众买更节能、更安全的车。 电子商务和快递业也可能发生巨大的变化。运快递的车都可以自动驾驶,不用赶白天的拥堵的道路,晚上半夜开,在你家门口设计自动接收箱,通过密码开启自动投递进去,就好像过去报童投报一样。 这么想象下来,我认为,汽车数字化、互联网化、大数据应用、人工智能,将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命,具有无限的想象空间,可能完全被重构。当然,要实现我所描述的场景,估计至少50年、100年之后的事情了,估计我这辈子是看不到的。 下面一个想象是围绕着人本身来展开的。人的数字化生存也就是这几十年的事情。我爷爷奶奶那辈子,是在人生末年的时候有照片,算是初步在个人形象方面有了一点数字化,让我们及后代还可以知道爷爷奶奶的光辉形象。而我们从小就有照片,这些年我们的数字化就越来越多了,身份是数字的(就是身份证),银行存款是数字的,照片是全数字,体检单也数字化,购物数字化(淘宝上有我的几十个地址、几百条购物信息、上万次搜索信息),沟通数字化(****上有新的朋友圈生态),初步构建了一个数字化生存的状态。而我们的下一辈或下下一辈将进入完全的数字化生存,人从一出生就有基因图谱,到后续的每一次体检、每一次化验,到每一年、每一个月、每一个日子的活动,到相关亲戚的轨迹,从每一个人,到每一代人,到整个族谱,到整个国家,到整个全球,这些海量数据的产生将从量变到质变,这些数据的挖掘与使用将对人类本身产生革命性的影响。这里,我们也想象一下: 比如,在你找对象的时候,碰上一位心爱的姑娘,大数据系统就像算命系统一样,根据双方海量数据的挖掘,告诉你和姑娘匹配指数是多少,告诉你全球类似情况的夫妻日后离婚概率是多少,低于某个匹配指数,大数据系统会慎重建议你认真考虑不要这个姑娘继续交往下去。听起来是不是特别像门当户对的数字化呢?当然,你可能会说,这样的人生多没有意思啊,错误本来就是人生最美丽的一部分。呵呵,我只讨论科学问题,对你这种以“浪漫主义”为名,事实上是不以结婚为目的的耍流氓式的恋爱,不予以理睬。其实,我内心也承认,偶尔耍耍流氓是很好的。呵呵,开个玩笑。 又比如,在你找工作的时候,可能会有这么一天,当你面试时,HR会淡定的告诉你,对不起,经过我们的大数据分析,你历来的网贴、微博、****总体负面情绪过多,不符合我们企业阳光乐观积极向上的主题,出门左拐就有地铁站,慢走。 再比如,在你过生日的那天,朋友们生日快乐祝福之后,大数据分析系统会告诉你,你的生命将进入倒计时,根据过去几年的身体数字化大数据,根据基因图谱,根据你亲戚的相关情况统计,你有80%的概率在20年内死去,有30%概率在60岁左右因基因缺陷发生脑溢血,因此你要改善生活习惯,并重点加强监控脑溢血发生的可能性。这些事情如果都发生,会出现什么情况?第一,估计人类的生命普遍将延长10年以上,因为很多潜在的突发性恶性疾病爆发的概率大幅度降低了。第二,和上面的汽车故事一样,保险公司也可以基于大数据重构商业模型,可以对每个人的大数据进行分析,对每个人进行针对性的保险业务设计。第三,药厂的商业模式可能也改变了,药厂拥有你相关的大数据,可以为你量身定做药品,西服都能量身定做,药品为什么不能呢?定制的西服更合身,定制的药品肯定针对性更强、副作用更少。西服能量身定做,是因为有你三围的数据,药品能量身定做也是因为有你身体的数据,道理是一样的。第四,国家的医保政策也可能重构,国家能根据大数据系统,分析整体国民素质,分析老龄化情况,分析养老金系统的承受能力,针对性地增强某些区域的医疗资源,或者动态调整养老保险费率,或者动态调整退休年限等等。 对汽车产业和数字化人生的想象告一段落。这里,我想系统回顾一下工业文明的发展历程,首先是物理世界的工业文明,典型是蒸汽机的发明,使汽车、轮船进入生活;然后是数字世界的工业文明,就是IT技术的使用,使PC及各种电子产品进入生活,以及企业数字化系统的建立,使沃尔玛这样的巨型企业产生成为可能;下一步就是物理世界和数字世界的融合,这也就是业界热炒的“工业互联网”、“IT 3.0”,而这里面除了数字技术在传统行业的使用(这个事实上已经在广泛使用)、电子商务在渠道的广泛推行,更重要的就是大数据的产生及挖掘、使用,使企业在管理方式、市场机会挖掘、产品设计、营销、服务、商业模式等发生巨大的变化,这种巨大的变化带来了很多行业的革命性变局,也就是颠覆与改造。这种变化在所谓的低效率的大行业将最为明显与直接。这些所谓的的低效率大行业,就是垄断特征明显、产业规模大、产业链长、历史悠久但长时间变化少、IT应用水平低的行业,如汽车、金融、保险、医疗等。 在这个章节的最后,我想总结一下自己对大数据的看法。 第一,大数据使企业真正有能力从以自我为中心改变为以客户为中心。企业是为客户而生,目的是为股东获得利润。只有服务好客户,才能获得利润。但过去,很多企业是没有能力做到以客户为中心的,原因就是相应客户的信息量不大,挖掘不够,系统也不支持,目前的保险业就是一个典型。大数据的使用能够使对企业的经营对象从客户的粗略归纳(就是所谓提炼归纳的“客户群”)还原成一个个活生生的客户,这样经营就有针对性,对客户的服务就更好,投资效率就更高。 第二,大数据一定程度上将颠覆了企业的传统管理方式。现代企业的管理方式是来源于对军队的模仿,依赖于层层级级的组织和严格的流程,依赖信息的层层汇集、收敛来制定正确的决策,再通过决策在组织的传递与分解,以及流程的规范,确保决策得到贯彻,确保每一次经营活动都有质量保证,也确保一定程度上对风险的规避。过去这是一种有用而笨拙的方式。在大数据时代,我们可能重构企业的管理方式,通过大数据的分析与挖掘,大量的业务本身就可以自决策,不必要依靠膨大的组织和复杂的流程。大家都是基于大数据来决策,都是依赖于既定的规则来决策,是高高在上的CEO决策,还是一线人员决策,本身并无大的区别,那么企业是否还需要如此多层级的组织和复杂的流程呢? 第三,大数据另外一个重大的作用是改变了商业逻辑,提供了从其他视角直达答案的可能性。现在人的思考或者是企业的决策,事实上都是一种逻辑的力量在主导起作用。我们去调研,去收集数据,去进行归纳总结,最后形成自己的推断和决策意见,这是一个观察、思考、推理、决策的商业逻辑过程。人和组织的逻辑形成是需要大量的学习、培训与实践,代价是非常巨大的。但是否这是唯一的道路呢?大数据给了我们其他的选择,就是利用数据的力量,直接获得答案。就好像我们学习数学,小时候学九九乘法表,中学学几何,大学还学微积分,碰到一道难题,我们是利用了多年学习沉淀的经验来努力求解,但我们还有一种方法,在网上直接搜索是不是有这样的题目,如果有,直接抄答案就好了。很多人就会批评说,这是抄袭,是作弊。但我们为什么要学习啊?不就是为了解决问题嘛。如果我任何时候都可以搜索到答案,都可以用最省力的方法找到最佳答案,这样的搜索难道不可以是一条光明大道吗?换句话说,为了得到“是什么”,我们不一定要理解“为什么”。我们不是否定逻辑的力量,但是至少我们有一种新的巨大力量可以依赖,这就是未来大数据的力量。 第四,通过大数据,我们可能有全新的视角来发现新的商业机会和重构新的商业模式。我们现在看这个世界,比如分析家中食品腐败,主要就是依赖于我们的眼睛再加上我们的经验,但如果我们有一台显微镜,我们一下就看到坏细菌,那么分析起来完全就不一样了。大数据就是我们的显微镜,它可以让我们从全新视角来发现新的商业机会,并可能重构商业模型。我们的产品设计可能不一样了,很多事情不用猜了,客户的习惯和偏好一目了然,我们的设计就能轻易命中客户的心窝;我们的营销也完全不同了,我们知道客户喜欢什么、讨厌什么,更有针对性。特别是显微镜再加上广角镜,我们就有更多全新的视野了。这个广角镜就是跨行业的数据流动,使我们过去看不到的东西都能看到了,比如前面所述的汽车案例,开车是开车,保险是保险,本来不相关,但当我们把开车的大数据传递到保险公司,那整个保险公司的商业模式就全变了,完全重构了。 最后一点,我想谈的是大数据发展对IT本身技术架构的革命性影响。大数据的根基是IT系统。我们现代企业的IT系统基本上是建立在IOE(IBM小型机、Oracle数据库、EMC存储)+Cisco模型基础上的,这样的模型是Scale-UP型的架构,在解决既定模型下一定数据量的业务流程是适配的,但如果是大数据时代,很快会面临成本、技术和商业模式的问题,大数据对IT的需求很快就会超越了现有厂商架构的技术顶点,超大数据增长将带来IT支出增长之间的线性关系,使企业难以承受。因此,目前在行业中提出的去IOE趋势,利用Scale-out架构+开源软件对Scale-up架构+私有软件的取代,本质是大数据业务模型所带来的,也就是说大数据将驱动IT产业新一轮的架构性变革。去IOE潮流中的所谓国家安全因素,完全是次要的。 所以,美国人说,大数据是资源,和大油田、大煤矿一样,可以源源不断挖出大财富。而且和一般资源不一样,它是可再生的,是越挖越多、越挖越值钱的,这是反自然规律的。对企业如此,对行业、对国家也是这样,对人同样如此。这样的东西谁不喜欢呢?因此,大数据这么热门,是完全有道理的。   三、新智慧生物的诞生? 下面的想象就更狂野了,真正要实现,估计至少是我们十辈子或者一百辈子以后的事情。那时候,我们已经是祖宗了哈。大家就当科幻小说来看好了。 从最近一位微软副总裁的演讲说起。瑞克·拉希德(Rick Rashid)是微软研究院的高级副总裁,有一天,他在中国的天津迈上讲台,面对2000名研究者和学生,要发表演讲,他非常非常紧张。这么紧张是有原因的。问题在于,他不会讲中文,而他的翻译水平以前非常糟糕,似乎注定了这次的尴尬。 “我们希望,几年之内,我们能够打破人们之间的语言障碍,”这位微软研究院的高级副总裁对听众们说。令人紧张的两秒钟停顿之后,翻译的声音从扩音器里传了出来。拉希德继续说:“我个人相信,这会让世界变得更加美好。”停顿,然后又是中文翻译。 他笑了。听众对他的每一句话都报以掌声。有些人甚至流下了眼泪。这种看上去似乎过于热情的反应是可以理解的:拉希德的翻译太不容易了。每句话都被理解,并被翻译得天衣无缝。令人印象最深的一点在于,这位翻译并非人类。 这就是自然语言的机器翻译,也是长期以来人工智能研究的一个重要体现。人工智能从过去到未来都有清晰而巨大的商业前景,是以前IT业的热点,其热度一点不亚于现在的“互联网”和“大数据”。但是,人类过去在推进人工智能的研究遇到了巨大的障碍,最后几乎绝望。 当时人工智能就是模拟人的智能思考方式来构筑机器智能。以机器翻译来说,语言学家和语言专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则,数十万词汇构成词库,语法规则高达数万条,考虑各种情景、各种语境,模拟人类翻译,计算机专家再构建复杂的程序。最后发现人类语言实在是太复杂了,穷举式的做法根本达不到最基本的翻译质量。这条道路最后的结果是,1960年代后人工智能的技术研发停滞不前数年后,科学家痛苦地发现以“模拟人脑”、“重建人脑”的方式来定义人工智能走入一条死胡同,这导致后来几乎所有的人工智能项目都进入了冷宫。 这里讲个小插曲。我读大学的时候,有个老师是国内人工智能的顶级教授,还是国内某个人工智能研究会的副会长。他评述当时的人工智能,不是人工智能,而是人工愚蠢,把人类简单的行为分解、分解再分解,再去笨拙地模拟,不是人怎么聪明怎么学,而是模拟学习最蠢的人的最简单的动作。他说,对于当时人工智能的进步,有些人沾沾自喜,说好像登月计划中人类离月亮更进一步了,其实,就是站上了一块石头对着月亮抒情,啊,我离你更近了。他对自己事业的自我嘲讽,让我至今记忆非常深刻。 后来有人就想,机器为什么要向人学习逻辑呢,又难学又学不好,机器本身最强大的是计算能力和数据处理能力,为什么不扬长避短、另走一条道路呢?这条道路就是IBM“深蓝”走过的道路。1997年5月11日,国际象棋大师卡斯帕罗夫在和IBM公司开发的计算机“深蓝”进行对弈时宣布失败,计算机“深蓝”因此赢得了这场意义深远的“人机对抗”。 “深蓝”不是靠逻辑、不靠所谓的人工智能取胜的,就是靠超强的计算能力取胜:思考不过你,但是算死你。 类似的逻辑在后续也用到了机器翻译上。谷歌、微软和IBM都走上了这条道路。就是主要采用匹配法,同时结合机器学习,依赖于海量的数据及其相关相关统计信息,不管语法和规则,将原文与互联网上的翻译数据对比,找到最相近、引用最频繁的翻译结果做为输出。也就是利用大数据以及机器学习技术来实现机器翻译。现有的数据量越是庞大,那么这个系统就能越好地运行,这也正是为何新的机器翻译只有在互联网出现以后才有可能重新取得突破性进展的原因所在。 因此,目前这些公司机器翻译团队中,有不少计算机科学家,但却连一个纯粹的语言学家也没有,只要擅长数学和统计学,然后又会编程,那就可以了。 总而言之,利用这种技术,计算机教会自己从大数据中建立模式。有了足够大的信息量,你就能让机器学会做看上去有智能的事情,别管是导航、理解话语、翻译语言,还是识别人脸,或者模拟人类对话。英国剑桥微软研究院的克里斯·毕肖普(Chris

中華科工會舉辦「物聯網」科技講座,華人聽眾們大開眼界

什麼是物聯網(Internet of Things)時代? 當司機操作失誤時汽車會自動報警,當主人忘帶文件時,公文包會自動提醒,當洗衣服時,洗衣機會收到對顏色和水溫的要求。南加州中華科工學會和經文處科技組8日在洛僑中心舉辦「物聯網科技研討會」,未來十年人類開始進入「物聯網」時代,生活在智能世界。 南加州中華科工學會會長容躍說,物聯網就是一個大數據時代,牽涉到生活中的各個層面,從居家生活、出外旅遊、工業生產等。物聯網超越目前的智能手 機、平板電腦等工具,把新一代IT技術充分運用在各行各業之中。大數據可以幫助人們管理生活和工作,提高效率,人們的日常生活將發生翻天覆地的變化. 富樂頓州大(CSUF)電腦科學系教授陳君儀介紹了物聯網的概念,其定義就是把所有物品通過射頻識別等信息感測設備與互聯網(Internet)連接起 來,實現智能化識別和管理。物聯網通過智能感知、識別技術與雲計算在網路的融合應用,成為電腦、互聯網之後世界信息產業發展的第三次浪潮。物聯網被視為互 聯網的應用拓展和創新。具體說來,人們把感應器嵌入和裝備到電網、鐵路、橋梁、隧道、公路、建築、供水系統、大壩、油氣管道等各種物體中,然後將「物聯 網」與現有的互聯網聯合起來,實現人類社會與物理系統的整合。透過中心電腦群對整合網路內的人員、機器、設備和基礎設施實施管理和控制,人類可以更加精細 地管理生產和生活,提高資源利用率和生產力水平,改善人類與自然間的關係。 美國智泰科技公司總裁章華博士介紹了物聯網和雲計算(Cloud computing)。雲計算是物聯網的基石。據IBM等大公司預測,到2020年,物聯網的聯結點(Connectors)將要達到500億個。每個人 可以聯結七到八個控制點,冰箱、電爐、門窗、汽車等都可以被控制和互動。到了2050年時,人類將會進入一個智能型社會,包括智能城市、智能交通、智能旅 遊、智能醫療等,生活的各個方面都實現智能化。另一方面,因為幾乎所有資料都進入雲網,駭客也可以看到,如何保護隱私安全將是一大挑戰。但是,魔高一尺, 道高一丈,隨著科技發展,這些問題也將會得到解決。 此次講座屬於普及型,聽眾沒有電腦專業背景也能理解。研討會討論了物聯網的產品與應用實例,深入淺出,幫助民眾瞭解「物聯網」帶來的巨變。

The 14 Most Shared Big Data Articles in February 2014

1. The World’s Top 10 Most Innovative Companies in Big Data.  http://www.fastcompany.com/most-innovative-companies/2014/industry/big-data 1. GE – For harnessing data from its planes and trains to power a new Industrial Internet, potentially saving billions. 2. KAGGLE – For feeding its DIY data scientists cash-prize challenges (then molding them into a consulting biz) 3. AYASD – For using a visual

讲座:走进大数据时代

12月23日上午,由苏州工业园区中小企业服务中心联合园区先进技术研究院组织的领军产业沙龙第128期——走进大数据时代专题讲座顺利举办。本期沙龙邀请美国加州州立大学计算机系特聘教授、美国亚马逊、微软、谷歌云计算大数据战略合作伙伴章华带来“大数据时代的兴起:科技,契机和挑战”主题讲座。活动吸引了来自中科数据、腾讯、思必驰、国云数据等30余人,大家一起走进大数据时代,感受大数据的科技魅力。     活动在苏州洛加大先进技术研究院的执行院长周文生的介绍中拉开帷幕。章华和大家分享了大数据的3V特点、什么是大数据、大数据的潜在价值、人类生成的大数据类型、机器产生的数据、大数据市场预测等内容。章华详细讲述了大数据在美国的发展情况与应用领域,以及一些美国的大数据应用方面的成功案例。章华还介绍了他在美国的优秀讲师团队,他表示,如果有企业想在大数据、云计算领域有所研究学习,他在美国的团队可亲临教学,包括一系列大数据、云计算的教育讲座,并且有任何技术困难,都可以帮忙寻找技术大咖共同解决。     活动的尾声,参会人员积极踊跃提问,把工作中遇到的一些困难与疑惑与章华共同探讨沟通,章华也根据自己的学术知识与工作经验,一一耐心详细地解答了大家的问题。本次沙龙为园区互联网企业更好地了解大数据、利用大数据解决现实的商业问题,制定有效的营销规划拓宽了思路。

雲計算讓人享受現在,大數據幫人預測未來

2015年12月6日举办了云计算和大数据科技讲座 近幾年媒體一直在喊雲計算時代來了,大數據時代來了。雲、雲端、雲計算、大數據,這些名詞到底是什麼意思?讀完本文,您應該會有一個更清晰的認知,意識到我們的工作生活已經和雲計算與大數據緊密的聯繫在一起。 歷史回顧:發明家愛迪生落敗於交流電網 雲計算被業界人士廣泛認為是第四次信息技術革命,如果您還沒有意識到這句話的份量,不妨重溫一下第二次技術革命即電力革命中輸電方式之爭,可一見端倪。 愛迪生先後發明了電燈泡、電流表、發電機等,構建了一套完整的供電系統,並採用直流電輸送。在當時和之後相當長時間內,沒有技術支持直流電實現長距離輸送,雖然交流電可以解決遠距離輸電問題,但愛迪生固守直流電,並鼓勵每個社區自己發電,於是分散的小型電廠遍地開花。 不用再多講,您也已經知道結果,因為現在只要有個與電網相連的電插頭,電力供應就完全搞定,早已不需要自己購置發電機發電了,而且用多少電付多少錢,省錢省心。在這一點上,生活從此變得簡單。這其中主要是交流電的功勞。 雲端服務好比公共設施 公共設施的存在就是為民提供生活便利,打開電閘就來電,打開水龍頭就有水,開通電話戶頭就可以通話,用戶不再關心這背後的硬體、軟體如何工作。雲端服務和這些公共設施一樣,是同一模式,所以雲端又被稱為公用計算(utility computing)。 不論是什麼型號的電腦,在雲端出現前,都要自己或請人在這臺機器上安裝各類軟體程序,如辦公、殺毒、遊戲、視頻播放、圖像設計、財務軟件或ERP管理系統等。這些軟件和系統還要不斷的更新,企業更需要僱用專業的IT技術人員維護系統。有了雲端,這些都不需要了。   未來電腦採購將有大變化 位 於南加喜瑞都市的美國智泰科技公司是雲端軟體供應商之一。總裁章華博士(Peter H. Zhang)表示,除了所有的數據都可存在雲端外,現在的趨勢是,所有的軟件,不管是簡單的還是複雜的,都在往雲端上搬。他認為,這將極大影響未來的電腦 與軟體購置。他說:「將來的計算機,不需要再買配置豪華(fancy)的計算機,可能只需要買一個很簡單的網絡計算機,只要跟網絡相連接,你就可以幹很多 事情。所以,可以省你很多錢。」 加州州立大學富樂頓分校計算機科學系教授陳君儀博士(Chun-I Philip Chen)表示,雲端服務除了可以幫用戶節省電腦軟體購買費用,還可以為企業節省大量人力和IT維護成本。 雲技術為生活增添便利和樂趣 除了省錢省事,雲技術還為生活帶來更多便利和樂趣。章華博士舉例說,使用平板電腦、智能手機、社交網站聊天、發圖片、Youtube 傳視頻、Gmail網絡信箱、出租車叫車app等等,這些服務都需要雲計算、雲存儲作支撐,只是用戶不一定意識到而已。   南 加州中華科工學會理事、中華電腦學會前會長陳中(Joseph Chen)則舉了一個用螺旋槳小飛機拍照的例子。用手機控制空中的小飛機照相,不僅看上去很酷,關鍵技術也是用雲計算。他解釋說,使用者利用手機發出信息 指令給雲端服務器,雲端通過計算之後,再把具體的飛行操作指令發送給無人小飛機,這個小飛機就可以幫人攝影或偵測。這種電子設備之間互聯的方式又被稱為物 聯網(Internet of Things),是雲端技術的具體應用。 通過手機操控無人小飛機攝影(Parrot.com) 網速不會是瓶頸 為方便理解,章華表示,用戶可以把雲端想像成一個有超強運算和存儲能力的計算機,它是一個虛擬概念,但又有物理實體,通常是由上百萬部主機連在一起構成。如此,數據存儲、軟件程序、分析計算都在雲端服務器完成,這樣一來,用戶可能會擔心速度是否有延遲。 網 絡速度的確對雲端與終端間的數據傳送至關重要,但現在網絡的發展特別是光纖電纜的傳輸速度相當快。章華預計在不久的將來,下載一個大的高清度電影,可能只 需十秒鐘。他說:「網絡技術不會是瓶頸問題。隨著網絡技術的發展,你根本感覺不到網速造成的困難,就像用你自己的計算機一樣。」 大數據時代來臨 雲端與大數據互為表裡。用戶在使用雲端服務的同時,特別是使用社交網站、即時通訊、電子郵箱等,每天都在產生著海量的數據。根據IBM在11月的報告,2014年全世界平均每天產生2.3澤字節的數據(1澤=10億TB),大約是2012年的920倍。 陳君儀教授表示,所謂大數據除了數量大、內容多,它和傳統資料庫式的結構數據(structured data)還有根本不同。社交媒體上的音樂、圖片、視頻等資料都是非結構性的(unstructured data),需要借助雲計算等新的技術工具才能進行收集、分析和處理。數據本身沒有實際意義,只有從中分析出有用的知識,數據才變得有價值。 大數據預測應用於市場營銷 為什麼今天大數據在產業界深受重視?因為每一個企業、生意人都希望知道客戶或消費者在想些什麼,對某件產品是否滿意等等。暢所欲言的社交媒體上應該會有這方面的原始信息,可是數據實在是太多,如果要尋找起來就好像大海撈針。現在有了新的技術,大數據有了實際用武之地。 陳君儀以感恩節期間的黑色星期五促銷舉例,現在的商家在選擇促銷產品與時間點時,就已經在參考從社交網站大量資訊中分析得來的情報,可以提前獲知什麼產品最熱門,從而有針對性的備貨和宣傳。 大數據預測結果更精準 大 數據預測和傳統的經驗預測有什麼根本不同?陳君儀表示,大數據的一個好處就是可以很快的預測最近的將來。他說:「過去傳統的市場分析,是根據過去兩年、三 年的數據,那都已經淘汰了。因為客戶、消費群,他們的觀念天天在改變,今年的想法和去年的已經不一樣了。」新的產品能否滿足消費者最新的需求?這是企業無 比關注的問題。 陳君儀舉例說,蘋果公司也不會知道iPhone賣的到底好不好,客戶是否忠實,有什麼批評意見。對產品有不滿的人可能會在網 上討論,發布自己的看法,但不一定反饋到商家那裡。如果商家能夠在第一時間捕捉到這些信息,效果會遠勝於打電話或問卷調查。如果等到用戶退換產品或客戶用 腳投票,出現銷量下降,那時間就更晚了。大數據技術可以幫助企業在第一時間捕捉到消費者的動向。 大數據也可用於競選預測

Skip to toolbar