Big Data | 美国华人信息科技协会

2016大数据的六大清晰趋势、五大颠覆空间、三大行业机会

作者：车品觉，浙江大学管理学院客席教授，中国计算机学会大数据专家委员会副主任、华人大数据学会执行会长。最近“大数据”似乎已经过气了，但在我看来，真正的大数据应用和市场在2016年才刚刚开始萌芽。为什么？数据不仅仅只是数据。大数据的创新价值可以来自新连接的数据、算法或者产品本身。过去两年大数据的成长和智能手机的有着紧密的关系，加上IOT的浪潮正在酝酿之中，online与offline的接合带来了更深度的数据关联，触碰到消费者的全渠道行为收集。大数据相关的APP已经集媒体、通信、社交及传感器于一体。数据收集正从求量转为求质。很多企业不再迷信大数据，而是更踏实地收集一些对解决当前问题有用的数据。大家对大数据的态度从2016年开始会变得更谨慎，而且会进入专业领域。我的建议是，2016年要认真思考：怎样看对问题、看懂问题，通过数据的思考达到落地实践。 2016数据六大趋势变是唯一的不变说到趋势，人们往往习惯从改变的现象作观察，但是如果当我们把视野格局放大，在大数据的长期发展趋势中，找出变化的本质，反倒是让我们更容易看清楚动向。从这个角度出发，我至少可以看到未来的2-3年，有几项已经存在的趋势正在扩大中： 1.应用无线化：提供了更大的便利性与移动性、让终端设备与资料采集的作业更弹性而有效率； 2.信息数据化：让讯息的流通、交换、加工、运用更趋标准及结构，DT时代数据的应用变得更即时直接； 3.交易无纸化：彻底的改变了我们交易行为与资金流，并赋予未来微经济商业模式更多创新思考的可能性； 4.人类智能化：大数据所产生的创新价值与人类交互并深入于生活之中，人的思维与新科技将会遇上前所未有的碰撞； 5.决策实时化：透过大数据实时采集及加工改变了决策与信息关系。过去的世界因数据不能低成本获取，决策的实时性和精确难以达到； 6.线下线上化：未来仍将呈现线下更多的运用线上数据倾倒的趋势，线上与线下将连接在一起不能分割；这些本质上的转变会持续好几年，六个趋势会在各自的体系内深化发展与创新。商业价值会逐渐落地于各行业中，数据技术成为各行各业的优化工具或产生颠覆性创新。大数据本身的发展也将被自我颠覆，数据的釆集、更新、识别、关联将会变得越来越自动化。从数据趋势可见的五大颠覆空间 1.数据安全 2015年数据安全事件频发，随着全球各个国家开始采用新的数据安全技术和新的数据保护法律，2016年对数据安全的监督要求将会变得越来越严格。在数据安全方面，人们对个人隐私的保护比商业机密的泄露更为关注。数据安全意识提升的背后，代表的是对数据开放的风险与疑虑。如果数据风险无法被有效管控并建立个人对数据的信任感，对于正在发展中的大数据产业将会形成一种阻碍。个人的隐私、公司机密乃至于国家和国家之间的数据保护，将会是2016年快速成形的趋势，当数据成为商业重要且关键的资产时，随之衍生的可能会是像「首席数据隐私官」这样的职业。或许很多人会觉得匪夷所思，但是我相信到了2016年，很多拥有大量数据的公司都将把“首席数据隐私官”视为一个重要而关键的角色。 2.分析的简化与外包数据分析工作的外包其实是一个概念上的举例，其实我要谈的是大数据背后将会形成的产业链分工。随着大数据应用的落地，很少有企业可以独立完成从原始资料采集、加工、分析乃至于落地应用的完整程序。未来数据的不同处理阶段，都有机会发展出专门的技术公司协助企业完成大数据应用前的整备工作。对应前面提到的“大数据创新循环链”的概念，每一次的大数据变革阶段激荡出新的问题与机会后，新的问题开始聚焦，对应的数据源也趋于集中，这时一个新的产业链机会也就随之产生。中间层(Middle layer)的服务与创新，对于大数据产业的发展将扮演至关重要的角色。 3.政府的数据态度从整个数据地图看，政府是拥有最多数据的“财主”。因为政府锁定了很多公共服务领域的关键数据源，是公共数据开放的大资源，也是大数据驱动的一把金钥匙。政府的数据涵盖能源、金融、交通、治安、医疗、环境、食品等等。你发现所有的数据都是相对集中又非常重要的。政府数据的开放将是产业创新的催化剂，这背后也代表，政府大数据政策对于整体数据产业的发展非常关键。2016年我们可以观察政府对于公共数据开放的态度，而各个行业也可以顺应政府数据政策的脚步，开始尝试进入大数据驱动乃至于大数据变革的第三阶段。 4.多屏时代过去的两三年，我们看到PC被手机颠覆了。但手机会被颠覆吗？虽然短期内还不知道，但我可以预见有两个新的屏会出现:一是Smart TV，二是物联网汽车。 Smart TV是家里的屏，收集你看节目的数据和推荐你喜欢的节目，形成了天然的数据闭环；物联网汽车则是第二个非常关键的屏，将来所有汽车的内部都会像特斯拉一样：一个大屏控制汽车中的每个部分、记录汽车行驶中的各种数据，因此产生信息的流动。最近爱立信(Erickson)公司针对全球40个国家、10万名消费者进行了一项未来载具的调查，研究结果显示超过一半的受访者都认为智能型手机将会在五年后被淘汰，取而代之的是具备AI功能的新设备。但是我的观察很简单，就是从两个层次的分配来思考这个问题：时间分配(Time Share)和载具分配(Device Share)。人在不同的时间段会因为当时的环境状态，对不同的设备有不同程度的依赖。在家时对Smart TV的依赖会比手机高；离开家往下一个目的地移动，大众工具方面我们需要的是手机，如果是自己开车，车用导航或是行车电脑的屏幕就会成为主要的关注对象。所以我不太在意五年后我们拿在手上那块屏幕是否仍称之为手机，而是更在意人会如何与那块屏幕互动，以及互动的过程中我们如何采集到有价值的数据，并进一步对使用者的日常生活做出优化的回馈。 5.数据行业化所有大数据的落地点都与行业相关。互联网影响比较大的行业必然容易数据化，已经冒出头来的有金融、医疗、电商等行业。下一步的大数据应该会在不同的领域各自发展，不会有一个全盘通吃的方案，成为每一个领域的解决方案。包括零售、医疗、教育、金融等行业，都将因“互联网+”的带动而发展。很多小公司起步，产生了很多小数据，这是从0到1；然后整合碎片化的数据，最后积累大量数据。这三个进程的时间点加上不同的应用，铸就了行业大数据。未来大数据将从过去的浅层连结(weak link)转变为深层连结(deep

人工智能的起源：六十年前，一场会议决定了今天的人机大战

13MarchArticles, Big Data, Cloud Computing

澎湃新闻尼克2016-03-13 2006年，会议五十年后，当事人重聚达特茅斯。左起：摩尔，麦卡锡，明斯基，赛弗里奇，所罗门诺夫背景现在一说起人工智能的起源，公认是1956年的达特茅斯会议。殊不知还有个前戏：1955年，美国西部计算机联合大会（Western Joint Computer Conference）在洛杉矶召开，会中还套了个小会：“学习机讨论会”（Session on Learning Machine）。讨论会的参加者中有两个人参加了第二年的达特茅斯会议，他们是塞弗里奇（Oliver Selfridge）和纽厄尔（Allen Newell），塞弗里奇发表了一篇模式识别的文章，而纽厄尔则探讨了计算机下棋，他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨（Pitts），他最后总结时说：“（一派人）企图模拟神经系统，而纽厄尔则企图模拟心智（mind）……但殊途同归。”皮茨眼可真毒，这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。开聊达特茅斯会议之前，先说六个最相关的人。首先，会议的召集者麦卡锡（John McCarthy）当时是达特茅斯学院的数学系助理教授。两年前（1954年）达特茅斯数学系同时有四位教授退休，这对达特茅斯这样的小学校真是不可承受之轻。刚上任的年轻系主任克门尼（Kemeny）之前两年才在普林斯顿逻辑学家丘奇（Church）门下得了逻辑学博士，于是跑到母校求援。这么说起来，克门尼算是图灵的师弟，他战时和物理学家费曼一起工作，还一度当过爱因斯坦的数学助理，后来一头扎在计算机里，和麦卡锡一起琢磨出了分时系统，但他最为人知的工作应该是老少咸宜的编程语言BASIC。现在估计已经没人知道BASIC语言发明人曾是LISP语言发明人的老板。克门尼是天生的官僚，后来位居达特茅斯的校长，美国三里岛核电站出事，总统委托他当调查委员会主席，这是后话。克门尼从母校数学系带回了刚毕业的四位博士前往任教，麦卡锡是其中之一。麦卡锡后来发明的LISP语言中最重要功能Eval实际就是丘奇的lambda演算，而且他后半生致力于用数理逻辑把常识形式化，大家由此猜他可能也是丘奇的学生，但其实不是，他压根学的就不是逻辑。他的老师是失去双手的代数拓扑学家所罗门·莱夫谢茨（Lefschetz）。但麦卡锡对逻辑和计算理论一直有强烈兴趣，他1948年刚到普林斯顿读研究生时就认识了冯·诺伊曼，在老冯影响下开始对在计算机上模拟智能发生兴趣。会议的另一位有影响力的参加者是明斯基。他也是普林斯顿的数学博士，和麦卡锡在读书时就相熟。他的主业也不是逻辑，尽管他后来写过计算理论的书，还培养过好几个计算理论的博士，其中就有图灵奖获得者布鲁姆（Manual Blum）。布鲁姆目前和他老婆(就是实数计算模型BSS的B）、儿子一家三口都在卡内基梅隆大学任教。明斯基的理论情结和丘奇关系也不大，他的老师塔克（Tucker）是莱夫谢茨的学生，主要搞非线性规划和博弈论，多年担任普林斯顿数学系主任，是数学世家，儿子、孙子也都是数学家。所以按辈分论，麦卡锡还是明斯基的师叔。塔克的另一名出色的学生后来得了诺贝尔经济学奖，就是心灵美丽的纳什。纳什比明斯基小一岁，但比他早四年拿到博士，也算是明斯基的师兄。明斯基的博士论文做的是神经网络，他在MIT一百五十周年纪念会议上回忆说是冯·诺伊曼和麦卡洛克启发他做了神经网络。有人还找过他麻烦，质疑说神经网络的研究算数学吗，倒是老冯力挺说：现在不算，但很快就得算。倒是明斯基自己后来和神经网络结下梁子，那段故事见我的《“想啥来啥”和“吃啥补啥”的人工智能之争》（《东方早报·上海书评》2014年9月28日）。塞弗里奇被后人提及不多，但他真是人工智能学科的先驱，他在MIT时一直和神经网络的开创人之一沃伦·麦卡洛克（Warren McCulloch）一起在维纳手下工作，他是维纳最喜欢的学生，但从没读完博士，维纳《控制论》一书的第一个读者就是塞弗里奇。塞弗里奇是模式识别的奠基人，他也写了第一个可工作的AI程序。他后来在麻省理工参与领导MAC项目，这个项目后一分为二：MIT计算机科学实验室和人工智能实验室，分久必合：现在这俩地方又合并了，变成MIT CSAIL。顺便给女读者添点料：塞弗里奇的爷爷就是英国第二大百货店塞尔福里奇（Selfridges）的创始人，塞尔福里奇百货和隔壁的哈罗德百货支撑着牛津街的零售业，现在大概一半顾客来自中国二线城市。信息论的创始人克劳德·香农（Claude Shannon）被麦卡锡拉大旗做虎皮也请到会上打酱油。其实麦卡锡和香农的观点并不一致，平日相处也不睦。香农的硕士、博士论文都是讲怎么实现布尔代数，当时MIT校长布什（Bush）亲自指导。博士毕业后他去了普林斯顿高等研究院，曾和数学家外尔（Weyl）、爱因斯坦、哥德尔等共事，战争中，他一直在贝尔实验室做密码学的工作，图灵在1943年曾秘访美国，和同行交流破解德国密码的经验，其间和香农曾有会晤，一起聊过通用图灵机。战后香农去英国还回访过图灵，一起讨论过计算机下棋。香农内向，从没说过这段往事，直到1982年接受一次采访时才提起。1950年香农在《科学美国人》发表过一篇讲计算机下棋的文章。香农比其他几位年长十岁左右，当时已是贝尔实验室的大佬。纽厄尔另外两位重量级参与者是纽厄尔和司马贺（Herbert Simon）。纽厄尔是麦卡锡和明斯基的同龄人，他硕士也是在普林斯顿数学系，按说普林斯顿数学系很小，他们应有机会碰面，但那时纽厄尔和他俩还真不认识。他们的第一次见面，纽厄尔回忆是在IBM，而麦卡锡回忆是在兰德公司，纽厄尔硕士导师就是冯·诺伊曼的合作者、博弈论先驱摩根斯顿，纽厄尔硕士毕业就迁往西部加入著名智库兰德公司。在兰德开会时认识了塞弗里奇，并受到塞做的神经网络和模式识别的工作的启发，但方法论却完全走的是另一条路。司马贺（Herbert Simon）司马贺比他们仨都大十一岁（怀特海比罗素也大十一岁），那时是卡内基理工学院（卡内基梅隆大学的前身）工业管理系的年轻系主任，他在兰德公司学术休假时认识了纽厄尔。司马贺后来把纽厄尔力邀到卡内基梅隆大学，并给纽厄尔发了个博士学位，开始了他们终生的合作。纽厄尔和司马贺的合作是平等的，司马是纽的老师，但他们合作的文章署名都是按字母顺序纽在前司马在后，每次他们受邀去演讲，都是轮流。司马每次见到别人把他名字放到纽厄尔之前时都纠正。他们共享了1975年的图灵奖，三年后司马贺再得诺贝尔经济学奖。纽厄尔和司马贺代表了人工智能的另一条路线：符号派，他们后来把他们的哲学思路命名为“物理符号系统假说”。简单地说就是：智能是对符号的操作，最原始的符号对应于物理客体。这个思路和英美的经验主义哲学传统接近。他们和当时的数学系主任、第一届图灵奖获得者阿兰·珀里思（Alan Perlis）一起创立了卡内基梅隆大学的计算机系，CMU从此成为计算机学科的重镇。达特茅斯会议会议原址：达特茅斯楼 1953年夏天，麦卡锡和明斯基都在贝尔实验室为香农打工。香农那时的兴趣是图灵机以及是否可用图灵机作为智能活动的理论基础，麦卡锡向香农建议编一本文集，请当时做智能研究的各位大佬贡献文章，这本文集直到1956年才以《自动机研究》（Automata Studies）为名出版，这个书名最后是香农起的，他不想花里胡哨，但麦卡锡认为这没有反映他们的初衷。文集的作者有两类人，一类是逻辑学家（后来都变成计算理论家了），如丘奇的两位杰出学生马丁·戴维斯和克里尼，后者的名著《元数学导论》国内有逻辑学家莫绍揆先生的译本。明斯基、麦卡锡也都有论文录入，香农本人贡献了一篇讲只有两个内部状态的通用图灵机的文章，文集录入的一篇冯·诺伊曼的论文后来开创了容错计算。文集的另一类作者几乎都是维纳的信徒，如阿什比（Ross Ashby）等，以控制论为基础。麦卡锡素不喜控制论和维纳，既不想把维纳当老大，也不愿和他见面争执，其中原因不详，或许和维纳与麦卡洛克吵翻了有关。麦卡洛克和皮茨两位为维纳《控制论》思想贡献多多的人物，在维纳的自传里压根没被提及。麦卡锡同时又觉得香农太理论，当时他想自立门户，只对用计算机实现智能感兴趣。于是他筹划再搞一次活动。 1955年夏天，麦卡锡到IBM打工（美国教授都是九个月工资，如果没有研究经费，夏天要自己觅食），他的老板是罗切斯特（Nathaniel Rochester），罗切斯特是IBM第一代通用机701的主设计师并对神经网络素有兴趣。他们两人倒是挺对脾气，决定第二年夏天在达特茅斯搞一次活动，他俩遂说动了香农和当时在哈佛做初级研究员（Junior Fellow）的明斯基（哈佛的Fellow还是挺值钱的，历史上人数不多，蒯因、王浩、库恩在变成正式教授之前都做过。乔姆斯基几乎在同时也是哈佛的Fellow）一起给洛克菲勒基金会写了个项目建议书，希望得到资助。美国富豪还是有文化传统，至少知道要资助好东西，值得中国土豪的后代学习，别像他们的父辈即使打着“办大学”的名义还是要骗钱。麦卡锡给这个第二年的活动起了个当时看来别出心裁的名字：“人工智能夏季研讨会”(Summer Research Project on Artificial Intelligence)。普遍的误解是“人工智能”这个词是麦卡锡想出来的，其实不是。麦老晚年回忆也承认这个词最早是从别人那里听来的，但记不清是谁。后来英国数学家菲利普·伍德华（Woodward）给《新科学家》杂志写信说他是AI一词的始作俑者，麦卡锡最早是听他说的，因为他1956年曾去MIT交流，见过麦卡锡。但麦卡锡的建议书1955年就开始用“人工智能”了，人老了回忆真不靠谱。当事人除了明斯基之外，都已仙逝，这事恐怕要成悬案了。大家对“人工智能”这个词一开始并没取得完全共识。很多人认为啥事一加“人工”就变味了。纽厄尔和司马贺一直主张用“复杂信息处理”这个词，以至他们发明的语言就叫IPL（Information Processing Language)。他们从某种意义上说偏功能学派，也就是说找到智能的功能不一定非得依靠结构相同或相似。图灵机和递归函数等价，但结构完全不同，所以他们强调“信息处理”。他们俩一开始颇不喜“人工智能”几个字。1958年，在英国国家物理试验室（NPL）召开了“思维过程机器化”（Mechanization of Thought Process）会议，达特茅斯会议的麦卡锡、明斯基、塞弗里奇都参加了，此外还有致力神经网络研究的麦卡洛克，以及英国的控制论代表人物阿什比。两位编程语言的先驱也出席了：巴克斯（Backus）发表了一篇关于他新发明的语言FORTRAN的论文，但他后来一直是函数式语言的倡导者；美国海军女少将格蕾丝·哈泊（Grace Hopper）的文章是讲第一个编译器的，这项工作导致了COBOL语言，中国也有女少将，也是码农。他俩论文的题目里都有Automatic Programming的说法，这在当时就是指高级语言编程，不能和后来人工智能中的自动编程搞混了。这次会上有人再提“人工思维”（Artificial Thinking)的说法。司马贺等人由此也逐渐接受了AI的说法，他晚年还写了本书“人工的科学”，倒是把Artificial这个词更加放大了。 AI历史的方法论历史研究素有两种方法，基于事件的，基于课题（issue）的。人和事的八卦都属前种。纽厄尔在1981年为一本颇为有料的文集《信息研究》贡献的一篇文章“AI历史的智力课题”走了第二条路线。他的方法也挺有意思。他把AI历史当作斗争史，把历史分为两个阶级、两条路线的斗争，于是历史成了一串儿对立的议题，如模拟vs数字，串行vs并行，取代vs增强，语法vs语义，机械论vs目的论，生物学vs活力论，工程vs科学，符号vs连续，逻辑vs心理等，在每一议题下有进一步可分的子议题，如在逻辑vs心理下又有定理证明vs问题求解等。

谷歌专家：“天网”10年后就可能出现

12MarchArticles, Big Data, Cloud Computing

李世石又输了。在这场万众瞩目的人机对战中，谷歌旗下DeepMind团队开发的人工智能AlphaGo围棋程序又一次击败了这位韩国的围棋世界冠军，在五局三胜的比赛中连下两城。看起来继国际象棋之后，人类智能在棋牌游戏的最后一块优势阵地也已经不复存在。就在第二局比赛之前，谷歌一位资深人工智能工程师接受了新浪科技驻美记者的独家专访，就此次比赛以及人工智能的前景发表了他的看法。由于未获允许接受采访，他不便透露具体身份。需要再次强调的是，此次采访是在旧金山时间周三傍晚进行的，当时他还不知道比赛进程，更不知道李世石会再度告负。问：此次比赛是人工智能的里程碑吗? 答：这次比赛是人工智能领域的一个重要里程碑事件，因为研究人员已经从事围棋计算机程序研究数十年了。20年前，计算机在国际象棋领域击败了人类 (注：1997年IBM的深蓝击败世界冠军卡斯帕罗夫)。20年后，电脑程序在围棋上也超越了人类。而此前很多研究人员还认为这至少还需要十年时间。围棋是此前仅存的人类能够击败电脑的完全信息博弈游戏(Perfect Information Game)。问：谷歌人工智能团队有多少人? 答：实际上，谷歌并没有一个叫做人工智能团队的部门。谷歌目前有两个主要团队负责深度学习的研究工作，包括谷歌大脑(Google Brain)以及这次参赛的DeepMind。AlphaGo项目是主要由伦敦的DeepMind团队负责的。我不能透露具体信息。Facebook现在也有一些研究人员在从事同样的项目。问：我们是否可以说李世石的对手不只是AlphaGo，而是整个谷歌人工智能的实力? 答：不是这样，此次李世石的对手是DeepMind的AlphaGo团队。AlphaGo是为围棋比赛开发的，而谷歌的其他机器学习团队都在使用不同的技术，从事不同的项目。问：此次比赛过程中，谷歌总部团队为AlphaGo提供了怎样的支持? 答：只是确保AlphaGo与谷歌的服务器连接顺利。前方也担心比赛过程中互联网连接出现问题，所以准备了备选方案。问：那你们怎么看待第一场比赛的胜利?这是意料之中还是意料之外的? 答：自从去年12月比赛以来，AlphaGo的能力已经得到了明显的提升，我们对此次比赛的胜利是基本预料之内的。我们很多人都认为AlphaGo会赢得比赛，很高兴看到这一切正在变成现实。问：你们预计未来几局战局如何? 答：AlphaGo很大可能会五局全胜。问：中国世界冠军柯洁表示，即便AlphaGo可以战胜李世石，也无法战胜他。答：我不懂围棋，不知道他是谁。即便他是当今围棋的第一人，即便现在AlphaGo不是柯洁的对手，也只需要三个月时间就完全可以击败他。问：那么人工智能何时可以达到撰写小说的程度? 答：这很难说，我估计10年之内可以实现。问：围棋被认为是人类棋牌游戏的智能巅峰。这次AlphaGo取胜是否意味着人工智能已经超越人类智能? 答：不是这样，人类智能包括很多方面。棋牌游戏只是其中很小的一部分能力。举例来说，目前人工智能依然无法在多玩家同时对战的德州扑克游戏中稳操胜券，也无法在股市这样的无法获知玩家信息的游戏中取胜。他们也无法做到品尝食物这样的人类基本能力。问：那么人工智能还需要多久才能对人类智能占据明显优势? 答：在ImageNet计算机视觉识别挑战赛，人工智能已经在图像分类(物体识别)上接近了人类，这其中的挑战只是从一张图像中分析1000种可能性来判断物体。我觉得未来10到15年，人工智能可以接近人类级别的一般智能水平。要实现这个目标，自然语言是需要克服的一大障碍。问：那么人工智能的下一个里程碑是什么? 答：正如我此前所说，下一个里程碑就是自然语言理解，包括更好的理解书写文字以及搜索查询的问题。问：伊隆·马斯克(Elon Musk)担忧未来人工智能可能会无意被用于邪恶，甚至毁灭人类。你怎么看待这种天网存在的可能性? 答：我认为随着强人工智能(AGI)时代的到来，这是可能的。但目前人工智能的能力还太有限，距离这个可能性还太远。我估计，再过10年这个问题会成为可能。(注：天网Skynet是电影《终结者》中的人工智能系统，拥有自我意识之后开始毁灭人类) 问：机器到时候会拥有自我意识吗? 答：目前人工智能依然处在非常早期的阶段，没人知道未来某天机器是否会具备自我意识的能力，乃至更加不可预测的后果。从理论上来说，马斯克的担忧是完全可能的。而这就是马斯克做OpenAI的目的，制定人工智能的道德准则，确保未来人工智能不会被误用于邪恶的目的。问：那你怎么看待马斯克创办的OpenAI机构? 答：我认为保持人工智能研究的开放性和向大众开放是有意义的。他们拥有很多非常杰出的研究人员，包括此前谷歌大脑的一些成员。我很期待看到他们在未来会有怎样研究的成果。问：如果有一天真的出现可怕的后果怎么办? 答：我希望到时候自己的大脑已经融入电脑，人和电脑合为一体。问：你的身体呢? 答：(笑)储存起来，需要的时候再用好了。开个玩笑。

王建民演讲《大数据与智能制造》

10MarchArticles, Big Data

清华大学数据科学研究院副院长王建民演讲《大数据与智能制造》今天如果不是韩院长给我这个任务，我确实不想再讲了。因为最近大数据非常热，各种各样对大数据的分享。大家今天看题目上仍然是大数据，而我们清华大学是在2014年成立的数据科学研究院，我们这个研究院没有以大数据命名，所以给各位嘉宾一个问题。今天我们讲的大数据究竟意味着什么? 王建民，数据科学研究院副院长、清华大学软件学院党委书记兼副院长。国家支撑计划制造业信息化科技工程专家组成员;国家863计划先进制造技术领域专家组成员;国家重大科技专项“核高基”基础软件方向实施专家组成员;中国计算机学会大数据专委会委员、数据库专委会委员。中国的第一本大数据书有一句话：“除了上帝，都要用数据说话”。后来我琢磨为什么说用数据说话，而没有说用大数据说话?恐怕用大数据说话您就听不懂了。所以大数据未必是好事。其实大数据不是我们追求的一个目标，我们是要治理它、利用它。所以可能用数据更好。在今天，大数据更多意味着是一种数据思维，是用数据来理解问题，而不追求它的大或者小。另外大数据又应用在各行各业，所以韩院长给了我这个题目之后我又加上了“工业”，在第二产业当中我们怎么用数据。这个源起是我个人参加了中国《中国制造2025》操作系统与工业软件的起草，去年的9月29号，我们又发布了绿皮书，把“云端”+“终端”工业大数据平台作为操作系统及工业软件方向未来两年发展的重点发展产品。12月7日清华大学牵头在中国工程院召开了工业大数据实施路径的研讨会。在这里李院长分享了很多未来的模式。其实大家现在有一个观点，说制造里有没有数据的问题?这个不讲。今天我们讲的工业大数据和原来做的信息化怎么区别?今天有没有从汽车制造厂来的?制造企业对数据并不陌生，我们一直在收集数据、处理数据、应用数据，企业的信息化经过了三次浪潮，韩院长讲到大数据有一个观点，他会推演到托夫勒的第三次浪潮，信息化和大数据也是第三次浪潮，怎么划分?上世纪的九十年代往前做的大部分都是企业内的信息化，所以那是第一次浪潮。九十年代以后，互联网在美国甚至席卷全球以后，其实先进企业已经开始讲了互联网化，我们今天讲的“互联网+”是国际龙头企业十年前做的事情，今天大家讲的工业变革、工业革命，第三次、第四次，可以统称为新一次工业变革，我非常同意刚才李院长的观点，其实也是美国哈佛大学的观点，就是以智能互联的产品为核心载体，而不仅仅是大家讲的通过互联网增值。在这个过程当中，其实是IT到DT到了互联网时代，其实我们今天讲的是机器数据，基于变革之后的CT，其实是IT、DT的一个融合，是今天工业数据的一个特点。所以这个和我们前面的很多技术都是一脉相承的，而不是横空出世的。同时在机器当中，大家做控制的，特别是流程行业的人一点都不陌生，叫有监控的控制和数据的采集(SCADA)。但是今天又有什么新的变化?变化就在于连接。工业4.0、工业互联网，如果用一个词来概括，就是连接。把原来孤立的机器连接起来，把人和机器连接起来，把原来的企业连接起来，甚至把不同的行业连接起来，这就是跨界和连接的概念。这个就是苦笑曲线与剪刀曲线，这个剪刀曲线就是生产性服务业的快速发展。这个横轴是一个国家的收入水平，这个在前面的报告当中也提过。为什么说大数据是新工业革命的一个驱动力?这个也不讲了，现在有很多的分享。 12月26号的时候，清华发起召开了一个“长城工程科技论坛”，想打造一个工程科技领域和香山论坛相媲美的平台。其中工程院周济院长做了主题演讲，特别针对智能制造讲了三个方面：智能产品、智能生产、智能服务。其实智能产品就像刚才克强主任讲的一个，产品才是制造的核心。第二产业之所以成为第二产业，是因为有工业产品作为载体。否则就成了第三产业了。所以在刚才的剪刀曲线里，第二产业分化出来的产业是2.5产业，这个产业和第三产业不同之处就在于，它是以产品作为载体的一个新的增值服务、创造价值的产业，所以没有产品就没有真正的2.5产业或者真正智能制造转型的产业。为了价值创造，中国要要在供给方面做出改革，大数据是转换动力的媒介。这个媒介是什么?左边是先进制造，右边是“互联网+”，怎么能加起来?核心是要有数据。要在数据空间里实现交互和融合。这个微笑曲线和我刚才讲的苦笑曲线和剪刀曲线是不一样的，这个横轴是复杂装备的生命周期，前端是创造、研发，中期是使用。这个曲线是在传统制造业里的情况，加工制造环节非常非常能够产生利润，尽管今天仍然产生利润，但是没有那么丰厚了。真正的创造要在创造新的产品上，另外要探索新的业态。这里我们要注意，中国是一个制造大国，更是一个使用大国，在使用过程当中抓过来的机遇，积累的知识，能不能使我们产品得到创造、创新?这给我们提出了一个大的问题。讲我们中国企业的一个例子。三一重工现在的大数据平台已经聚集了八千家的全球供应商，一百多个全球分支机构，四百多家的全球代理，有十二万个全球客户。他们是怎么用这个数据来产生价值的?第一个方面是通过采集机器的数据，帮助上游的配件供应商实现精准生产，帮助他们搞清楚什么时候需要配件供应。第二件事情就是发展新的模式，即租赁。这里面要解决跑路的问题，恶意的借贷、购买的问题。怎么样来创新他的产品开发?日本福岛核电站用的就是三一工的装备，能够实现遥控五公里之外的遥控装备，在这个过程当中用了装备操作数据来改进它遥控器的质量和稳定性。在金风科技怎么样利用矫正风机偏航呢?风机上有一个测风仪，这个是解决风机对风的准确与否，因为长时间运行之后，这个测风仪会有偏差，这个偏差每天爬到塔上校正是很难的，因此就要通过数据的在线分析应用。优化风机偏航，每台风机每年可以多发三万多元的电，现在有1.5万台风机，如果三分之一的风机存在误差，每年就是1.5亿的收益。还有像陕鼓动力，其用大数据延伸他的客户服务，大家也看到取得了很好的效果。上个月在工信部，全国智能制造的参会人员在陕鼓参观了一天，其实最后其工业大数据还是解决产品的问题。我们团队是做软件的，要做工业大数据的平台，还是要给我们这些产业提供装备，提供武器的办法多种多样。对工业大数据来讲最重要的是什么?是解决工业的问题，同时要降低成本。我们说今天大数据的浪潮谁是主角?谁领风骚?是开源的代码、开源的软件。去年九月份我到硅谷做了一次分享，有六千人参会，我们分享了两个案例。主办单位就是一个开源的社区，去的都是IBM、微软、思科这些大佬，因为这些开源的软件更接地气、更解决问题。第一个问题其实就是在工业领域怎么把小数据和大数据融合起来，也就是说怎么样把汽车传感器的数据利用好，不仅仅是为了开车、打车，还要看怎么样和产品的制造、设计结合起来。经过五年的努力，我们牵头撰写一个国家的标准正式颁布，其核心就是以产品结构为核心的跨产品生命初期和中期的数据集成框架。再一个就是大数据系统和小数据系统的融合问题，即怎么样把工业数据、产业数据再返回到原来的ERP、PLM、SCM系统当中的一个过程。第二件事情，机器采集的数据某些时候是一个灾难，不要想我们采集的数据一定是有用的，很多数据不发生价值就是一堆垃圾、负担。重要的就是要给你的数据画像，一定要把你采集下来的数据是什么搞清楚。最后分享一下工业大数据分析的挑战。刚才克强主任讲，从汽车人的角度来看智能汽车、自动驾驶汽车和“互联网+”看汽车是不一样的。其实互联网的消费大数据和产业大数据也不一样。我这里分享一点。工业大数据分析结果的可靠性是一个最核心的问题，广告推荐能达到千分之二十的可靠性就是Google的最好水平，如果在工业领域千分之二十的可靠性你敢用吗?完全不敢用。所以在这个过程当中，还需要做数据和做产业的人结合起来，把我们的工业大数据、新能源交通大数据用好。本讲座选自王建民教授于2016年1月9日在 RONG 系列论坛之——“大数据与新能源交通”论坛上所做的题为《大数据与智能制造》的演讲。

有关大数据，看这一篇就够了！

22FebruaryArticles, Big Data

导读>科技的进步在很多的时候总会超出我们的想象，试想如果未来我们一个人拥有的电脑设备超过现在全球现在计算能力的总和，一个人产生的数据量超过现在全球数据量的总和，甚至你的宠物小狗产生的信息量都超过现在全球数据量的总和，世界会发生什么呢？那就取决于你的想象力了。一、大数据的初步理解似乎一夜之间，大数据（Big Data）变成一个IT行业中最时髦的词汇。首先，大数据不是什么完完全全的新生事物，Google的搜索服务就是一个典型的大数据运用，根据客户的需求，Google实时从全球海量的数字资产（或数字垃圾）中快速找出最可能的答案，呈现给你，就是一个最典型的大数据服务。只不过过去这样规模的数据量处理和有商业价值的应用太少，在IT行业没有形成成型的概念。现在随着全球数字化、网络宽带化、互联网应用于各行各业，累积的数据量越来越大，越来越多企业、行业和国家发现，可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率，才逐步形成大数据这个概念。有一个有趣的故事是关于奢侈品营销的。PRADA在纽约的旗舰店中每件衣服上都有RFID码。每当一个顾客拿起一件PRADA进试衣间，RFID会被自动识别。同时，数据会传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间，数据都被存储起来加以分析。如果有一件衣服销量很低，以往的作法是直接干掉。但如果RFID传回的数据显示这件衣服虽然销量低，但进试衣间的次数多。那就能另外说明一些问题。也许这件衣服的下场就会截然不同，也许在某个细节的微小改变就会重新创造出一件非常流行的产品。还有一个是关于中国粮食统计的故事。中国的粮食统计是一个老大难的问题。中国的统计，虽然有组织、有流程、有法律，但中央的统计人员依靠省统计人员，省靠市，市靠县，县靠镇，镇靠村，最后真正干活或上报的是基层兼职的调查人员，由于众所周知的KPI考核导向的原因，层层加码，几乎没有人相信这个调查数据，而其中国家统计局的人是最不信的。在前两年北京的一个会议上，原国家统计局总经济师姚景源向我们讲述了他们是如何做的。他们采用遥感卫星，通过图像识别，把中国所有的耕地标识、计算出来，然后把中国的耕地网格化，对每个网格的耕地抽样进行跟踪、调查和统计，然后按照统计学的原理，计算（或者说估算）出中国整体的整体粮食数据。这种做法是典型采用大数据建模的方法，打破传统流程和组织，直接获得最终的结果。最后是一个炒股的故事。这个故事来自于2011年好莱坞的一部高智商电影《永无止境》，讲述一位落魄的作家库珀，服用了一种可以迅速提升智力的神奇蓝色药物，然后他将这种高智商用于炒股。库珀是怎么炒股的呢？就是他能在短时间掌握无数公司资料和背景，也就是将世界上已经存在的海量数据（包括公司财报、电视、几十年前的报纸、互联网、小道消息等）挖掘出来，串联起来，甚至将Face Book、Twitter的海量社交数据挖掘得到普通大众对某种股票的感情倾向，通过海量信息的挖掘、分析，使一切内幕都不是内幕，使一切趋势都在眼前，结果在10天内他就赢得了200万美元，神奇的表现让身边的职业投资者目瞪口呆。这部电影简直是展现大数据魔力的教材性电影，推荐没有看过的IT人士看一看。从这些案例来看，大数据并不是很神奇的事情。就如同电影《永无止境》提出的问题：人类通常只使用了20％的大脑，如果剩余80％大脑潜能被激发出来，世界会变得怎样？在企业、行业和国家的管理中，通常只有效使用了不到20%的数据（甚至更少），如果剩余80%数据的价值激发起来，世界会变得怎么样呢？特别是随着海量数据的新摩尔定律，数据爆发式增长，然后数据又得到更有效应用，世界会怎么样呢？单个的数据并没有价值，但越来越多的数据累加，量变就会引起质变，就好像一个人的意见并不重要，但1千人、1万人的意见就比较重要，上百万人就足以掀起巨大的波澜，上亿人足以改变一切。数据再多，但如果被屏蔽或者没有被使用，也是没有价值的。中国的航班晚点非常多，相比之下美国航班准点情况好很多。这其中，美国航空管制机构一个的好做法发挥了积极的作用，说起来也非常简单，就是美国会公布每个航空公司、每一班航空过去一年的晚点率和平均晚点时间，这样客户在购买机票的时候就很自然会选择准点率高的航班，从而通过市场手段牵引各航空公司努力提升准点率。这个简单的方法比任何管理手段（如中国政府的宏观调控手段）都直接和有效。这里多说一两句，过去一个暴政国家对内的控制主要是物理上的暴力，就是强力机构权力无限大，搞国家恐怖主义；而现在一个暴政国家，主要是就靠垄断信息、封锁信息，让民众难以获得广泛而真实的信息，从而实现国家的控制。这个信息封锁，就是对大数据的封锁。没有整合和挖掘的数据，价值也呈现不出来。《永无止境》中的库珀如果不能把海量信息围绕某个公司的股价整合起来、串联起来，这些信息就没有价值。因此，海量数据的产生、获取、挖掘及整合，使之展现出巨大的商业价值，这就是我理解的大数据。在互联网对一切重构的今天，这些问题都不是问题。因为，我认为大数据是互联网深入发展的下一波应用，是互联网发展的自然延伸。目前，可以说大数据的发展到了一个临界点，因此才成为IT行业中最热门的词汇之一。二、大数据将重构很多行业的商业思维和商业模式我想以对未来汽车行业的狂野想象来展开这个题目。在人的一生中，汽车是一项巨大的投资。以一部30万车、七年换车周期来算，每年折旧费4万多（这里还不算资金成本），加上停车、保险、油、维修、保养等各项费用，每年耗费应在6万左右。汽车产业也是一个很长产业链的龙头产业，这个方面只有房地产可以媲美。但同时，汽车产业链是一个低效率、变化慢的产业。汽车一直以来就是四个轮子、一个方向盘、两排沙发（李书福语）。这么一个昂贵的东西，围绕车产生的数据却少的可怜，行业产业链之间几无任何数据传递。我们在这里狂野地想象一番，如果将汽车全面数字化，都大数据了，会产生什么结果？有些人说，汽车数字化，不就是加个MBB模块吗？不，这太小儿科了。在我理想中，数字化意味着汽车可以随时联上互联网，意味着汽车是一个大型计算系统加上传统的轮子、方向盘和沙发，意味着可以数字化导航、自动驾驶，意味着你和汽车相关的每一个行动都数字化，包括每一次维修、每一次驾驶路线、每一次事故的录像、每一天汽车关键部件的状态，甚至你的每一个驾驶习惯（如每一次的刹车和加速）都记录在案。这样，你的车每月甚至每周都可能产生T比特的数据。好了，我们假设这些数据都可以存储并分享给相关的政府、行业和企业。这里不讨论隐私问题带来的影响，假设在隐私保护的前提下，数据可以自由分享。那么，保险公司会怎么做呢？保险公司把你的所有数据拿过去建模分析，发现几个重要的事实：一是你开车主要只是上下班，南山到坂田这条线路是非繁华路线，红绿灯很少，这条路线过去一年统计的事故率很低；你的车况（车的使用年限、车型）好，此车型在全深圳也是车祸率较低；甚至统计你的驾驶习惯，加油平均，临时刹车少，超车少，和周围车保持了应有的车距，驾驶习惯好。最后结论是你车型好，车况好，驾驶习惯好，常走的线路事故率低，过去一年也没有出过车祸，因此可以给予更大幅度的优惠折扣。这样保险公司就完全重构了它的商业模式了。在没有大数据支撑之前，保险公司只把车险客户做了简单的分类，一共分为四种客户，第一种是连续两年没有出车祸的，第二种过去一年没有出车祸，第三种过去一年出了一次车祸，第四种是过去一年出了两次及以上车祸的，就四种类型。这种简单粗暴的分类，就好像女人找老公，仅把男人分为没有结过婚的、结过一次婚的、结过二次婚的、结过三次及以上婚的四种男人，就敢嫁人一样。在大数据的支持下，保险公司可以真正以客户为中心，把客户分为成千上万种，每个客户都有个性化的解决方案，这样保险公司经营就完全不同，对于风险低的客户敢于大胆折扣，对于风险高的客户报高价甚至拒绝，一般的保险公司就完全难以和这样的保险公司竞争了。拥有大数据并使用大数据的保险公司比传统公司将拥有压倒性的竞争优势，大数据将成为保险公司最核心的竞争力，因为保险就是一个基于概率评估的生意，大数据对于准确评估概率毫无疑问是最有利的武器，而且简直是量身定做的武器。在大数据的支持下，4S店的服务也完全不同了。车况信息会定期传递到4S店，4S店会根据情况及时提醒车主及时保养和维修，特别是对于可能危及安全的问题，在客户同意下甚至会采取远程干预措施，同时还可以提前备货，车主一到4S店就可以维修而不用等待。对于驾驶者来说，不想开车的时候，在大数据和人工智能的支持下，车辆可以自动驾驶，并且对于你经常开的线路可以自学习自优化。谷歌的自动驾驶汽车，为了对周围环境作出预测，每秒钟要收集差不多1GB的数据，没有大数据的支持，自动驾驶是不可想象的；在和周围车辆过近的时候，会及时提醒车主避让；上下班的时候，会根据实时大数据情况，对于你经常开车的线路予以提醒，绕开拥堵点，帮你选择最合适的线路；在出现紧急状况的时候，比如爆胎，自动驾驶系统将自动接管，提高安全性（人一辈子可以难以碰到一次爆胎，人在紧急时的反应往往是灾难性的，只会更糟）；到城市中心，寻找车位是一件很麻烦的事情，但未来你可以到了商场门口后，让汽车自己去找停车位，等想要回程的时候，提前通知让汽车自己开过来接。车辆是城市最大最活跃的移动物体，是拥堵的来源，也是最大的污染来源之一。数字化的车辆、大数据应用将带来很多的改变。红绿灯可以自动优化，根据不同道路的拥堵情况自动进行调整，甚至在很多地方可以取消红绿灯；城市停车场也可以大幅度优化，根据大数据的情况优化城市停车位的设计，如果配合车辆的自动驾驶功能，停车场可以革命性演变，可以设计专门为自动驾驶车辆的停车楼，地下、地上楼层可以高达几十层，停车楼层可以更矮，只要能高于车高度即可（或者把车竖起来停），这样将对城市规划产生巨大的影响；在出现紧急情况，如前方塌方的时候，可以第一时间通知周围车辆（尤其是开往塌方道路的车辆）；现在的燃油税也可以发生革命性变化，可以真正根据车辆的行驶路程，甚至根据汽车的排污量来收费，排污量少的车甚至可以搞碳交易，卖排放量卖给高油耗的车；政府还可以每年公布各类车型的实际排污量、税款、安全性等指标，鼓励民众买更节能、更安全的车。电子商务和快递业也可能发生巨大的变化。运快递的车都可以自动驾驶，不用赶白天的拥堵的道路，晚上半夜开，在你家门口设计自动接收箱，通过密码开启自动投递进去，就好像过去报童投报一样。这么想象下来，我认为，汽车数字化、互联网化、大数据应用、人工智能，将对汽车业及相关的长长的产业链产生难以想象的巨大变化和产业革命，具有无限的想象空间，可能完全被重构。当然，要实现我所描述的场景，估计至少50年、100年之后的事情了，估计我这辈子是看不到的。下面一个想象是围绕着人本身来展开的。人的数字化生存也就是这几十年的事情。我爷爷奶奶那辈子，是在人生末年的时候有照片，算是初步在个人形象方面有了一点数字化，让我们及后代还可以知道爷爷奶奶的光辉形象。而我们从小就有照片，这些年我们的数字化就越来越多了，身份是数字的（就是身份证），银行存款是数字的，照片是全数字，体检单也数字化，购物数字化（淘宝上有我的几十个地址、几百条购物信息、上万次搜索信息），沟通数字化（****上有新的朋友圈生态），初步构建了一个数字化生存的状态。而我们的下一辈或下下一辈将进入完全的数字化生存，人从一出生就有基因图谱，到后续的每一次体检、每一次化验，到每一年、每一个月、每一个日子的活动，到相关亲戚的轨迹，从每一个人，到每一代人，到整个族谱，到整个国家，到整个全球，这些海量数据的产生将从量变到质变，这些数据的挖掘与使用将对人类本身产生革命性的影响。这里，我们也想象一下：比如，在你找对象的时候，碰上一位心爱的姑娘，大数据系统就像算命系统一样，根据双方海量数据的挖掘，告诉你和姑娘匹配指数是多少，告诉你全球类似情况的夫妻日后离婚概率是多少，低于某个匹配指数，大数据系统会慎重建议你认真考虑不要这个姑娘继续交往下去。听起来是不是特别像门当户对的数字化呢？当然，你可能会说，这样的人生多没有意思啊，错误本来就是人生最美丽的一部分。呵呵，我只讨论科学问题，对你这种以“浪漫主义”为名，事实上是不以结婚为目的的耍流氓式的恋爱，不予以理睬。其实，我内心也承认，偶尔耍耍流氓是很好的。呵呵，开个玩笑。又比如，在你找工作的时候，可能会有这么一天，当你面试时，HR会淡定的告诉你，对不起，经过我们的大数据分析，你历来的网贴、微博、****总体负面情绪过多，不符合我们企业阳光乐观积极向上的主题，出门左拐就有地铁站，慢走。再比如，在你过生日的那天，朋友们生日快乐祝福之后，大数据分析系统会告诉你，你的生命将进入倒计时，根据过去几年的身体数字化大数据，根据基因图谱，根据你亲戚的相关情况统计，你有80%的概率在20年内死去，有30%概率在60岁左右因基因缺陷发生脑溢血，因此你要改善生活习惯，并重点加强监控脑溢血发生的可能性。这些事情如果都发生，会出现什么情况？第一，估计人类的生命普遍将延长10年以上，因为很多潜在的突发性恶性疾病爆发的概率大幅度降低了。第二，和上面的汽车故事一样，保险公司也可以基于大数据重构商业模型，可以对每个人的大数据进行分析，对每个人进行针对性的保险业务设计。第三，药厂的商业模式可能也改变了，药厂拥有你相关的大数据，可以为你量身定做药品，西服都能量身定做，药品为什么不能呢？定制的西服更合身，定制的药品肯定针对性更强、副作用更少。西服能量身定做，是因为有你三围的数据，药品能量身定做也是因为有你身体的数据，道理是一样的。第四，国家的医保政策也可能重构，国家能根据大数据系统，分析整体国民素质，分析老龄化情况，分析养老金系统的承受能力，针对性地增强某些区域的医疗资源，或者动态调整养老保险费率，或者动态调整退休年限等等。对汽车产业和数字化人生的想象告一段落。这里，我想系统回顾一下工业文明的发展历程，首先是物理世界的工业文明，典型是蒸汽机的发明，使汽车、轮船进入生活；然后是数字世界的工业文明，就是IT技术的使用，使PC及各种电子产品进入生活，以及企业数字化系统的建立，使沃尔玛这样的巨型企业产生成为可能；下一步就是物理世界和数字世界的融合，这也就是业界热炒的“工业互联网”、“IT 3.0”，而这里面除了数字技术在传统行业的使用（这个事实上已经在广泛使用）、电子商务在渠道的广泛推行，更重要的就是大数据的产生及挖掘、使用，使企业在管理方式、市场机会挖掘、产品设计、营销、服务、商业模式等发生巨大的变化，这种巨大的变化带来了很多行业的革命性变局，也就是颠覆与改造。这种变化在所谓的低效率的大行业将最为明显与直接。这些所谓的的低效率大行业，就是垄断特征明显、产业规模大、产业链长、历史悠久但长时间变化少、IT应用水平低的行业，如汽车、金融、保险、医疗等。在这个章节的最后，我想总结一下自己对大数据的看法。第一，大数据使企业真正有能力从以自我为中心改变为以客户为中心。企业是为客户而生，目的是为股东获得利润。只有服务好客户，才能获得利润。但过去，很多企业是没有能力做到以客户为中心的，原因就是相应客户的信息量不大，挖掘不够，系统也不支持，目前的保险业就是一个典型。大数据的使用能够使对企业的经营对象从客户的粗略归纳（就是所谓提炼归纳的“客户群”）还原成一个个活生生的客户，这样经营就有针对性，对客户的服务就更好，投资效率就更高。第二，大数据一定程度上将颠覆了企业的传统管理方式。现代企业的管理方式是来源于对军队的模仿，依赖于层层级级的组织和严格的流程，依赖信息的层层汇集、收敛来制定正确的决策，再通过决策在组织的传递与分解，以及流程的规范，确保决策得到贯彻，确保每一次经营活动都有质量保证，也确保一定程度上对风险的规避。过去这是一种有用而笨拙的方式。在大数据时代，我们可能重构企业的管理方式，通过大数据的分析与挖掘，大量的业务本身就可以自决策，不必要依靠膨大的组织和复杂的流程。大家都是基于大数据来决策，都是依赖于既定的规则来决策，是高高在上的CEO决策，还是一线人员决策，本身并无大的区别，那么企业是否还需要如此多层级的组织和复杂的流程呢？第三，大数据另外一个重大的作用是改变了商业逻辑，提供了从其他视角直达答案的可能性。现在人的思考或者是企业的决策，事实上都是一种逻辑的力量在主导起作用。我们去调研，去收集数据，去进行归纳总结，最后形成自己的推断和决策意见，这是一个观察、思考、推理、决策的商业逻辑过程。人和组织的逻辑形成是需要大量的学习、培训与实践，代价是非常巨大的。但是否这是唯一的道路呢？大数据给了我们其他的选择，就是利用数据的力量，直接获得答案。就好像我们学习数学，小时候学九九乘法表，中学学几何，大学还学微积分，碰到一道难题，我们是利用了多年学习沉淀的经验来努力求解，但我们还有一种方法，在网上直接搜索是不是有这样的题目，如果有，直接抄答案就好了。很多人就会批评说，这是抄袭，是作弊。但我们为什么要学习啊？不就是为了解决问题嘛。如果我任何时候都可以搜索到答案，都可以用最省力的方法找到最佳答案，这样的搜索难道不可以是一条光明大道吗？换句话说，为了得到“是什么”，我们不一定要理解“为什么”。我们不是否定逻辑的力量，但是至少我们有一种新的巨大力量可以依赖，这就是未来大数据的力量。第四，通过大数据，我们可能有全新的视角来发现新的商业机会和重构新的商业模式。我们现在看这个世界，比如分析家中食品腐败，主要就是依赖于我们的眼睛再加上我们的经验，但如果我们有一台显微镜，我们一下就看到坏细菌，那么分析起来完全就不一样了。大数据就是我们的显微镜，它可以让我们从全新视角来发现新的商业机会，并可能重构商业模型。我们的产品设计可能不一样了，很多事情不用猜了，客户的习惯和偏好一目了然，我们的设计就能轻易命中客户的心窝；我们的营销也完全不同了，我们知道客户喜欢什么、讨厌什么，更有针对性。特别是显微镜再加上广角镜，我们就有更多全新的视野了。这个广角镜就是跨行业的数据流动，使我们过去看不到的东西都能看到了，比如前面所述的汽车案例，开车是开车，保险是保险，本来不相关，但当我们把开车的大数据传递到保险公司，那整个保险公司的商业模式就全变了，完全重构了。最后一点，我想谈的是大数据发展对IT本身技术架构的革命性影响。大数据的根基是IT系统。我们现代企业的IT系统基本上是建立在IOE（IBM小型机、Oracle数据库、EMC存储）+Cisco模型基础上的，这样的模型是Scale-UP型的架构，在解决既定模型下一定数据量的业务流程是适配的，但如果是大数据时代，很快会面临成本、技术和商业模式的问题，大数据对IT的需求很快就会超越了现有厂商架构的技术顶点，超大数据增长将带来IT支出增长之间的线性关系，使企业难以承受。因此，目前在行业中提出的去IOE趋势，利用Scale-out架构+开源软件对Scale-up架构+私有软件的取代，本质是大数据业务模型所带来的，也就是说大数据将驱动IT产业新一轮的架构性变革。去IOE潮流中的所谓国家安全因素，完全是次要的。所以，美国人说，大数据是资源，和大油田、大煤矿一样，可以源源不断挖出大财富。而且和一般资源不一样，它是可再生的，是越挖越多、越挖越值钱的，这是反自然规律的。对企业如此，对行业、对国家也是这样，对人同样如此。这样的东西谁不喜欢呢？因此，大数据这么热门，是完全有道理的。三、新智慧生物的诞生？下面的想象就更狂野了，真正要实现，估计至少是我们十辈子或者一百辈子以后的事情。那时候，我们已经是祖宗了哈。大家就当科幻小说来看好了。从最近一位微软副总裁的演讲说起。瑞克·拉希德（Rick Rashid）是微软研究院的高级副总裁，有一天，他在中国的天津迈上讲台，面对2000名研究者和学生，要发表演讲，他非常非常紧张。这么紧张是有原因的。问题在于，他不会讲中文，而他的翻译水平以前非常糟糕，似乎注定了这次的尴尬。 “我们希望，几年之内，我们能够打破人们之间的语言障碍，”这位微软研究院的高级副总裁对听众们说。令人紧张的两秒钟停顿之后，翻译的声音从扩音器里传了出来。拉希德继续说：“我个人相信，这会让世界变得更加美好。”停顿，然后又是中文翻译。他笑了。听众对他的每一句话都报以掌声。有些人甚至流下了眼泪。这种看上去似乎过于热情的反应是可以理解的：拉希德的翻译太不容易了。每句话都被理解，并被翻译得天衣无缝。令人印象最深的一点在于，这位翻译并非人类。这就是自然语言的机器翻译，也是长期以来人工智能研究的一个重要体现。人工智能从过去到未来都有清晰而巨大的商业前景，是以前IT业的热点，其热度一点不亚于现在的“互联网”和“大数据”。但是，人类过去在推进人工智能的研究遇到了巨大的障碍，最后几乎绝望。当时人工智能就是模拟人的智能思考方式来构筑机器智能。以机器翻译来说，语言学家和语言专家必须不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则，数十万词汇构成词库，语法规则高达数万条，考虑各种情景、各种语境，模拟人类翻译，计算机专家再构建复杂的程序。最后发现人类语言实在是太复杂了，穷举式的做法根本达不到最基本的翻译质量。这条道路最后的结果是，1960年代后人工智能的技术研发停滞不前数年后，科学家痛苦地发现以“模拟人脑”、“重建人脑”的方式来定义人工智能走入一条死胡同，这导致后来几乎所有的人工智能项目都进入了冷宫。这里讲个小插曲。我读大学的时候，有个老师是国内人工智能的顶级教授，还是国内某个人工智能研究会的副会长。他评述当时的人工智能，不是人工智能，而是人工愚蠢，把人类简单的行为分解、分解再分解，再去笨拙地模拟，不是人怎么聪明怎么学，而是模拟学习最蠢的人的最简单的动作。他说，对于当时人工智能的进步，有些人沾沾自喜，说好像登月计划中人类离月亮更进一步了，其实，就是站上了一块石头对着月亮抒情，啊，我离你更近了。他对自己事业的自我嘲讽，让我至今记忆非常深刻。后来有人就想，机器为什么要向人学习逻辑呢，又难学又学不好，机器本身最强大的是计算能力和数据处理能力，为什么不扬长避短、另走一条道路呢？这条道路就是IBM“深蓝”走过的道路。1997年5月11日，国际象棋大师卡斯帕罗夫在和IBM公司开发的计算机“深蓝”进行对弈时宣布失败，计算机“深蓝”因此赢得了这场意义深远的“人机对抗”。 “深蓝”不是靠逻辑、不靠所谓的人工智能取胜的，就是靠超强的计算能力取胜：思考不过你，但是算死你。类似的逻辑在后续也用到了机器翻译上。谷歌、微软和IBM都走上了这条道路。就是主要采用匹配法，同时结合机器学习，依赖于海量的数据及其相关相关统计信息，不管语法和规则，将原文与互联网上的翻译数据对比，找到最相近、引用最频繁的翻译结果做为输出。也就是利用大数据以及机器学习技术来实现机器翻译。现有的数据量越是庞大，那么这个系统就能越好地运行，这也正是为何新的机器翻译只有在互联网出现以后才有可能重新取得突破性进展的原因所在。因此，目前这些公司机器翻译团队中，有不少计算机科学家，但却连一个纯粹的语言学家也没有，只要擅长数学和统计学，然后又会编程，那就可以了。总而言之，利用这种技术，计算机教会自己从大数据中建立模式。有了足够大的信息量，你就能让机器学会做看上去有智能的事情，别管是导航、理解话语、翻译语言，还是识别人脸，或者模拟人类对话。英国剑桥微软研究院的克里斯·毕肖普（Chris

讲座：走进大数据时代

16JuneBig Data, Headline, News 新闻

12月23日上午，由苏州工业园区中小企业服务中心联合园区先进技术研究院组织的领军产业沙龙第128期——走进大数据时代专题讲座顺利举办。本期沙龙邀请美国加州州立大学计算机系特聘教授、美国亚马逊、微软、谷歌云计算大数据战略合作伙伴章华带来“大数据时代的兴起：科技，契机和挑战”主题讲座。活动吸引了来自中科数据、腾讯、思必驰、国云数据等30余人，大家一起走进大数据时代，感受大数据的科技魅力。活动在苏州洛加大先进技术研究院的执行院长周文生的介绍中拉开帷幕。章华和大家分享了大数据的3V特点、什么是大数据、大数据的潜在价值、人类生成的大数据类型、机器产生的数据、大数据市场预测等内容。章华详细讲述了大数据在美国的发展情况与应用领域，以及一些美国的大数据应用方面的成功案例。章华还介绍了他在美国的优秀讲师团队，他表示，如果有企业想在大数据、云计算领域有所研究学习，他在美国的团队可亲临教学，包括一系列大数据、云计算的教育讲座，并且有任何技术困难，都可以帮忙寻找技术大咖共同解决。活动的尾声，参会人员积极踊跃提问，把工作中遇到的一些困难与疑惑与章华共同探讨沟通，章华也根据自己的学术知识与工作经验，一一耐心详细地解答了大家的问题。本次沙龙为园区互联网企业更好地了解大数据、利用大数据解决现实的商业问题，制定有效的营销规划拓宽了思路。

雲計算讓人享受現在，大數據幫人預測未來

14JuneArticles, Big Data, Cloud Computing, Headline, News 新闻

2015年12月6日举办了云计算和大数据科技讲座近幾年媒體一直在喊雲計算時代來了，大數據時代來了。雲、雲端、雲計算、大數據，這些名詞到底是什麼意思？讀完本文，您應該會有一個更清晰的認知，意識到我們的工作生活已經和雲計算與大數據緊密的聯繫在一起。歷史回顧：發明家愛迪生落敗於交流電網雲計算被業界人士廣泛認為是第四次信息技術革命，如果您還沒有意識到這句話的份量，不妨重溫一下第二次技術革命即電力革命中輸電方式之爭，可一見端倪。愛迪生先後發明了電燈泡、電流表、發電機等，構建了一套完整的供電系統，並採用直流電輸送。在當時和之後相當長時間內，沒有技術支持直流電實現長距離輸送，雖然交流電可以解決遠距離輸電問題，但愛迪生固守直流電，並鼓勵每個社區自己發電，於是分散的小型電廠遍地開花。不用再多講，您也已經知道結果，因為現在只要有個與電網相連的電插頭，電力供應就完全搞定，早已不需要自己購置發電機發電了，而且用多少電付多少錢，省錢省心。在這一點上，生活從此變得簡單。這其中主要是交流電的功勞。雲端服務好比公共設施公共設施的存在就是為民提供生活便利，打開電閘就來電，打開水龍頭就有水，開通電話戶頭就可以通話，用戶不再關心這背後的硬體、軟體如何工作。雲端服務和這些公共設施一樣，是同一模式，所以雲端又被稱為公用計算（utility computing）。不論是什麼型號的電腦，在雲端出現前，都要自己或請人在這臺機器上安裝各類軟體程序，如辦公、殺毒、遊戲、視頻播放、圖像設計、財務軟件或ERP管理系統等。這些軟件和系統還要不斷的更新，企業更需要僱用專業的IT技術人員維護系統。有了雲端，這些都不需要了。未來電腦採購將有大變化位於南加喜瑞都市的美國智泰科技公司是雲端軟體供應商之一。總裁章華博士（Peter H. Zhang）表示，除了所有的數據都可存在雲端外，現在的趨勢是，所有的軟件，不管是簡單的還是複雜的，都在往雲端上搬。他認為，這將極大影響未來的電腦與軟體購置。他說：「將來的計算機，不需要再買配置豪華（fancy）的計算機，可能只需要買一個很簡單的網絡計算機，只要跟網絡相連接，你就可以幹很多事情。所以，可以省你很多錢。」加州州立大學富樂頓分校計算機科學系教授陳君儀博士（Chun-I Philip Chen）表示，雲端服務除了可以幫用戶節省電腦軟體購買費用，還可以為企業節省大量人力和IT維護成本。雲技術為生活增添便利和樂趣除了省錢省事，雲技術還為生活帶來更多便利和樂趣。章華博士舉例說，使用平板電腦、智能手機、社交網站聊天、發圖片、Youtube 傳視頻、Gmail網絡信箱、出租車叫車app等等，這些服務都需要雲計算、雲存儲作支撐，只是用戶不一定意識到而已。南加州中華科工學會理事、中華電腦學會前會長陳中（Joseph Chen）則舉了一個用螺旋槳小飛機拍照的例子。用手機控制空中的小飛機照相，不僅看上去很酷，關鍵技術也是用雲計算。他解釋說，使用者利用手機發出信息指令給雲端服務器，雲端通過計算之後，再把具體的飛行操作指令發送給無人小飛機，這個小飛機就可以幫人攝影或偵測。這種電子設備之間互聯的方式又被稱為物聯網（Internet of Things），是雲端技術的具體應用。通過手機操控無人小飛機攝影（Parrot.com）網速不會是瓶頸為方便理解，章華表示，用戶可以把雲端想像成一個有超強運算和存儲能力的計算機，它是一個虛擬概念，但又有物理實體，通常是由上百萬部主機連在一起構成。如此，數據存儲、軟件程序、分析計算都在雲端服務器完成，這樣一來，用戶可能會擔心速度是否有延遲。網絡速度的確對雲端與終端間的數據傳送至關重要，但現在網絡的發展特別是光纖電纜的傳輸速度相當快。章華預計在不久的將來，下載一個大的高清度電影，可能只需十秒鐘。他說：「網絡技術不會是瓶頸問題。隨著網絡技術的發展，你根本感覺不到網速造成的困難，就像用你自己的計算機一樣。」大數據時代來臨雲端與大數據互為表裡。用戶在使用雲端服務的同時，特別是使用社交網站、即時通訊、電子郵箱等，每天都在產生著海量的數據。根據IBM在11月的報告，2014年全世界平均每天產生2.3澤字節的數據（1澤=10億TB），大約是2012年的920倍。陳君儀教授表示，所謂大數據除了數量大、內容多，它和傳統資料庫式的結構數據（structured data）還有根本不同。社交媒體上的音樂、圖片、視頻等資料都是非結構性的（unstructured data），需要借助雲計算等新的技術工具才能進行收集、分析和處理。數據本身沒有實際意義，只有從中分析出有用的知識，數據才變得有價值。大數據預測應用於市場營銷為什麼今天大數據在產業界深受重視？因為每一個企業、生意人都希望知道客戶或消費者在想些什麼，對某件產品是否滿意等等。暢所欲言的社交媒體上應該會有這方面的原始信息，可是數據實在是太多，如果要尋找起來就好像大海撈針。現在有了新的技術，大數據有了實際用武之地。陳君儀以感恩節期間的黑色星期五促銷舉例，現在的商家在選擇促銷產品與時間點時，就已經在參考從社交網站大量資訊中分析得來的情報，可以提前獲知什麼產品最熱門，從而有針對性的備貨和宣傳。大數據預測結果更精準大數據預測和傳統的經驗預測有什麼根本不同？陳君儀表示，大數據的一個好處就是可以很快的預測最近的將來。他說：「過去傳統的市場分析，是根據過去兩年、三年的數據，那都已經淘汰了。因為客戶、消費群，他們的觀念天天在改變，今年的想法和去年的已經不一樣了。」新的產品能否滿足消費者最新的需求？這是企業無比關注的問題。陳君儀舉例說，蘋果公司也不會知道iPhone賣的到底好不好，客戶是否忠實，有什麼批評意見。對產品有不滿的人可能會在網上討論，發布自己的看法，但不一定反饋到商家那裡。如果商家能夠在第一時間捕捉到這些信息，效果會遠勝於打電話或問卷調查。如果等到用戶退換產品或客戶用腳投票，出現銷量下降，那時間就更晚了。大數據技術可以幫助企業在第一時間捕捉到消費者的動向。大數據也可用於競選預測