Articles | 美国华人信息科技协会

杨鸣：智能社会主义新思维（三）：新常态下的智能化创新

现代社会新常态给人们带来许多困惑：虽然我们的虚拟网络生活越来越丰富，却是越来越脱离现实生活。我们所接触的娱乐多种多样，但很少能带来长久欢乐。网络新闻铺天盖地，然而我们对真理和信仰却更加迷惘。我们的技术越来越先进，工具越来越多，反而我们失于专精，成果出得越来越少。职场更是如此，长此以往，企业一直依赖熟悉的有形的资产来创造价值，提高竞争力。而在新常态中，企业却难以再依靠传统资源，如场地，原材料，劳动力和资本来获得竞争优势。在当今的数字化经济中，企业寻求增长和繁荣，靠的却是无形资产和策略。何谓无形资产？在数字经济中，企业创造价值和竞争获胜靠的是流动的、不断发展变化的无形资产：如企业战略与定位，颠覆创新及先发优势，数据资源和管理能力，市场管理的无形之手，网络效应和外部环境，交易成本效率以及相关优势等等。这些才是数字化经济的活力因素，如果公司寻求的不只是生存，而是在新常态下发愤图强，就必须注重创新，增加无形的活力因素。这些无形资产来自何方？究其根本皆来自创新。现代社会的创新文化支持人类的创新思维，使他们从知识积累中不断提取新的经济营养和社会价值，并通过产生新的环境，改进企业和社会的产品，服务和流程。健康的创新文化支持研究与创新，支持价值共享和信仰的相辅相成，支持全球性知识合作及智慧集成。创新是社会性行为，虽有大有小，但人人都可以学到并参与，不只是社会精英所专有的天生才能，而是可以人人学会并应用的技能。在西方现代社会，创新被视为一个持续发展的过程，而不是特殊的，独立的活动。现代社会和企业组织注重创新型发展，例如，美国现代化企业把创新看作持续的企业文化和企业发展的力量源泉，把创新能力与质量、领导力、产量看得同等重要。他们的做法是：1) 建立好思路和新想法的管理与跟踪机制；2）启动各种信息交流研讨会，协调跨业务、跨部门的创新；3）寻找与具体创新任务（如：目标策划）相适配的创新顾问；4）把创新与其他关键工序连环相扣，包括财务，商务和技术引进等。这些创新型企业更把创新视为系统与机遇，体现出灵活创新的风格，采用各种新发现并抓住机遇。比如：1）不断监测并发现企业内部的创新能手，让他们去带领新方案，逼他们落实于行动。2）头脑开放，对外界的好想法，他们会想方设法与内部的项目挂钩。3）不断试验新概念，做一事，进一步，从中学会很多东西；4）积极与思路相近的，互不竞争的公司合作，从中发现新的观念和趋势。创新引领智能化时代的步伐。例如，人类早期机器思维方式向着当今智能思维方式和大数据思维方式转变，因而有效地推进了大数据时代的到来。随着物联网、云计算、社会计算、可视化技术等的突破性发展，智能化创新正在带动智能思维：大数据平台能自动搜索所有相关的数据信息，并进而主动、立体、逻辑地分析数据，做出判断，提供见解。这无疑也就具有了类似人类的智能思维能力和预测未来的能力。智能与智慧科技是大数据时代的显著特征，大数据时代的思维方式也要求人们从基于机器的自然思维转向基于信息的智能化思维，不断提升社会计算能力和智能化水平，从而获得具有洞察力和新价值的东西。本文中社会智能化的定义是以智能（SMART）作为首字母的5个词组来定义和表述。这5个英语词组的首字母合在一起就是S.M.A.R.T。具体说来，智能以S （Services）作为服务导向，以M（Modularity）作为平台模块组合，以A （Agility）作为策略与目标的敏捷实施，R （Renovation）作为观念与模式创新，以T （Technology）作为先进技术的推广运用，它们合在一起即为智能化（SMART）。简而言之，智能化社会侧重于现代智能化创新的这5个重要特性和运作方法：1）坚持服务社会的导向，2）善于模块化平台组合，3）精于目标的敏捷实施，4）敢于制定改革创新策略，5）专于发展世界先进技术。智能社会在东西方社会中的定义不尽相同，但我们可以引以为鉴。例如，英国的智能社会目标是充分利用现代技术的潜能与动力，使国民有更大的生产力；把资源重点用于重要的经济活动和社会关系；最终改善全社会健康，幸福和生活质量。他们把智能社会定义为：一个成功地发挥信息技术潜力，高效运用联网设备和全球信息网络，以改善公众生活为目的的社会环境。他们提出的智能社会的5个要素是：数据化的信息文化；科技化的知识公民；网络化的执行机构；现代化的管理设施；和开放化的市场平台。（参见：“Towards a smart society”）智能化创新是现代社会发展的必然途径。智能化（SMART）创新文化促进了西方文明，已经在西方国家的企业组织与社会项目管理中广为实践，并大大提高了企业与组织的绩效。美国著名的管理学专家保罗•迈尔在《态度决定一切》中介绍了创新型企业设定智能化（SMART）创新目标的五项指标。这种可程序化的创新文化模型仅由五个简单、易懂、好学、实用的智能指标所构成，这五个智能化目标法则分别以首字母为S.M.A.R.T.五个英文单词组成。S（Specific）代表具体化，M（Measurable）代表可测性，A（Attainable）代表可行性，R（Relevant）代表相关性，T（Time-bound）代表定时性，分述如下：具体化（Specific）要求创新目标是具体的，不是普通的，要清晰无误，不能含糊不清。要使团队的目标具体化，就要准确告诉他们所期望的是什么，为什么很重要，要涉及那些人，发生地点在哪里，以及重要特点是什么。设定这样的具体目标一般要回答5W的问题：是什么（What, 什么项目），为什么（Why, 目标是什么理由，完成目标的好处），在哪里 (Where, 发生在什么地点)，是何人（Who, 谁将参与），有哪些（Which, 什么要求和限制）等。可测性（Measurable）指标要求用具体标准来测量要实现创新目标的进度。如果一个目标是不可测量的，就不可能知道执行团队是否能成功地完成其进度。衡量进度能帮助团队不脱轨，并按时达到其预期的阶段目标，而团队也能及时体验完成任务和获得成就的喜悦，并受到激发，不断努力，达到最终目标。可测量的目标要回答这样的具体问题：1）价值多少？2）多少人参与？3）什么时间完成？4）所有指标是否可量化？可行性（Attainable）指标强调创新目标是真实可行的。可行的目标会吸引团队去实现。目标不能空泛、渺茫，既要力所能及，又要有挑战性，不然便会失去意义。只有当你感到一个目标的意义重大，你才会想方设法去实现它。目标的可行性通常会回答如何做的问题：例如，1）目标如何实现？2）在各种限制条件下，目标的真实性如何？相关性（Relevant）指标强调所选择的创新目标要至关重要。至关重要的目标将会带动团队，部门，和组织一起前进。一个目标只有对准组织的发展方向，支持组织的其他目标，才是密切相关的目标。很多时候，要实现一个目标，你需要组织内的多种支持：需要资源，需要有人站台，需要有人破除障碍。因此，你的目标必须与你的老板，你的团队，你的组织密切相关，因为你需要获得他们的支持。定时性（Time-bound）指标强调该创新目标要在一定时限内落地，就是要限定完成目标的日程。承诺完成限期会帮助团队届时集中努力去完成目标。智能化（SMART）目标的这项指标是为了防止目标的拖时和误期，因为在组织机构中的每天都会有干扰和危机出现。有时限的目标就是为了建立一种完成任务的紧迫感。具体说来，有时限的目标通常会回答这些具体问题：1）什么时候完成？2）从现在起6个月后能做什么？3）从现在起6周后要做什么？4）今天我能做什么？美国创新型企业通过建立创新目标的程序化和常态化，将之作为竞争利器，利用创新使自己与众不同。他们鼓励创新的做法有4点： 1）在各个业务部门定期开展培训，集思广益；2）在企业规划和战略部署中注意使用创新方法；3）以公司的核心竞争力为出发点，不断创新；4) 在产业并购中引用创新方法作为一个重要部分，依此发掘与分析并购目标的增长潜力。结论：正如科学思维为现代社会发展构建了强大的深层架构，智能化创新为智能社会发展编制了先进的路线图。随着智能化创新的持续发展，人工智能（AI），商业智能（BI），治理智能（GI），和运营智能（OI）等社会智能要素都可以在功能，量化和程序化方面得到不断拓展和提升。不久的将来，更多的像AI，BI，GI，OI，的专业智能模块将会如海潮般涌现，经过进一步的智能化（SMART）创新合成，量变势必引起质变，即可成就明日智能世界的智慧文化环境。在创新文化，智能文化，智慧语言和智能科技的交织作用下，以目前智能科技发展每18个月倍增一代的更新速度，到改革开放的下一个30年完成之际，智能科技将经过20代的翻番，届时，一个美好的明日智能社会将会更加璀璨夺目，屹立在世界的东方。

杨鸣：智能社会主义新思维（二）：国家治理现代化需要公共、开放、智能化平台

13AprilArticles, Big Data

中国30年改革时至今日，诱人的改革红利使中国的政治经济体制改革可谓人心所向，令人翘首以待。然而改革进入纵深境地，一步失误亦可导致全盘皆输，这令顶层改革的舵手和设计师们举棋不定，深感举步唯艰，已经不是简单地通过做蛋糕和分蛋糕之争就可以解决的问题。回想30年前的经济改革初期，许多改革方案从头开始。改革的关键是全民动员，任何简单有力的方法和行之有效的方针都可以令人激动，年年可制造GDP增长的神话。邓小平的“摸着石头过河，让一些人先富起来，谁不改革谁下台”等口号一言九鼎，无不令人欢欣鼓舞。然而时至今日，改革已进入攻坚期、深水区，诸多矛盾和问题错综复杂地交织叠加在一起。改革需要有科学，完备，和智能化的载体和平台，才能推动制度更加成熟、定型，为人民幸福安康、为社会和谐稳定、为国家长治久安提供更完备、更稳定、更管用的制度体系，才能在国家治理体系和治理能力现代化上形成总体效应、取得总体效果，才能有效破解经济社会转型升级的发展难题，以及成功应对现代化过程中的风险考验。现代化国家治理体系是复杂而庞大的体系，体系的周密运转必然需要有公共、开放、智能化的国家治理平台，通过各领域、各行业无缝对接的服务模式，形成一个囊括各种政府职能，实现改革开放目的，服务社会各个领域，并适合社会各阶层参与的科学治理环境。建立公共、开放、智能化平台便于改革的实施。顶层设计至关重要，但先进的、现代化的执行方法和模式是发挥制度作用的关键环节，执行力度和效率是制度力量的具体体现。因此，提高科学的，智能化的有效治理国家的能力至关重要。如何推动经济转型升级、提质增效，怎样弥合利益分歧、纾解分化焦虑，如何促进社会公正，营造权利公平、机会公平、规则公平的环境，筑牢社会保障的底线？这些问题，既是顶层设计的命题，也同样是治理能力现代化无法回避的考题。国家治理体系的顶层设计和实施将会涉及数千个公式和参数，数百个功能机构与执行部门，多行业的智囊和咨询机构，从上到下，从中央到地方的通力协作，以及全国人民在各个层面的支持与参与。这样复杂的系统需要智能化，网络化，大数据化，和大信息化的技术架构。否则，就连统筹庞杂的地方治理机构都会顾此失彼，难怪会导致“政令难出中南海”的窘迫局面。李克强总理指出，“改革是最大动力，也是最大红利。要始终坚持让人民群众在改革中受益。要建立更加公平有效的体制机制，注重利用增量带动理顺利益关系，让全体人民共享改革发展成果，”笔者认为这也是搭建国家综合治理平台的发展目标，即通过一个公共、开放、智能化的，从中央到地方的合作与服务平台，高效传递改革动力，为全国人民提供服务与获取红利，通过公民共同参与以及社会共享资源和成果，快速营建和谐发展的环境，形成一种发达社会的完整运作机制。在技术层面，开放型智能平台通常应由多数据中心联合驱动，足以支持各种开放的应用程序，各行业和板块的专业系统，以及大规模的内容市场。平台上各种应用程序要经过严格的专家评估，广泛的用户测试和试用，性能稳定后通过云端和网络快速传递和推广到各运用领域及消费者。现代化发展的生态环境要求这样的综合智能平台应具有非常大的规模和非常高的流动性，适宜各行各业的新应用程序不断引入，而效率低下的旧程序则可快速退役。现代化发展的规模化运作要求平台服务内容也将以非常高的速度大量产生，并随着时间的推移根据市场和用户需求进行安全存储和迅速更新。智能化基础配套设施要求对敏捷性的资源分配，可扩展性，可靠性，问责制和安全性都有可靠保证。平台追求高效的成本效益，要求其基础设施是流动的、柔性的，各种应用工具乃至整个系统均可以容易地复制，重新利用，重新编程，以及添加新的功能。系统的智能化管理和控制应保证平台使用低能耗和低运营成本来提供高效的资源使用率和高度可用性。这种基于云计算的虚拟基础设施架构是开放结构的，开源的，允许各种子系统的联网，对接和整合，以便支持快速推出新应用程序以及提供配套资源的配置方案。开放社会共享平台，通过合理的参数配置，可促使科学治理与中华文化根源的结合与交融。目前中国社会凸显中华传统伦理和精神的沙漠化。周晓虹近期在《美国华裔教授专家网》发表博文“中国社会心态危机蔓延”一文指出：“中国社会的消极心态是伴随着巨大的社会转型出现的，这是社会转型的伴生物。社会变迁速度的加快使得我们降低了对获得改善的满意度，同时提升了我们的期望值，眼光越来越高，不满却越来越深。”资源不能共享，改革红利不均衡，导致先富与共富之间演化为社会阶层矛盾的趋势。改革开放30多年中，人和人、群体和群体间的差异被拉大。刚富裕起来的人对获得的财富非常看重，只有显摆，不愿共享。她提出长线的危机处理方法：“我们的教育必须改变，否则，中国人会成为世界上最物欲、没有精神追求的人群。” 中国特色的社会主义核心价值，必须建立在孕育中国文化的优良传统意识形态上。这体现了中华文化的积淀和中华民族对国家发展最深沉的精神追求，代表着中华民族独特的精神标识，是中华民族生生不息、发展壮大的精神滋养，也是走向现代化、建设现代市场经济的精神资源。在中华民族传统文化中，凝聚着一个伟大民族几千年传承的集体记忆和集体呼唤，形成了独特的民族传统意识形态。因此，中国的政治与经济体制改革必须包含和发扬光大优秀而深沉的中华传统。这些中华文化基因和精神元素同样需要通过一个公共、开放、智能化的合作与服务平台得到彰显。因此，智能化国家治理平台可以作为智能社会主义对中华传统伦理和精神的传承。通过智能社会管理来推进国家治理体系和治理能力现代化。根据《大国治理》所提炼的精华内容，中国特色的国家治理现代化，总体应包括民主化、法治化、科学化、制度化、规范化、程序化、高效化这七个基本的要求。这构成一个复杂而曲折的操作过程。拿大国治理体系来说，完善发展中国特色社会主义，所要展开的观点可以说是纵横交错、相互关联。至少包括经济、政治、文化、社会、生态、党建等各条战线的治理；包括民主、监督、法制、规范、文明、协商、科学、道德、社会主义核心价值等各个要素的建立和运用；包括从中央到地方到基层各个层级的治理等。最近在高层有一个新颖的、也是古人曾经提出的观念，将国家治理比喻为如烹小鲜，奢谈“烹鲜学”。这个提法的跨度太大了，也太笼统了，如果没有智能化超级国家治理平台，恐怕连原料都搞不清楚，何以治大国家如烹小鲜？在21世纪，任何治理体系、治理能力都要实现现代化。现代社会是经济全球化、政治多元化、生活多样化、社会信息化的时代。我们的治理体系、治理能力要适应这四化的要求，才算是现代化。能够代表先进的生产力，代表先进文化，运用现代化手段，包括大数据背景下的新型互联网等，才能称得上现代化。在这里，社会信息化是关键，没有先进的技术架构，没有云计算，大数据，虚拟与流动的信息掌控，大型云数据中心的超级引擎，就不能建立治理大国的基础架构，不能真正实现社会信息化。发展公共、开放、智能化平台，科学地推进市场改革。我国目前的市场体系存在几个突出问题：一是条块分割形成碎片化的市场格局；二是部分市场还没有对所有主体平等开放；三是由于部分行业的垄断导致竞争性缺失；四是市场尚未建立在公平透明规则的基础上；五是商品市场发展比较快，但要素市场，特别是资本市场非常落后。这些问题也是东、西方世界所共有的，是经济发展模式基于自由市场的通病，关键在于社会资源共享不畅，开放性社会协作失调，以及有效的管控与协调机制的缺失。改革是科学化的进程，需要优化的管理环境，以及灵活的危机排除机制。深化改革要从发展公共、开放、智能化市场与政务管理平台开始，使现有的法律法规和改革的目标在同一平台上相互参照，形成统一开放、竞争有序的社会与市场体系。搭建开放、智能化市场平台，保持经济平稳运行。目前的中国社会舆论过多关注于经济增长的速度，具体表现在GDP的增长率。其实中国经济改革的关键不在于速度，而在于效率。只要效率提高对GDP的贡献在提升，经济增长平稳不是坏事。然而没有开放的智能化市场平台，保持平稳经济运行就难以持续。重政绩，拔苗助长，短期效应的，不讲科学的高速发展不可取；轰轰烈烈、杀鸡取卵，大跃进式的发展模式更可能造成适得其反的结果。因此我们在推进改革过程中要重技术，讲科学，按步就班，谨慎实施，要特别注重如何投入小成本而产生明显的效果。习近平总书记最近指出，我们要“建立公开统一的国家科技管理平台，构建总体布局合理、功能定位清晰、具有中国特色的科技计划体系和管理制度，以此带动科技其他方面的改革向纵深推进，为实施创新驱动发展战略创立一个好的体制保障。通过统一的国家科技管理平台，建立决策、咨询、执行、评价、监管各环节职责清晰、协调衔接的新体系。”这虽然是对国家科技资源整合的顶层设计，但也标明新的国家改革的战略和思维：以现代科技创新与发展的动力来带动改革，建立开放的、综合的国家治理平台。保证在国家范围内构建布局合理、功能定位清晰的国家治理体系和管理制度。 21世纪的今天，智能化平台席卷全球教育，管理，商务及市场。随着工业革命的步伐加快，在日新月异的技术革命背景中，社会经济发展模式已从缓慢的生态进化激发到跳跃式的环境更新。纵观世界工业革命的发展路径，从19世纪争夺地盘，到20世纪抢占市场，再到今天21世纪共建平台，深度经济改革和国家治理现代化要把基于新一代技术创新：高速网络、云计算、大数据的智能平台作为国家综合治理的政策载体和运行机制。这将保证改革沿着安全航道向纵深高速发展。展望未来，一个基于共享、开放，智能化平台的智能社会主义轮廓如东方红日，呼之欲出，她将为西方文明所青睐，也为东方世界所瞩目。

杨鸣：正确解读大数据—大在智能，大在应用

13AprilArticles, Big Data

一、大数据增添大智能大数据（Big Data）概念和发展起于美国。最初由EMC集团（包括思科和威睿），甲骨文公司，和IBM倡议发展。大数据的定义方式因人而异，多种多样，但它通常描述数据的3 V（维）特性：1）巨大的信息量（Volumn），从TB（兆兆）级升到EB（千兆兆）级，又将跃升到Zettabytes （兆兆兆）级; 2）信息种类（Variety）繁多; 3）信息处理速度（Velocity）快，这指数据变为可用信息，并且可分析的速度。最近，大数据从3 V特性，逐步升格为4 V特性，即增加数据使用价值（Value），主要体现在数据的智能分析。智能分析（Analytics）是一种对未来智慧的投资，分析的最终目标是做出更明智的决定。有些人误以为大数据只是数据技术处理的升级，即如何存储和备份所有的数据。但是，行家们谈论大数据，通常意味着用新的方式对数据进行分析并作出合理的解释。大数据的应用将有助于决策人灵活应对现实世界中“数据海啸”所引起的机遇和挑战。　　大数据可以引起大动作，可以优化机构的决策和模式。2012年在美国企业和事业单位的技术总管所进行的有关大数据的调查表明了大数据对他们的单位起到了很重要的作用。76%的受访人认为大数据使机构的决策质量和速度大大改善。68%认为有利于机构作出更好的业务规划和预测；67%认为有利于提高机构内部运营效率；65%认为有利于改善外接客户与服务；65%认可减低运营或财务支出；67%认为有利于增加局势预测能力；60%认为有利于量化分析危机；56%认为有利于数据中心的实时操控和问题自动排解；等等。二、大数据拓展大信息大数据所涉及的信息与人密切相关。有关人的信息（人类信息）占世上现有所有数据90％，其中包括电子邮件，视频，社交网络，博客，呼叫中心的对话，以及更多种类。它以惊人的速度在增长：年复合增长率（CAGR）达62％。这种未来的信息计算，代表了一个根本转移人与物（物联网）和企业进行信息交互的方式。 “人类信息”将引起信息技术（IT）的再次进化。多年来，科技界一直在改变着信息技术（IT ）中的技术（T）含量 – 例如通过引进大型计算机，客户端服务器，网络供应（IP），云计算，以及更多的技术重点。这当然改变了我们的信息技术落后局势，但并没有改变计算机与丰富的人类信息的互动方式。人类信息的技术理解需要根本上的新方法和技术，为人类应对每天产生的和不断增殖的信息，提供洞察力，想法，和直觉。在有史以来的科技产业中，第一次信息（I）在IT或 IS（信息科学）中正在发生变化，向着增加智能“I”（Intelligence）的方向发展。“信息科学”应该解读为科学信息，因为未来的信息计算，将以大数据模式，着重信息的智能化，引起人类社会信息交互方式的根本性转变。以智能分析为前提的信息应用将会以更大规模解读人类，解开人类信息的价值。在美国2012年8月对1105家信息企业和集团进行的一项调查显示，在200名受访者中，几乎63％的人同意，除非他们实施和使用大数据，他们将更难以满足他们机构的使命。即使是在经济艰难的时期，49％的受访者预计他们要增加大数据预算，而另外46％的受访者计划要维持他们的大数据预算。迅速发展的全球大数据市场（图表来自美国IDC 研究所）三、大数据触及大社会人类信息大多是非结构化数据，占所有信息的90％，非结构化信息正在以62％的年复合增长率发展，除了其庞大的规模，非结构化的信息的社会应用越来越多。当处理信息搜寻或揭露犯罪时，研究人员从犯罪人的电子邮件中寻找证据。当试图理解他们的客户群时，营销者开始寻找他们的客户的信息。但是客户不把信息发送给您的数据库，它们有自己的推特或博客。这使我们看到当今信息爆炸的社会媒体活动变得越来越复杂。网络视频是一个运用大数据的生动的例子。创建和使用网络视频信息的人也越来越多。例如，君视屏（YouTube）成立于2005年初，该网站使用和消耗数据的速率在迅速增长：用户每分钟上传约35小时的视频；建网仅一年，YouTube上的视频就被浏览约200亿次；在过去的四年里，视频上传量已经增长了8倍；估计到2020年将超过35 Zettabytes。视频信息在YouTube上的使用增长不是一个孤立的情况，苹果公司的iTunes和脸谱网（Facebook）已经越来越多地使用有关音乐和照片信息。这些组织根据消费者的需要，增加他们的在线状态，并试图利用消费者公布的数据。 YouTube和社交互联网进一步显示人类信息在今天的文化中的扩散。数据集的增长如此之大，使现有的数据库和管理工具难以应付。困难包括采集，存储，检索，共享，分析和可视化。这种趋势还将继续下去，因为大数据集的分析有助于发现业务发展趋势，预防疾病，打击犯罪工作的好处，应用越来越广。大的数据集出现在多个学科，更多的、不断增长的大小数据集层出不穷，因为它们更频繁地聚集。用传统的方法尝试处理如此庞大的数据集，需要数十，数百甚至数千台服务器上大规模运行软件和并行操作。此外，大数据的大小应用完全依赖于该组织的需求和能力。如果一个组织已经建立了一个可扩展的方式来管理数据，数百TB（兆兆）的容量不是一个问题。对于其他人，甚至几百MB（兆）字节，可能就需要一个全新的数据管理策略。四、大数据共享大资源信息技术通过云服务实现资源共享，包括共享昂贵的基础设施，无论这些基础设施是信息储存，硬件技术，或专业人才。由于云资源可以共享，并独立于时间和地点，导致社会实体之间越来越共享资源，即信息的供需，数据的储用，以及软件的集中与规模化。例如，图书电子版本可用于多用户，甚至同步使用。高校无须拥有与购置同一书籍的原始版本，可以选择由哪个机构进行那些卷策的数字化处理和由哪个机构存储原始的印刷版。这种合作可以降低成本（例如，数字化，存储）和拓展资源的利用。例如，哥伦比亚大学和康奈尔大学的图书馆有一个合作项目，名为2CUL（绰号，发音为“Too Cool” （太酷），由图书馆的首字母缩写而成），对图书馆的藏书进行数字化和共享。尽管2CUL更广泛的倡议包括许多领域的共享库存服务，如收藏集开发，编目，和工作人员的专业知识，而项目的重点是发展的技术基础设施，使合作伙伴能提高图书和数字文件传递和电子资源管理，以及提供共享的电子材料的长期归档。哥伦比亚和康奈尔相信这个共享服务将改变图书馆系统为他们的选区所提供的内容和服务，认识到他们一起将比他们单独所能够实现的更多. 海西图书资料集团（HathiTrust）为共享基础设施提供了另一个例证。海西图书资料集团是个大型数字资料仓库，归六十多个美国的和一个欧洲的研究图书馆集体所有。HathiTrust的运作模式包括数字化材料的共同治理和财务，收集，保存和借用。此外，研究人员通过HathiTrust的研制发明和计算工具，能够搜索和分析数字化内容，包括书籍和期刊以外的数字化文件格式。截至2011年底，该集团的电子书库包含近1000万册的电子书卷，其中27％属于公共领域的图书。其他类型的基础设施，如网络，处理能力和数据存储，也可以共享。例如，兆兆网格（TeraGrid）是一个进行网格计算的基础设施（高性能计算资源，数据库，工具及实验设施），总共汇总了十一所院校的资源。当然，教学工具也可以共享。例如，iLabs是可以通过互联网访问的在线实验室的集合，让学生在任何地方和任何时间均可进行实验室试验。开放课件汇集也可以被认为是一个共享的基础设施。例如，塞勒基金会的Saylor.org，是一个可供开放访问的在线学习平台，免费向公众提供可自控的大专层次的课件。

杨鸣：大数据从哪里来，到哪里去？

13AprilArticles, Big Data

大数据（Big Data）概念和发展源起于美国，最初由EMC集团（包括思科和威睿）、甲骨文公司和IBM倡议发展。全球信息咨询机构国际数据公司（IDC）对大数据的技术定义是：通过高速捕捉、发现或分析，从大容量数据中获取价值的一种新的技术架构。大数据具有4V特点：Volume（体量）、Velocity（速度）、Variety（多样性）、Value（价值）。有些人误以为大数据只是数据技术处理的升级，即如何存储和备份所有的数据，但是，行家们谈论大数据，通常意味着用新的方式对数据进行分析并做出合理的解释。大数据的应用将有助于决策人灵活应对现实世界中“数据海啸”所引起的机遇和挑战。“大数据”可以引起“大动作”，如优化机构的决策和模式。2012年在美国企业和事业单位的技术总管所进行的有关大数据的调查就表明了，大数据具有重要作用——76%的受访人认为大数据使机构的决策质量和速度大大改善；68%认为有利于机构作出更好的业务规划和预测；67%认为有利于提高机构内部运营效率；65%认为有利于改善外接客户与服务；65%认可减低运营或财务支出；67%认为有利于增加局势预测能力；60%认为有利于量化分析危机；56%认为有利于数据中心的实时操控和问题自动排解等等。实际上，在移动互联网飞速发展的今天，各类个人生活、企业经营和政府管理等方面的数据都在不断以几何方式递增，大数据正在不断激发巨大的力量。正如IBM首席执行官罗睿兰曾说过，“数据将是下一个大的自然资源，它将区分每个行业的胜者与输家。”国内的先行者如阿里巴巴已经尝试通过数据和C2B的结合，利用电子商务平台引导和激发消费力，引领消费模式的变革。业内人士也相信，阿里今年对于新浪的收购也是其利用大数据布局未来（移动）互联网江湖的重要一环。其他领域当然也不例外。“这是一场革命，庞大的数据资源使得各个领域开始了量化进程，无论学术界、商界还是政府，所有领域都将开始这种进程。”正如哈佛大学社会学教授加里•金所言。这么说，似乎已经解答了大数据“从哪里来、到哪里去”的问题，但实际不然。大数据大热的同时，更要求我们洞察现实，避免其演变成为一场概念炒作或者是划地圈钱的运动。我们应该清楚的是：大数据本身并没有什么意义，如何从不断激增的数据中去除垃圾、寻找价值进而采取行动的过程才是其真正价值所在。多年来，科技界一直在改变着信息技术（IT）中的技术（T）含量，例如通过引进大型计算机、客户端服务器、网络供应（IP）、云计算等技术重点。这在一定程度上改变了我们信息技术落后的局势，但遗憾的是，这些技术却并没有成功变革计算机与丰富的人类信息的互动方式。人类信息的技术理解需要根本上的新方法，为人类应对越来越巨大的信息量提供洞察力、想法和直觉。实际上，我们可以看到，在有史以来的科技产业中，一次信息（I）在信息技术（IT）或信息科学（IS）中正发生正变化，向着增加智能“I”(Intelligence)的方向发展。“信息科学”也许可以解读为科学信息，因为未来的信息计算，将以大数据模式呈现，更注重信息的智能化，并足以引起人类社会信息交互方式的根本性转变。以智能分析为前提的信息应用将会以更大规模解读人类，解开人类信息的价值。比如谷歌公司采用的是Big Query(大查询)大数据网络服务模式，用来操作大规模数据集的互动分析，可以查询高达数十亿行的网络数据。Big Query既方便扩展又易于使用，可满足强大的数据分析需求。Big Query中最大优点是可以对非常大的数据集进行互动分析，例如，欧中帕克斯公司经营了一个全球度假胜地网络，他们想找到最管用的营销技巧，以便在繁忙的假期到来之前就可以摸准和查获所有的潜在客人。他们利用Big Query建立新的网络应用程序，“仅需点击按键，即可确定特定数据，将某特定国家或特定时间区域的客人预订信息的查询结果全部调出来”，然后再将这些查询结果插入谷歌的可视化API系统，形成分析图表。处理这样巨大的任务，谷歌的Big Query在几秒钟的嚓嚓声中，就梳理了数百万条的数据记录。相比之下，若选用任何其他系统，同样的数据查询都可能至少需要8分钟之久。这个网络查询系统使欧中帕克斯能够及时访问所需信息，然后设定价格，最后帮助他们最大限度地提高收入。据统计，他们的数据运营成本每年可节约15万欧元，最重要的是，由于采用云端应用程序，他们并不需要在本部计算中心运行系统软件与数据，设备费用又可节约近80万欧元。在定义大数据时，一些专家喜欢展望未来：更高超的技术，更快的处理速度，更有效的处理方式，他们通常以Hadoop分布算法，Map Reduce数据集成算法，和云计算为例。但实际上，大数据的处理与整合是一个非常复杂的过程，其中更离不开一个非常特殊的环节-人类的大脑。目前，通过广泛网络参与方式，把成千上万个大脑的智慧叠加、合成来获取解决方案的方式备受青睐，在这里，杰夫•豪于2006年提出的“众包”概念（Crowd Sourcing）得到了很好的诠释。 Kaggle利用“众包”，打造了崭新的大数据社会智力参与模式，Kaggle搭建数据众包平台，让统计专家和科学家们走上前台，竞相告诉企业如何解读和应用数据。Kaggle通过网络应征和科研攻关的挑战模式，建立起经验丰富的客户解决方案团队，帮助客户在备份数据中识别问题，寻找企业所需要的价值模式。此外，Kaggle从多流数据采集到数据整合，采用便于定制的解决方案，在貌似杂乱的数据丛林中，为企业找出可用的信息，并提供360度的视角为客户分析数据。类似的众包平台不止一个，Crowd Analytix和TunedIT也是佼佼者。业内普遍认为，2013年将成为大数据的元年，但如何处理和分析庞大的数据正考验着科学家和企业家。总之，没有智能分析的数据，或只分析却不采取行动，或有行动却没有积极方面的影响，都不会被人为具有任何价值。因此，当你听到周围谁在炒作大数据时，请记住数据本身并没有任何价值，关键在于你用它做了什么或者它刺激你做了什么，最后产生了怎么样的影响。

杨鸣：大数据可改变企业发展游戏规则—技术处理及模式分析

13AprilArticles, Big Data

由于人类数据存储量的不断上升，而各种汲取有意义数据模型的技术成本则持续下降，越来越多的企业可受益于大数据的推动。目前的大数据技术，如阿帕奇公司的Hadoop大数据平台，较早进军大数据领域，作为一个新兴产业，取得了初步的成功。大数据有望在近期带动企业开辟各种大型网络业务活动和云端服务，协助企业占据改变游戏规则的竞争优势大数据要改变企业发展游戏规则，首先要能随意扩大缩放规模。LinkedIn采用在线分析处理（OLAP）类的解决方案，为在世界各地的1亿7千5百多万网络成员提供服务。由于会员们都在浏览器前等待页面加载，它必须能够在几十毫秒内解答用户疑问。LinkedIn用户的数据查询的跨度相对减少 – 通常是几十，最多上百项，所以该数据可以在一个标度上共享。数据关联可局限到查询者本人，不允许分析超出会员本人界外的数据内容。为了保证缩放规模，LinkedIn采用双引擎驱动数据查询：1）、可批量计算多维数据集的线下引擎，2）、用户实时查询服务的在线引擎。下线引擎利用Hadoop的分批处理方法，计算具有高吞吐量的数据块。然后写入多维数据集的Voldemort（伏地魔）分布式数据库，与伏地魔存储中的LinkedIn的开源键入值（key-value）合成有关数据集。在用户加载网页时，通过在线引擎查询伏地魔存储器。这个架构中的每一数据块均在用户可交易硬件上运行，可以很容易地水平扩展。 1、公共服务：Hadoop分/缩式数据处理框架大数据的社会共享能力将成为业务发展的动力。以经营弹性云服务的亚马逊商务云为例，Hadoop为亚马逊弹性云搭建了基于分/缩算法（MapReduce）强大的数据处理框架，使之成为可集中管理、便于扩展、和易于使用的公共智能数据分析平台。亚马逊利用Hadoop中的MapReduce分批查询机制，形成一系列具有广泛生态系统的的工具，可将数据分析同时部署到一个高档次、安全的公关基础设施服务平台。亚马逊网络服务为用户提供按需接入技术，提高成本效益的大数据处理技术，帮助用户收集，存储，计算和协作来自各地的各种规模的数据集，除了具有先进的Hadoop的管理服务和弹性分/缩（MapReduce）机制，亚马逊数据中心的计算硬件使用强大的英特尔®至强®处理器E5系列，为用户定制高效的，可扩展的大数据分析。亚马逊云端公共服务平台，可帮助行业创建基于弹性云（EC2）的云端技术服务与资源供给系统，为公司用户提供或开发具有国际先进技术水平的云技术商务应用平台。服务内容可包括各种云端技术服务、操作系统，资源配置、数据信息服务、及配套业务应用软件。平台操作简便，用户仅需选择一个预先配置的最佳操纵模式，通过配套服务和工具即可启动和运行公司所需的云端业务。这使公司可以轻松进行基于云数据中心的、功能强大的商业计算和数据处理，把自定义的应用程序和业务环境加载到数据中心服务系统上。 2、核力引擎：BigQuery（大查询）网络数据处理谷歌公司采用的是BigQuery（大查询）大数据网络服务模式，用来操作大规模数据集的互动分析，可以查询高达数十亿行的网络数据。BigQuery既方便扩展又易于使用，可满足强大的数据分析需求。 BigQuery中最大优点是可以对非常大的数据集进行互动分析，例如，欧中帕克斯（Center Parcs Europe）公司经营一个全球度假胜地网络，他们想找到最管用的营销技巧，在繁忙的假期到来之前可以摸准和查获所有的潜在客人。他们利用BigQuery建立新的网络应用程序，“仅需点击按键，即可确定特定数据，将某特定国家或特定时间区域的客人预订信息的查询结果调出来”，然后再将这些查询结果插入谷歌的可视化API系统，形成图表和图形。处理这样巨大的任务，谷歌的BigQuery在几秒钟的嚓嚓声中，就梳理了数百万条的数据记录。相比之下，若选用任何其他系统，同样的数据查询都可能至少需要8分钟之久。这个网络查询系统使欧中帕克斯能够及时“访问预订信息，设定价格，并最大限度地提高收入。”他们的数据运营成本每年可节约15万欧元，最重要的是，由于采用云端应用程序，他们并不需要在本部计算中心运行系统软件与数据，设备费用又可节约近80万欧元。 3、个性数据：图索法（Graph Search）数据处理脸谱网（Facebook）的发展更离不开大数据。 Facebook的用户群数目已成为天文数字，现有用户超过10亿，其中7.43亿是活动用户。脸谱网面临数据轰击的速度，种类和数量是如此之巨大，不是只靠数据中心就可以对付。脸谱网成功的一个主要的原因是创建了图索法（Graph Search）数据处理模式，其影响力之大可最终盖过搜索巨头谷歌。因为谷歌数据只是通过公开网上搜索，相同选项大多数人都会得到相同的结果。然而在Facebook上，同样的搜索，比如“苹果”，不同用户会得到完全不同的结果，因为Facebook的图索法能够做到深度的个性化。图索法不仅让用户可以搜寻Facebook网的数据，还可以在搜索结果上包含一种社交信息层面。用户能够在搜索到的Facebook的个人主页上，发现更为密切的，令他们更感兴趣的链接。例如，通过图索法，用户可能会查找到住在旧金山有那些朋友，这些朋友中有谁喜欢冲浪，还能随意调出朋友们的照片，了解朋友们的喜好，等等。在Facebook上用户可查找与朋友相互可分享的任何东西，由于公开分享的内容可以根据用户的愿望设置，所以即使查找同样内容，不同的人看到的却是不同的结果。 4、开放结构：NoSQL（非关联检索）数据库在现实世界中，要做决定，你会喜欢有多个取自不同来源和角度的见解。大数据的魅力正是如此，可跨越任何信息源和性质不同的数据，为要作决定的用户提供所需的见解。例如经营网络社交游戏的Zynga公司，在收购OMGPOP网之后，其网络移动游戏增长一度居行业之首。有数以百万计的用户端同时上OMGPOP网玩“农家乐”（Farmville），还有6个星期内就扩大到3600万用户的“想画就画”（Draw Something）程式，因此Zynga需要有一种即简单，又快速，又有弹性的数据库。为此他们开发出了特别为大数据时代设计的新一类产品，称为NoSQL（非关联检索）数据库。来满足千万用户使用和共时处理和传递实时数据。NoSQL游戏“清脆的” 实时数据响应意味着更好的整体用户体验，实时数据也使用户更愿选择，或花更多的时间来玩您的游戏或应用程序。不难想像，实时数据甚至还会在商业竞争中帮你取胜。 NoSQL数据库为数据存储和检索提供了简单的，轻量的机制，比传统的关联型数据库提供了更高的可扩展性和可用性。 NoSQL数据存储使用较宽松的同构数据模型来实现横向拓展及更高的可用性，其数据存储一般不采用SQL表格式方法存储数据。NoSQL通过高度优化的检索和附加操作，加快数据记录存储，增加互动速度。与完整的SQL系统相比，虽然运行数据的灵活度有所减少，但数据模型的可扩展性和互动性能却有显著提高。 5、社会智能：大数据众包（CrowdSourcing）模式在定义大数据时，多数专家认为大数据需要用更高超的技术，减少可容忍的处理时间，更有效地处理大量数据，他们通常以Hadoop分布算法，MapReduce数据集成算法，和云计算为例。其实大数据的处理与整合更离不开一个非常特殊的技术-人类的大脑，并通过广泛网络参与方式，把成千上万个大脑的智慧叠加，合成，并“众包”（CrowdSourcing）给用户。杰夫·豪于2006年在一篇网文中创造了CrowdSourcing这个术语，他在文章中描述了如何利用众包模式充分发挥个人智力的社会参与能力。他认为众包是大数据所需要的“特殊技术”（模式），他以加州大学伯克利分校SETI@Home项目为例：SETI@Home以分布式计算方式，挖掘数以百万计的家庭个人电脑的待用处理功率，通过互联网连人带机打包形成备用的待机工作网络，其最大卖点是利用数以百万计的个人电脑和人脑的处理能力。 “众包”模式以崭新的大数据社会智力参与模式，很快为企业用户所青睐。例如，Kaggle（可雇）数据众包平台让统计数据专家和科学家们走上前台，竞相告诉企业如何解读和应用数据。Kaggle通过网络应征和科研攻关的挑战模式，建立起经验丰富的客户解决方案团队，帮助客户在备份数据中识别问题，寻找企业所需要的价值模式。此外，Kaggle从多流数据采集到数据整合，采用便于定制的解决方案，在貌似杂乱的数据丛林中，为企业找出可用的信息，并提供360度的视角为客户分析数据。 Kaggle认为任何公司都会需要它的数据分析众包模式，通过数据分析，让事实说话。相比传统的咨询公司，数据分析家霍华德说，过去的咨询公司在相当程度上有“蛇油推销员”的特征，往往在漂亮的图片和文字背后缺乏科学的根据。”他说，Kaggle的众包竞争模式反而“是世界上迄今为止用来搭建和培育[预测]数据分析模型的最好方法。客户通过这种基于“智能分析价值链”的数据分析模式，找出数据应用的最好方法。由于数据分析的每一步都不能出错，客户才能开发出数据的真正价值，所以 Kaggle的数据统计专家们也可一揽到底，在每一步都能为客户提供帮助。 6、智能分析：大数据启动云端智能服务笔者最终还是要强调智能分析在大数据中的重要作用，无论是如何的不厌其烦。在云计算时代，大数据可启动各种云端智能服务。例如，杨鸣博士设计的“都市物流与交通大数据管理平台，” 是一个用来设计与管理城市密集区域内智能交通与物流云服务系统。系统利用云计算大数据服务，传感技术、云端智能信息技术以及通过各类监控设备、视频、以及实时数据的处理和分析，整合基于云端大数据分析的智能交通管理和物流分配与引领、打造城市智能交通与物流综合信息平台。通过实施大规模智能化数据采集、分析和分流发布，为市区交通和物流用户提供实时交互路况、供货以车辆调度信息，提高市区交通及物流运行效率。该方案通过云端技术的智能整合，提高现代信息服务的使用效率：使数据中心整体计算服务容量提高3倍；硬件购置成本降低 50%；以 10:1 的比率减少设备运维成本。通过虚拟机制流动资源管理、系统自动监控、自动服务器密度配置、和按需量化计算服务，我们可帮助客户节省50－60%的运营成本，成倍提高业务能力，并可随时满足和扩大他们的业务发展需求。这使公司用户在大幅度地削减技术投资成本的同时，确保高度的业务灵活性，能对不断变化的市场环境，作出快速反应和决策。人脑智慧在梳理大数据方面依然起到最终的决定作用。例如2012年美国总统大选，两党双方均不惜代价，利用大数据来预测大选中选民的趋势。当时罗姆尼共和党坚信形势对自己有利，蓄势待发。奥巴马民主党也分秒不停，想摸准选民的风向，主导选情。数周内他们对选情数据进行的细粒度采集和多位形势分析，作为制定竞选策略和掌握获胜机遇的机制。笔者在这次竞选分析参与活动中深有体会。在数据分析上笔者利用权威数据源，根据选情与数据不对称表现，通过多维数据变量的综合分析，对影响选情的观念范式转移度进行界定，最终推导选情分析。早在2012年一月大选初期，笔者在华裔教授专家网发表的博文“2012中美互动，文明的冲突，争执应有道”中曾断言欧巴马必胜，共和党对手必败。在2012年10月欧巴马与罗姆尼第一次公开辩论后，罗姆尼选情被大幅看好，综合民调支持率曾在数周内高出欧巴马。笔者根据历史和现实选情变化和实时竞选数据，分析首次辩论对大选的影响，又在博文中指出这是为时尚早的民意波动，欧巴马的竞选主导地位依然坚挺。距总统大选日只有4天，选战依然难解难分。笔者根据当时9个摇摆州的摇摆情况，推断当时的选情局势基本决定大选结果。笔者当日发博文“杨鸣：美国2012总统大选，谁主沉浮？”认定选情对奥巴马民主党越来越有利，而共和党阵地渐失，很难再会翻盘，罗姆尼在9个摇摆州中恐怕拿不下2个。断定“除非出现如台湾大选那种总统候选人遭枪击突发事件出现，奥巴马必胜，不会再有意外选情发生。”后来发现，奥巴马阵营采用大数据辅助竞选，使民主党得以把握奥巴马总统大选的胜算。

大数据也有“成长的烦恼” 三大基础性“缺陷”待弥补

13AprilArticles, Big Data

来源：中国科技网-科技日报, 王晓洁郭宇靖提要：大数据在深刻地改变着经济社会生活的方方面面。在立法短时间难以完成的情况下,应加紧制定有关大数据的标准、规则、指引,引导行业规范发展,加强隐私保护,促进政府数据开放。大数据在深刻地改变着经济社会生活的方方面面。在立法短时间难以完成的情况下,应加紧制定有关大数据的标准、规则、指引,引导行业规范发展,加强隐私保护,促进政府数据开放。 ■打破砂锅大数据在深刻地改变着经济社会生活的方方面面。然而，这一互联网新技术，眼下却遭遇数据难以共享等诸多困难。请关注—— 盘点当下的高热词，“大数据”是其中之一。然而，大数据却遭遇数据难以共享等诸多困难，数据的公信度和权威性因此打折。同时，大数据在应用、交易、法律环境等方面也面临着不少制度性难题。 “高热”之下有“冰点” 业内专家担忧，大数据“高热”下掩盖着“冰点”，这些“冰点”将阻碍刚刚起步的我国大数据产业的健康成长。阿里巴巴集团副总裁、数据委员会会长车品觉认为，目前，大数据行业最突出的问题是“只见树木，不见森林”。移动互联网、电商等是“重用”大数据的重点领域，而大部分传统企业对此却缺乏意识，甚至还不清楚如何利用数据。同时，大数据应用的深度也远远不够。“国内的不少企业仅是利用大数据模型做营销方案，而像谷歌、亚马逊等国际知名企业，已将大数据思维全面融入公司管理。”车品觉说。找不到数据是数据应用企业面临的普遍困扰。海尔家电产业集团营销总经理宋照伟直言，海尔希望获知用户的多维度行为习惯，但能够掌握的信息渠道仍然狭窄，信息量不够理想。 “拿走数据的多，贡献数据的少。”贵阳大数据交易所执行总裁王叁寿表示，不少企业以保护商业机密或节省数据整理成本等为理由，不愿意交易自身数据，直接导致交易所的数据量不够丰富。以阿里巴巴旗下的“芝麻信用”为例，其评分依据的数据只来自支付宝平台，本身公信力有限，而其他企业希望能利用支付宝相关数据时，又很难获得。同样，政府数据公开程度也非常有限。比如，银行在为客户办理信贷业务时，只能查到其在当地的工商信息，无法获知其在外地的情况。对于个人数据隐私保护、数据权属、政府数据公开等问题，目前尚无明确的规定，因此，纠纷时有发生。以朱烨诉百度侵权案为例，2015年，网民朱烨发现自己用百度搜索关键词后会收到相关广告推送，因此将百度以侵犯隐私权为由告上法庭。法院一审认定百度侵犯朱烨隐私权，但二审却撤销一审判决。中国政法大学传播法中心研究员朱巍表示，两级法院给出截然相反的判决，说明法律界对此类新情况认识不一致。三大基础性“缺陷”待弥补专家从三个方面分析了产生上述问题的原因，并认为这是我国大数据产业发展必须加快弥补的三大基础性“缺陷”：产业信息化尚未完成；“大数据思维”未成行业共识；监管和立法滞后。 IBM大中华区大数据与分析部数据分析产品线主管洪建勋研究发现，目前国内大量客户还停留在将80％的时间用在数据获取上，还缺乏系统化整理，更谈不上“商务智能”应用了。这和企业信息化水平较低有直接关系。洪建勋介绍，兴于上世纪末发达国家的“商务智能”管理，即“用数据说话”，这种管理方式的普及大大提升了信息化意识和水平。中国社会科学院信息化研究中心秘书长姜奇平表示，信息化是大数据的基础，而信息化的推进都是先从消费者开始，然后才传导到企业和政府。农业、工业、能源等行业的数据化还需假以时日。车品觉表示，现在企业大多将大数据作为工具，导致“要数据的不知道大数据从哪里来，做数据的不知道大数据如何用，用数据的人担心真实性不敢用”。也正是因为“大数据思维”未能达成共识，数据互惠共利的环境难以形成，推动数据共享就比较艰难。大数据产业发展之快难以想象，但对于数据权属、个人数据隐私、政府数据公开等，目前都缺乏具有针对性的法律法规。而且，大数据作为新型资源，目前还没有明确专门的监管部门。 “企业和政府收集的数据拿来交易，这个数据究竟是谁的？比如政府收集了企业的数据，那么这些数据是企业的还是政府的？国家鼓励数据交易，但在法律方面要进一步明确，让行业发展有法律依据。”王叁寿说。朱巍介绍，现在对个人数据的保护，大多依照2012年通过的“关于加强网络信息保护的决定”，这已远远不能适应目前行业的发展现状。加快发展探索成长之路业内人士认为，我国大数据产业在目前乃至较长一段时间或都处于“成长烦恼期”，这也是大数据产业从稚嫩走向成熟的必经阶段。因此，要在加快发展中探索成长之路。从规模上看，2015年我国大数据市场仅有102亿元，不及一家股份制银行一年的净利润。而在国内以及境外的资本市场上，还没有出现中国的大数据行业巨头。关于大数据应用问题，清华大学数据科学研究院执行副院长韩亦舜表示，大数据产业仍在起步阶段，随着社会信息化程度加深，数据源也将更加丰富，大数据应用范围将不断扩大。 “随着经济转型升级，势必有越来越多的企业将借助大数据实现增长。”IBM大中华区大数据与分析部大数据与分析业务技术总监刘胜利表示。对于大数据共享的困境，业内专家指出，这在全球都是一个难题。目前，我国正探索建立大数据交易所，以交易驱动数据共享；有的行业内部已经形成企业间互换数据的惯例，如我国参与的国际间卫星数据交换交易、移动互联网公司间的数据互换等。春节期间，微信支付、支付宝、百度钱包等联手诸多商家推出促销活动，本质上也是一种数据互换、互惠共利。另外，可以借鉴国外经验，对政府数据进行更好的挖掘、利用，如将非涉密的政府数据放在网上，供社会查阅。在大数据立法与监管层面，业内人士建议，应确定监管部门，完善相关立法。在立法短时间难以完成的情况下，应加紧制定有关大数据的标准、规则、指引，引导行业规范发展，加强隐私保护，促进政府数据开放。（据新华社电）

2016大数据的六大清晰趋势、五大颠覆空间、三大行业机会

5AprilArticles, Big Data

作者：车品觉，浙江大学管理学院客席教授，中国计算机学会大数据专家委员会副主任、华人大数据学会执行会长。最近“大数据”似乎已经过气了，但在我看来，真正的大数据应用和市场在2016年才刚刚开始萌芽。为什么？数据不仅仅只是数据。大数据的创新价值可以来自新连接的数据、算法或者产品本身。过去两年大数据的成长和智能手机的有着紧密的关系，加上IOT的浪潮正在酝酿之中，online与offline的接合带来了更深度的数据关联，触碰到消费者的全渠道行为收集。大数据相关的APP已经集媒体、通信、社交及传感器于一体。数据收集正从求量转为求质。很多企业不再迷信大数据，而是更踏实地收集一些对解决当前问题有用的数据。大家对大数据的态度从2016年开始会变得更谨慎，而且会进入专业领域。我的建议是，2016年要认真思考：怎样看对问题、看懂问题，通过数据的思考达到落地实践。 2016数据六大趋势变是唯一的不变说到趋势，人们往往习惯从改变的现象作观察，但是如果当我们把视野格局放大，在大数据的长期发展趋势中，找出变化的本质，反倒是让我们更容易看清楚动向。从这个角度出发，我至少可以看到未来的2-3年，有几项已经存在的趋势正在扩大中： 1.应用无线化：提供了更大的便利性与移动性、让终端设备与资料采集的作业更弹性而有效率； 2.信息数据化：让讯息的流通、交换、加工、运用更趋标准及结构，DT时代数据的应用变得更即时直接； 3.交易无纸化：彻底的改变了我们交易行为与资金流，并赋予未来微经济商业模式更多创新思考的可能性； 4.人类智能化：大数据所产生的创新价值与人类交互并深入于生活之中，人的思维与新科技将会遇上前所未有的碰撞； 5.决策实时化：透过大数据实时采集及加工改变了决策与信息关系。过去的世界因数据不能低成本获取，决策的实时性和精确难以达到； 6.线下线上化：未来仍将呈现线下更多的运用线上数据倾倒的趋势，线上与线下将连接在一起不能分割；这些本质上的转变会持续好几年，六个趋势会在各自的体系内深化发展与创新。商业价值会逐渐落地于各行业中，数据技术成为各行各业的优化工具或产生颠覆性创新。大数据本身的发展也将被自我颠覆，数据的釆集、更新、识别、关联将会变得越来越自动化。从数据趋势可见的五大颠覆空间 1.数据安全 2015年数据安全事件频发，随着全球各个国家开始采用新的数据安全技术和新的数据保护法律，2016年对数据安全的监督要求将会变得越来越严格。在数据安全方面，人们对个人隐私的保护比商业机密的泄露更为关注。数据安全意识提升的背后，代表的是对数据开放的风险与疑虑。如果数据风险无法被有效管控并建立个人对数据的信任感，对于正在发展中的大数据产业将会形成一种阻碍。个人的隐私、公司机密乃至于国家和国家之间的数据保护，将会是2016年快速成形的趋势，当数据成为商业重要且关键的资产时，随之衍生的可能会是像「首席数据隐私官」这样的职业。或许很多人会觉得匪夷所思，但是我相信到了2016年，很多拥有大量数据的公司都将把“首席数据隐私官”视为一个重要而关键的角色。 2.分析的简化与外包数据分析工作的外包其实是一个概念上的举例，其实我要谈的是大数据背后将会形成的产业链分工。随着大数据应用的落地，很少有企业可以独立完成从原始资料采集、加工、分析乃至于落地应用的完整程序。未来数据的不同处理阶段，都有机会发展出专门的技术公司协助企业完成大数据应用前的整备工作。对应前面提到的“大数据创新循环链”的概念，每一次的大数据变革阶段激荡出新的问题与机会后，新的问题开始聚焦，对应的数据源也趋于集中，这时一个新的产业链机会也就随之产生。中间层(Middle layer)的服务与创新，对于大数据产业的发展将扮演至关重要的角色。 3.政府的数据态度从整个数据地图看，政府是拥有最多数据的“财主”。因为政府锁定了很多公共服务领域的关键数据源，是公共数据开放的大资源，也是大数据驱动的一把金钥匙。政府的数据涵盖能源、金融、交通、治安、医疗、环境、食品等等。你发现所有的数据都是相对集中又非常重要的。政府数据的开放将是产业创新的催化剂，这背后也代表，政府大数据政策对于整体数据产业的发展非常关键。2016年我们可以观察政府对于公共数据开放的态度，而各个行业也可以顺应政府数据政策的脚步，开始尝试进入大数据驱动乃至于大数据变革的第三阶段。 4.多屏时代过去的两三年，我们看到PC被手机颠覆了。但手机会被颠覆吗？虽然短期内还不知道，但我可以预见有两个新的屏会出现:一是Smart TV，二是物联网汽车。 Smart TV是家里的屏，收集你看节目的数据和推荐你喜欢的节目，形成了天然的数据闭环；物联网汽车则是第二个非常关键的屏，将来所有汽车的内部都会像特斯拉一样：一个大屏控制汽车中的每个部分、记录汽车行驶中的各种数据，因此产生信息的流动。最近爱立信(Erickson)公司针对全球40个国家、10万名消费者进行了一项未来载具的调查，研究结果显示超过一半的受访者都认为智能型手机将会在五年后被淘汰，取而代之的是具备AI功能的新设备。但是我的观察很简单，就是从两个层次的分配来思考这个问题：时间分配(Time Share)和载具分配(Device Share)。人在不同的时间段会因为当时的环境状态，对不同的设备有不同程度的依赖。在家时对Smart TV的依赖会比手机高；离开家往下一个目的地移动，大众工具方面我们需要的是手机，如果是自己开车，车用导航或是行车电脑的屏幕就会成为主要的关注对象。所以我不太在意五年后我们拿在手上那块屏幕是否仍称之为手机，而是更在意人会如何与那块屏幕互动，以及互动的过程中我们如何采集到有价值的数据，并进一步对使用者的日常生活做出优化的回馈。 5.数据行业化所有大数据的落地点都与行业相关。互联网影响比较大的行业必然容易数据化，已经冒出头来的有金融、医疗、电商等行业。下一步的大数据应该会在不同的领域各自发展，不会有一个全盘通吃的方案，成为每一个领域的解决方案。包括零售、医疗、教育、金融等行业，都将因“互联网+”的带动而发展。很多小公司起步，产生了很多小数据，这是从0到1；然后整合碎片化的数据，最后积累大量数据。这三个进程的时间点加上不同的应用，铸就了行业大数据。未来大数据将从过去的浅层连结(weak link)转变为深层连结(deep

人工智能的起源：六十年前，一场会议决定了今天的人机大战

13MarchArticles, Big Data, Cloud Computing

澎湃新闻尼克2016-03-13 2006年，会议五十年后，当事人重聚达特茅斯。左起：摩尔，麦卡锡，明斯基，赛弗里奇，所罗门诺夫背景现在一说起人工智能的起源，公认是1956年的达特茅斯会议。殊不知还有个前戏：1955年，美国西部计算机联合大会（Western Joint Computer Conference）在洛杉矶召开，会中还套了个小会：“学习机讨论会”（Session on Learning Machine）。讨论会的参加者中有两个人参加了第二年的达特茅斯会议，他们是塞弗里奇（Oliver Selfridge）和纽厄尔（Allen Newell），塞弗里奇发表了一篇模式识别的文章，而纽厄尔则探讨了计算机下棋，他们分别代表两派观点。讨论会的主持人是神经网络的鼻祖之一皮茨（Pitts），他最后总结时说：“（一派人）企图模拟神经系统，而纽厄尔则企图模拟心智（mind）……但殊途同归。”皮茨眼可真毒，这预示了人工智能随后几十年关于“结构与功能”两个阶级、两条路线的斗争。开聊达特茅斯会议之前，先说六个最相关的人。首先，会议的召集者麦卡锡（John McCarthy）当时是达特茅斯学院的数学系助理教授。两年前（1954年）达特茅斯数学系同时有四位教授退休，这对达特茅斯这样的小学校真是不可承受之轻。刚上任的年轻系主任克门尼（Kemeny）之前两年才在普林斯顿逻辑学家丘奇（Church）门下得了逻辑学博士，于是跑到母校求援。这么说起来，克门尼算是图灵的师弟，他战时和物理学家费曼一起工作，还一度当过爱因斯坦的数学助理，后来一头扎在计算机里，和麦卡锡一起琢磨出了分时系统，但他最为人知的工作应该是老少咸宜的编程语言BASIC。现在估计已经没人知道BASIC语言发明人曾是LISP语言发明人的老板。克门尼是天生的官僚，后来位居达特茅斯的校长，美国三里岛核电站出事，总统委托他当调查委员会主席，这是后话。克门尼从母校数学系带回了刚毕业的四位博士前往任教，麦卡锡是其中之一。麦卡锡后来发明的LISP语言中最重要功能Eval实际就是丘奇的lambda演算，而且他后半生致力于用数理逻辑把常识形式化，大家由此猜他可能也是丘奇的学生，但其实不是，他压根学的就不是逻辑。他的老师是失去双手的代数拓扑学家所罗门·莱夫谢茨（Lefschetz）。但麦卡锡对逻辑和计算理论一直有强烈兴趣，他1948年刚到普林斯顿读研究生时就认识了冯·诺伊曼，在老冯影响下开始对在计算机上模拟智能发生兴趣。会议的另一位有影响力的参加者是明斯基。他也是普林斯顿的数学博士，和麦卡锡在读书时就相熟。他的主业也不是逻辑，尽管他后来写过计算理论的书，还培养过好几个计算理论的博士，其中就有图灵奖获得者布鲁姆（Manual Blum）。布鲁姆目前和他老婆(就是实数计算模型BSS的B）、儿子一家三口都在卡内基梅隆大学任教。明斯基的理论情结和丘奇关系也不大，他的老师塔克（Tucker）是莱夫谢茨的学生，主要搞非线性规划和博弈论，多年担任普林斯顿数学系主任，是数学世家，儿子、孙子也都是数学家。所以按辈分论，麦卡锡还是明斯基的师叔。塔克的另一名出色的学生后来得了诺贝尔经济学奖，就是心灵美丽的纳什。纳什比明斯基小一岁，但比他早四年拿到博士，也算是明斯基的师兄。明斯基的博士论文做的是神经网络，他在MIT一百五十周年纪念会议上回忆说是冯·诺伊曼和麦卡洛克启发他做了神经网络。有人还找过他麻烦，质疑说神经网络的研究算数学吗，倒是老冯力挺说：现在不算，但很快就得算。倒是明斯基自己后来和神经网络结下梁子，那段故事见我的《“想啥来啥”和“吃啥补啥”的人工智能之争》（《东方早报·上海书评》2014年9月28日）。塞弗里奇被后人提及不多，但他真是人工智能学科的先驱，他在MIT时一直和神经网络的开创人之一沃伦·麦卡洛克（Warren McCulloch）一起在维纳手下工作，他是维纳最喜欢的学生，但从没读完博士，维纳《控制论》一书的第一个读者就是塞弗里奇。塞弗里奇是模式识别的奠基人，他也写了第一个可工作的AI程序。他后来在麻省理工参与领导MAC项目，这个项目后一分为二：MIT计算机科学实验室和人工智能实验室，分久必合：现在这俩地方又合并了，变成MIT CSAIL。顺便给女读者添点料：塞弗里奇的爷爷就是英国第二大百货店塞尔福里奇（Selfridges）的创始人，塞尔福里奇百货和隔壁的哈罗德百货支撑着牛津街的零售业，现在大概一半顾客来自中国二线城市。信息论的创始人克劳德·香农（Claude Shannon）被麦卡锡拉大旗做虎皮也请到会上打酱油。其实麦卡锡和香农的观点并不一致，平日相处也不睦。香农的硕士、博士论文都是讲怎么实现布尔代数，当时MIT校长布什（Bush）亲自指导。博士毕业后他去了普林斯顿高等研究院，曾和数学家外尔（Weyl）、爱因斯坦、哥德尔等共事，战争中，他一直在贝尔实验室做密码学的工作，图灵在1943年曾秘访美国，和同行交流破解德国密码的经验，其间和香农曾有会晤，一起聊过通用图灵机。战后香农去英国还回访过图灵，一起讨论过计算机下棋。香农内向，从没说过这段往事，直到1982年接受一次采访时才提起。1950年香农在《科学美国人》发表过一篇讲计算机下棋的文章。香农比其他几位年长十岁左右，当时已是贝尔实验室的大佬。纽厄尔另外两位重量级参与者是纽厄尔和司马贺（Herbert Simon）。纽厄尔是麦卡锡和明斯基的同龄人，他硕士也是在普林斯顿数学系，按说普林斯顿数学系很小，他们应有机会碰面，但那时纽厄尔和他俩还真不认识。他们的第一次见面，纽厄尔回忆是在IBM，而麦卡锡回忆是在兰德公司，纽厄尔硕士导师就是冯·诺伊曼的合作者、博弈论先驱摩根斯顿，纽厄尔硕士毕业就迁往西部加入著名智库兰德公司。在兰德开会时认识了塞弗里奇，并受到塞做的神经网络和模式识别的工作的启发，但方法论却完全走的是另一条路。司马贺（Herbert Simon）司马贺比他们仨都大十一岁（怀特海比罗素也大十一岁），那时是卡内基理工学院（卡内基梅隆大学的前身）工业管理系的年轻系主任，他在兰德公司学术休假时认识了纽厄尔。司马贺后来把纽厄尔力邀到卡内基梅隆大学，并给纽厄尔发了个博士学位，开始了他们终生的合作。纽厄尔和司马贺的合作是平等的，司马是纽的老师，但他们合作的文章署名都是按字母顺序纽在前司马在后，每次他们受邀去演讲，都是轮流。司马每次见到别人把他名字放到纽厄尔之前时都纠正。他们共享了1975年的图灵奖，三年后司马贺再得诺贝尔经济学奖。纽厄尔和司马贺代表了人工智能的另一条路线：符号派，他们后来把他们的哲学思路命名为“物理符号系统假说”。简单地说就是：智能是对符号的操作，最原始的符号对应于物理客体。这个思路和英美的经验主义哲学传统接近。他们和当时的数学系主任、第一届图灵奖获得者阿兰·珀里思（Alan Perlis）一起创立了卡内基梅隆大学的计算机系，CMU从此成为计算机学科的重镇。达特茅斯会议会议原址：达特茅斯楼 1953年夏天，麦卡锡和明斯基都在贝尔实验室为香农打工。香农那时的兴趣是图灵机以及是否可用图灵机作为智能活动的理论基础，麦卡锡向香农建议编一本文集，请当时做智能研究的各位大佬贡献文章，这本文集直到1956年才以《自动机研究》（Automata Studies）为名出版，这个书名最后是香农起的，他不想花里胡哨，但麦卡锡认为这没有反映他们的初衷。文集的作者有两类人，一类是逻辑学家（后来都变成计算理论家了），如丘奇的两位杰出学生马丁·戴维斯和克里尼，后者的名著《元数学导论》国内有逻辑学家莫绍揆先生的译本。明斯基、麦卡锡也都有论文录入，香农本人贡献了一篇讲只有两个内部状态的通用图灵机的文章，文集录入的一篇冯·诺伊曼的论文后来开创了容错计算。文集的另一类作者几乎都是维纳的信徒，如阿什比（Ross Ashby）等，以控制论为基础。麦卡锡素不喜控制论和维纳，既不想把维纳当老大，也不愿和他见面争执，其中原因不详，或许和维纳与麦卡洛克吵翻了有关。麦卡洛克和皮茨两位为维纳《控制论》思想贡献多多的人物，在维纳的自传里压根没被提及。麦卡锡同时又觉得香农太理论，当时他想自立门户，只对用计算机实现智能感兴趣。于是他筹划再搞一次活动。 1955年夏天，麦卡锡到IBM打工（美国教授都是九个月工资，如果没有研究经费，夏天要自己觅食），他的老板是罗切斯特（Nathaniel Rochester），罗切斯特是IBM第一代通用机701的主设计师并对神经网络素有兴趣。他们两人倒是挺对脾气，决定第二年夏天在达特茅斯搞一次活动，他俩遂说动了香农和当时在哈佛做初级研究员（Junior Fellow）的明斯基（哈佛的Fellow还是挺值钱的，历史上人数不多，蒯因、王浩、库恩在变成正式教授之前都做过。乔姆斯基几乎在同时也是哈佛的Fellow）一起给洛克菲勒基金会写了个项目建议书，希望得到资助。美国富豪还是有文化传统，至少知道要资助好东西，值得中国土豪的后代学习，别像他们的父辈即使打着“办大学”的名义还是要骗钱。麦卡锡给这个第二年的活动起了个当时看来别出心裁的名字：“人工智能夏季研讨会”(Summer Research Project on Artificial Intelligence)。普遍的误解是“人工智能”这个词是麦卡锡想出来的，其实不是。麦老晚年回忆也承认这个词最早是从别人那里听来的，但记不清是谁。后来英国数学家菲利普·伍德华（Woodward）给《新科学家》杂志写信说他是AI一词的始作俑者，麦卡锡最早是听他说的，因为他1956年曾去MIT交流，见过麦卡锡。但麦卡锡的建议书1955年就开始用“人工智能”了，人老了回忆真不靠谱。当事人除了明斯基之外，都已仙逝，这事恐怕要成悬案了。大家对“人工智能”这个词一开始并没取得完全共识。很多人认为啥事一加“人工”就变味了。纽厄尔和司马贺一直主张用“复杂信息处理”这个词，以至他们发明的语言就叫IPL（Information Processing Language)。他们从某种意义上说偏功能学派，也就是说找到智能的功能不一定非得依靠结构相同或相似。图灵机和递归函数等价，但结构完全不同，所以他们强调“信息处理”。他们俩一开始颇不喜“人工智能”几个字。1958年，在英国国家物理试验室（NPL）召开了“思维过程机器化”（Mechanization of Thought Process）会议，达特茅斯会议的麦卡锡、明斯基、塞弗里奇都参加了，此外还有致力神经网络研究的麦卡洛克，以及英国的控制论代表人物阿什比。两位编程语言的先驱也出席了：巴克斯（Backus）发表了一篇关于他新发明的语言FORTRAN的论文，但他后来一直是函数式语言的倡导者；美国海军女少将格蕾丝·哈泊（Grace Hopper）的文章是讲第一个编译器的，这项工作导致了COBOL语言，中国也有女少将，也是码农。他俩论文的题目里都有Automatic Programming的说法，这在当时就是指高级语言编程，不能和后来人工智能中的自动编程搞混了。这次会上有人再提“人工思维”（Artificial Thinking)的说法。司马贺等人由此也逐渐接受了AI的说法，他晚年还写了本书“人工的科学”，倒是把Artificial这个词更加放大了。 AI历史的方法论历史研究素有两种方法，基于事件的，基于课题（issue）的。人和事的八卦都属前种。纽厄尔在1981年为一本颇为有料的文集《信息研究》贡献的一篇文章“AI历史的智力课题”走了第二条路线。他的方法也挺有意思。他把AI历史当作斗争史，把历史分为两个阶级、两条路线的斗争，于是历史成了一串儿对立的议题，如模拟vs数字，串行vs并行，取代vs增强，语法vs语义，机械论vs目的论，生物学vs活力论，工程vs科学，符号vs连续，逻辑vs心理等，在每一议题下有进一步可分的子议题，如在逻辑vs心理下又有定理证明vs问题求解等。

谷歌专家：“天网”10年后就可能出现

12MarchArticles, Big Data, Cloud Computing

李世石又输了。在这场万众瞩目的人机对战中，谷歌旗下DeepMind团队开发的人工智能AlphaGo围棋程序又一次击败了这位韩国的围棋世界冠军，在五局三胜的比赛中连下两城。看起来继国际象棋之后，人类智能在棋牌游戏的最后一块优势阵地也已经不复存在。就在第二局比赛之前，谷歌一位资深人工智能工程师接受了新浪科技驻美记者的独家专访，就此次比赛以及人工智能的前景发表了他的看法。由于未获允许接受采访，他不便透露具体身份。需要再次强调的是，此次采访是在旧金山时间周三傍晚进行的，当时他还不知道比赛进程，更不知道李世石会再度告负。问：此次比赛是人工智能的里程碑吗? 答：这次比赛是人工智能领域的一个重要里程碑事件，因为研究人员已经从事围棋计算机程序研究数十年了。20年前，计算机在国际象棋领域击败了人类 (注：1997年IBM的深蓝击败世界冠军卡斯帕罗夫)。20年后，电脑程序在围棋上也超越了人类。而此前很多研究人员还认为这至少还需要十年时间。围棋是此前仅存的人类能够击败电脑的完全信息博弈游戏(Perfect Information Game)。问：谷歌人工智能团队有多少人? 答：实际上，谷歌并没有一个叫做人工智能团队的部门。谷歌目前有两个主要团队负责深度学习的研究工作，包括谷歌大脑(Google Brain)以及这次参赛的DeepMind。AlphaGo项目是主要由伦敦的DeepMind团队负责的。我不能透露具体信息。Facebook现在也有一些研究人员在从事同样的项目。问：我们是否可以说李世石的对手不只是AlphaGo，而是整个谷歌人工智能的实力? 答：不是这样，此次李世石的对手是DeepMind的AlphaGo团队。AlphaGo是为围棋比赛开发的，而谷歌的其他机器学习团队都在使用不同的技术，从事不同的项目。问：此次比赛过程中，谷歌总部团队为AlphaGo提供了怎样的支持? 答：只是确保AlphaGo与谷歌的服务器连接顺利。前方也担心比赛过程中互联网连接出现问题，所以准备了备选方案。问：那你们怎么看待第一场比赛的胜利?这是意料之中还是意料之外的? 答：自从去年12月比赛以来，AlphaGo的能力已经得到了明显的提升，我们对此次比赛的胜利是基本预料之内的。我们很多人都认为AlphaGo会赢得比赛，很高兴看到这一切正在变成现实。问：你们预计未来几局战局如何? 答：AlphaGo很大可能会五局全胜。问：中国世界冠军柯洁表示，即便AlphaGo可以战胜李世石，也无法战胜他。答：我不懂围棋，不知道他是谁。即便他是当今围棋的第一人，即便现在AlphaGo不是柯洁的对手，也只需要三个月时间就完全可以击败他。问：那么人工智能何时可以达到撰写小说的程度? 答：这很难说，我估计10年之内可以实现。问：围棋被认为是人类棋牌游戏的智能巅峰。这次AlphaGo取胜是否意味着人工智能已经超越人类智能? 答：不是这样，人类智能包括很多方面。棋牌游戏只是其中很小的一部分能力。举例来说，目前人工智能依然无法在多玩家同时对战的德州扑克游戏中稳操胜券，也无法在股市这样的无法获知玩家信息的游戏中取胜。他们也无法做到品尝食物这样的人类基本能力。问：那么人工智能还需要多久才能对人类智能占据明显优势? 答：在ImageNet计算机视觉识别挑战赛，人工智能已经在图像分类(物体识别)上接近了人类，这其中的挑战只是从一张图像中分析1000种可能性来判断物体。我觉得未来10到15年，人工智能可以接近人类级别的一般智能水平。要实现这个目标，自然语言是需要克服的一大障碍。问：那么人工智能的下一个里程碑是什么? 答：正如我此前所说，下一个里程碑就是自然语言理解，包括更好的理解书写文字以及搜索查询的问题。问：伊隆·马斯克(Elon Musk)担忧未来人工智能可能会无意被用于邪恶，甚至毁灭人类。你怎么看待这种天网存在的可能性? 答：我认为随着强人工智能(AGI)时代的到来，这是可能的。但目前人工智能的能力还太有限，距离这个可能性还太远。我估计，再过10年这个问题会成为可能。(注：天网Skynet是电影《终结者》中的人工智能系统，拥有自我意识之后开始毁灭人类) 问：机器到时候会拥有自我意识吗? 答：目前人工智能依然处在非常早期的阶段，没人知道未来某天机器是否会具备自我意识的能力，乃至更加不可预测的后果。从理论上来说，马斯克的担忧是完全可能的。而这就是马斯克做OpenAI的目的，制定人工智能的道德准则，确保未来人工智能不会被误用于邪恶的目的。问：那你怎么看待马斯克创办的OpenAI机构? 答：我认为保持人工智能研究的开放性和向大众开放是有意义的。他们拥有很多非常杰出的研究人员，包括此前谷歌大脑的一些成员。我很期待看到他们在未来会有怎样研究的成果。问：如果有一天真的出现可怕的后果怎么办? 答：我希望到时候自己的大脑已经融入电脑，人和电脑合为一体。问：你的身体呢? 答：(笑)储存起来，需要的时候再用好了。开个玩笑。

王建民演讲《大数据与智能制造》

10MarchArticles, Big Data

清华大学数据科学研究院副院长王建民演讲《大数据与智能制造》今天如果不是韩院长给我这个任务，我确实不想再讲了。因为最近大数据非常热，各种各样对大数据的分享。大家今天看题目上仍然是大数据，而我们清华大学是在2014年成立的数据科学研究院，我们这个研究院没有以大数据命名，所以给各位嘉宾一个问题。今天我们讲的大数据究竟意味着什么? 王建民，数据科学研究院副院长、清华大学软件学院党委书记兼副院长。国家支撑计划制造业信息化科技工程专家组成员;国家863计划先进制造技术领域专家组成员;国家重大科技专项“核高基”基础软件方向实施专家组成员;中国计算机学会大数据专委会委员、数据库专委会委员。中国的第一本大数据书有一句话：“除了上帝，都要用数据说话”。后来我琢磨为什么说用数据说话，而没有说用大数据说话?恐怕用大数据说话您就听不懂了。所以大数据未必是好事。其实大数据不是我们追求的一个目标，我们是要治理它、利用它。所以可能用数据更好。在今天，大数据更多意味着是一种数据思维，是用数据来理解问题，而不追求它的大或者小。另外大数据又应用在各行各业，所以韩院长给了我这个题目之后我又加上了“工业”，在第二产业当中我们怎么用数据。这个源起是我个人参加了中国《中国制造2025》操作系统与工业软件的起草，去年的9月29号，我们又发布了绿皮书，把“云端”+“终端”工业大数据平台作为操作系统及工业软件方向未来两年发展的重点发展产品。12月7日清华大学牵头在中国工程院召开了工业大数据实施路径的研讨会。在这里李院长分享了很多未来的模式。其实大家现在有一个观点，说制造里有没有数据的问题?这个不讲。今天我们讲的工业大数据和原来做的信息化怎么区别?今天有没有从汽车制造厂来的?制造企业对数据并不陌生，我们一直在收集数据、处理数据、应用数据，企业的信息化经过了三次浪潮，韩院长讲到大数据有一个观点，他会推演到托夫勒的第三次浪潮，信息化和大数据也是第三次浪潮，怎么划分?上世纪的九十年代往前做的大部分都是企业内的信息化，所以那是第一次浪潮。九十年代以后，互联网在美国甚至席卷全球以后，其实先进企业已经开始讲了互联网化，我们今天讲的“互联网+”是国际龙头企业十年前做的事情，今天大家讲的工业变革、工业革命，第三次、第四次，可以统称为新一次工业变革，我非常同意刚才李院长的观点，其实也是美国哈佛大学的观点，就是以智能互联的产品为核心载体，而不仅仅是大家讲的通过互联网增值。在这个过程当中，其实是IT到DT到了互联网时代，其实我们今天讲的是机器数据，基于变革之后的CT，其实是IT、DT的一个融合，是今天工业数据的一个特点。所以这个和我们前面的很多技术都是一脉相承的，而不是横空出世的。同时在机器当中，大家做控制的，特别是流程行业的人一点都不陌生，叫有监控的控制和数据的采集(SCADA)。但是今天又有什么新的变化?变化就在于连接。工业4.0、工业互联网，如果用一个词来概括，就是连接。把原来孤立的机器连接起来，把人和机器连接起来，把原来的企业连接起来，甚至把不同的行业连接起来，这就是跨界和连接的概念。这个就是苦笑曲线与剪刀曲线，这个剪刀曲线就是生产性服务业的快速发展。这个横轴是一个国家的收入水平，这个在前面的报告当中也提过。为什么说大数据是新工业革命的一个驱动力?这个也不讲了，现在有很多的分享。 12月26号的时候，清华发起召开了一个“长城工程科技论坛”，想打造一个工程科技领域和香山论坛相媲美的平台。其中工程院周济院长做了主题演讲，特别针对智能制造讲了三个方面：智能产品、智能生产、智能服务。其实智能产品就像刚才克强主任讲的一个，产品才是制造的核心。第二产业之所以成为第二产业，是因为有工业产品作为载体。否则就成了第三产业了。所以在刚才的剪刀曲线里，第二产业分化出来的产业是2.5产业，这个产业和第三产业不同之处就在于，它是以产品作为载体的一个新的增值服务、创造价值的产业，所以没有产品就没有真正的2.5产业或者真正智能制造转型的产业。为了价值创造，中国要要在供给方面做出改革，大数据是转换动力的媒介。这个媒介是什么?左边是先进制造，右边是“互联网+”，怎么能加起来?核心是要有数据。要在数据空间里实现交互和融合。这个微笑曲线和我刚才讲的苦笑曲线和剪刀曲线是不一样的，这个横轴是复杂装备的生命周期，前端是创造、研发，中期是使用。这个曲线是在传统制造业里的情况，加工制造环节非常非常能够产生利润，尽管今天仍然产生利润，但是没有那么丰厚了。真正的创造要在创造新的产品上，另外要探索新的业态。这里我们要注意，中国是一个制造大国，更是一个使用大国，在使用过程当中抓过来的机遇，积累的知识，能不能使我们产品得到创造、创新?这给我们提出了一个大的问题。讲我们中国企业的一个例子。三一重工现在的大数据平台已经聚集了八千家的全球供应商，一百多个全球分支机构，四百多家的全球代理，有十二万个全球客户。他们是怎么用这个数据来产生价值的?第一个方面是通过采集机器的数据，帮助上游的配件供应商实现精准生产，帮助他们搞清楚什么时候需要配件供应。第二件事情就是发展新的模式，即租赁。这里面要解决跑路的问题，恶意的借贷、购买的问题。怎么样来创新他的产品开发?日本福岛核电站用的就是三一工的装备，能够实现遥控五公里之外的遥控装备，在这个过程当中用了装备操作数据来改进它遥控器的质量和稳定性。在金风科技怎么样利用矫正风机偏航呢?风机上有一个测风仪，这个是解决风机对风的准确与否，因为长时间运行之后，这个测风仪会有偏差，这个偏差每天爬到塔上校正是很难的，因此就要通过数据的在线分析应用。优化风机偏航，每台风机每年可以多发三万多元的电，现在有1.5万台风机，如果三分之一的风机存在误差，每年就是1.5亿的收益。还有像陕鼓动力，其用大数据延伸他的客户服务，大家也看到取得了很好的效果。上个月在工信部，全国智能制造的参会人员在陕鼓参观了一天，其实最后其工业大数据还是解决产品的问题。我们团队是做软件的，要做工业大数据的平台，还是要给我们这些产业提供装备，提供武器的办法多种多样。对工业大数据来讲最重要的是什么?是解决工业的问题，同时要降低成本。我们说今天大数据的浪潮谁是主角?谁领风骚?是开源的代码、开源的软件。去年九月份我到硅谷做了一次分享，有六千人参会，我们分享了两个案例。主办单位就是一个开源的社区，去的都是IBM、微软、思科这些大佬，因为这些开源的软件更接地气、更解决问题。第一个问题其实就是在工业领域怎么把小数据和大数据融合起来，也就是说怎么样把汽车传感器的数据利用好，不仅仅是为了开车、打车，还要看怎么样和产品的制造、设计结合起来。经过五年的努力，我们牵头撰写一个国家的标准正式颁布，其核心就是以产品结构为核心的跨产品生命初期和中期的数据集成框架。再一个就是大数据系统和小数据系统的融合问题，即怎么样把工业数据、产业数据再返回到原来的ERP、PLM、SCM系统当中的一个过程。第二件事情，机器采集的数据某些时候是一个灾难，不要想我们采集的数据一定是有用的，很多数据不发生价值就是一堆垃圾、负担。重要的就是要给你的数据画像，一定要把你采集下来的数据是什么搞清楚。最后分享一下工业大数据分析的挑战。刚才克强主任讲，从汽车人的角度来看智能汽车、自动驾驶汽车和“互联网+”看汽车是不一样的。其实互联网的消费大数据和产业大数据也不一样。我这里分享一点。工业大数据分析结果的可靠性是一个最核心的问题，广告推荐能达到千分之二十的可靠性就是Google的最好水平，如果在工业领域千分之二十的可靠性你敢用吗?完全不敢用。所以在这个过程当中，还需要做数据和做产业的人结合起来，把我们的工业大数据、新能源交通大数据用好。本讲座选自王建民教授于2016年1月9日在 RONG 系列论坛之——“大数据与新能源交通”论坛上所做的题为《大数据与智能制造》的演讲。