信息科技协会三博士在美国南加州大学做人工智能演讲

2017年12月1日,由易留帮公司主办的人工智能讲座在美国南加州大学举办,三位华人信息科技协会的骨干会员给学生们上了一堂生动的人工智能课。三位专家是IBM首席数据科学家刘永川博士、美国智泰科技公司资深顾问章华博士、Canon信息和图像研究院的资深技术顾问曹细武博士。 首先进行分享的是刘永川博士。刘博士 (Dr. Alex Liu) 是一位数据科学家和研究方法专家,现为 IBM 公司的首席数据科学家 (Chief Data Scientist) 和 “研究方法与数据科学” 全球协会负责人。刘博士以IBM在人工智能领域的成果入手,从1997年“深蓝”国际象棋机器人,知识竞赛机器,医疗人工智能介绍到Gatech的TA人工智能、律师合同AI以及简历筛选人工智能。从各个行业各个角度剖析了人工智能的广泛应用,并建议同学们多学习一些AI知识,才能在未来人工智能时代的人才竞争中脱颖而出。 接下来分享的是章华(Peter Zhang)博士,章华博士是美国微软及亚马逊云计算大数据战略合作伙伴和加州州立大学客座教授。他多年活跃在美国南加州地区的IT界,尤其是云计算和大数据领域。章博士对技术指导,项目管理,IT培训有丰富的经验。章博士从AI火热的原因,人工智能类型,想进入人工智能行业需要的知识储备三方面入手进行介绍。由于章博士在中美两地跑的频率比较高,他分析国内在人工智能应用层面上有一定优势,但是在基础层面和技术层面还是美国领先比较多。他解释人工智能的火热离不开大数据的发展,以及计算能力和算法的增强。 最后进行分享的是曹细武博士。曹博士是美国佳能信息和图像研究院的资深技术顾问、加州州立大学客座教授,主要负责三维成像, 以及基于机器学习的目标自动识别的技术开发。曹博士从AI的图像识别领域入手,介绍了神经网络等一些算法,也从人工智能的快速学习能力印证了未来的发展趋势。同时建议同学们“talk to neighbors”,因为知识的更新速度极快,要跟上行业发展动态并且基本技术能力一定要过硬。   panel和Q&A提问环节 1.请三位教授预测未来5-10年发展趋势? 无人驾驶,人工智能的私人化(手机电脑),医疗方面图像识别和芯片植入人体等等 2.AI行业需要哪些技能?如何学习? 基础的语言能力例如python等,和其他领域结合的能力,把复杂算法逻辑解释给普通人的能力 同时嘉宾们建议想要提升技术还是先在美国就业比较好,同时学习的过程中要把握对树干(知识主体)的学习不要过度纠结于树叶(因为变化很快而且繁多) 活动圆满结束 三位专家和部分听众集体合影

洛杉矶大数据和人工智能论坛圆满结束

<美国加州洛杉矶报道>  当地时间2017年11月5日,美国华裔教授学者协会2017年年会在美国洛杉矶圣盖博希尔顿酒店举行。当天下午的科技论坛座无虚席,尤其是大数据和人工智能讲座。 大数据和人工智能讲座由三位本协会的博士主讲,章华博士主持。讲座就当前最热门的科技话题-“大数据和人工智能“展开了讨论。 来自IBM公司的首席数据科学家刘永川博士首先就“大数据和人工智能”在科研领域的应用进行了全面的分析。刘博士对IBM公司数据分析过程和整合平台的方案加以阐述。刘博士指出大数据分析少不了智能协助。在人工智能(AI)时代来临的大背景下,不少人担心未来会有非常多的职业消失,势必会导致一定的社会失业率。对此,刘永川博士认为:“有一些职业确实会消失,更多的行业并不会消失,如果希望维持自己的工作能力,那么就必须要了解和学习大数据以及人工智能领域的知识,加以应用。 关于大数据以及人工智能应用,加州州立大学客座教授章华博士为现场的听众详细讲解了自己研究课题——大数据及人工智能在预测美国大学生辍学率的应用。章博士指出:“2008年入学的美国大学生中有30%以上在六年内辍学; 兼职学生辍学率(68.5%)高于全日制学生(19.6%);营利性学校的辍学率(49.9%)高于公立(22.7%)或非营利(17.2%)学校。”  章博士进一步指出,“美国是发达国家中大学生辍学率最高的国家。预测和干预美国大学辍学率无论对于大学本身,还是对于美国地方及联邦政府来说,都是一件非常重要并具有现实意义的事情。”“大数据和人工智能可以帮助我们解决这一棘手问题。”章博士举了华盛顿大学(Washington University)的例子,讲述了华大通过大数据分析提前对于入学学生可能发生的辍学状况进行预测和干预,成功降低了学校本科生的辍学率。 加州州立大学客座教授曹细武博士做了“人工智能:卷积神经网络在计算机视觉中的应用”的报告,形象地介绍了人工智能领域目前最热门的理论和模型:“卷积神经网络“,受到学生和专业人士的好评和关注。 从左至右,章华博士,曹细武博士,刘永川博士。 刘永川博士在演讲报告中

10年之后我们还能做什么?

根据耶鲁大学和牛津大学的研究人员对 352 位人工智能专家进行了采访,人工智能到2060 年前后有 50%的概率完全超过人类。这份研究预测在 10 年内,人工智能将会在以 下领域超过人类:翻译领域(2024),高中水平的写作(2026),驾驶卡车(2027)。 在这份报告里,我们着重分析四种人工智能技术(语音,图像,自然语言处理,机器人) 对五个行业(安防,互联网电商/广告,消费电子,汽车,医疗)的影响(图表 2)。 从技术角度来看: 语音技术成熟但应用场景有限。语音识别是目前发展最成熟的人工智能技术。Nuance, 科大讯飞,Google,百度等主流厂商的近场语音识别率都达到 99%以上。但目前应用场 景局限在电子病例,智能客服,在线教育,车载导航等少数几个领域。随着未来语音识 别种类的进一步丰富,识别环境通用性的增强,以及远厂语音技术的突破,一定会帮助拓展其应用范围到智能家居等更多场景中。 图像识别落地机会最多。图像识别技术不但有着非常高的识别准确率,而且能够很快给 出智能的反馈,因此图像识别技术最容易快速落地到各行各业中。安防行业中的车辆数 据提取,医疗行业的影像诊断,电商行业中的精准营销,以及辅助驾驶都为图像识别技 术提供许多落地变现的机会。 自然语言处理在互联网行业中应用最为成熟。我们注意到基于人工智能的精准营销正帮助互联网广告公司不断提升流量价值,而且一些智能的销售客服机器人正在逐步替代人 工成为线上销售,售后维护的主力军。 智能机器人技术有待成熟。我们注意到一些公司开始在仓储机器人、手术机器人等细分 行业进行探索。但技术还有待成熟。 从行业角度来看: 安防是人工智能在中国最容易变现的行业:十几年的平安城市建设,使中国的城市管理 者已经积累了强大的视频数据采集能力。交通拥堵及反恐等应用场景又急需最先进的人 工智能技术。 互联网广告和电商蕴含大量的数据,为人工智能在互联网广告和电商领域的应用提供了广阔的资源和空间。例如,互联网公司通过基于用户画像的精准广告投放,在过去三年 提高了广告单次点击成本(CPC)170%。 AI 促进消费电子升级换代:3D 光学感测等 AI 功能会帮助现有智能手机提高售价,同时 促进智能音箱等新品类的发展。 汽车行业 2021 年前后实现无人驾驶:随着 Tesla AutoPilot 2 系统的发布,GM 宣布自己 的自动驾驶系统 Super Cruise。我们注意到汽车智能发展呈现加速趋势。我们预计汽车主机大厂在 2021 年前后能够实现商业化的无人驾驶服务。 医疗行业空间巨大,但技术还有待成熟。电子病历的建立,不仅仅用到了语音识别技术,也整合了医疗大数据;影像诊断则用到了图像识别技术,现在在国内外都已经形成成熟 的商业模式。辅助治疗和手术机器人由于技术的尚不完善,还在小范围推广。由于语音 识别技术和机器视觉技术的成熟,大量应用这两个技术的行业将迎来 AI 变现的更多机会。

2017年中国大数据发展调查报告

随着大数据政策环境和技术手段的不断完善,大数据行业应用持续升温,中国企业级大数据市场进入快速发展时期。互联网、电信、金融等开始实际部署大数据平台并付诸实践,带动软件、硬件和服务市场快速发展。为进一步掌握中国大数据发展和应用情况,中国信息通信研究院开展了2016-2017年度中国大数据发展状况的调查。 《中国大数据发展调查报告(2017年)》以调查数据为基础,结合行业专家的访谈,力争详实客观的反映中国大数据发展现状,为政府和企业了解中国大数据发展状况和制定相关决策提供参考,也为广大关注大数据的从业人员、专家学者和研究机构提供真实可信的大数据发展报告。 。 附 《中国大数据发展调查报告(2017年)》全文   喜欢

大数据将是人类自由意志的终结

尤瓦尔·赫拉利。在几千年的历史中,人类曾相信权威来自于神。直到进入现代,人文主义才逐渐将权威由神明转换至人类手中。让-雅克⋅卢梭在他1762年论教育的著作《爱弥儿》中总结了这次革命。 在找寻生活中的行为准则时,卢梭发现“大自然用无法磨灭的字迹(将其)刻在我内心深处。我想要做什么只需要问自己;我觉得好便是好的,我觉得坏便是坏的。”卢梭这样的人文主义思想家曾让我们相信,我们自身的感觉和欲望是意义的终极来源,因此人的自由意志是一切的至高权威。 而现在,新的转换正在发生。就像宗教神话赋予神权合法性,人文主义思想体系赋予人权合法性,高科技大师和硅谷预言家们正在创造一种新的全球性叙事将算法和大数据的权威合法化。这一新颖的信条可以被称为“数据主义”。在极端形式下,数据主义世界观的倡导者们将整个世界视作一股数据流,将高潮几乎等同于某些生物化学算法,相信人类的宇宙使命乃是创建一个包罗万象的数据处理系统,然后融入其中。 当全球数据处理体系变得全知全能,接入这个系统就成为了一切意义的来源。我们正在变成无人能真正理解的庞大系统里的微小芯片。我们每日从电子邮件、电话、文章中吸纳不计其数的数据位,进行处理,然后将新的数据位通过更多的电子邮件、电话、文章传送回去。但事实上,我们并不知道自己在这个万事万物构成的伟大计划中处在何处,也不知道自己的输出如何和数十亿其他人类和计算机创建的数据位相连接。我们没时间去了解这些,因为有太多邮件要回复了。没有情感的数据流会在任何人的计划、掌控和理解之外迸发出新的发明和破坏。 但没有人需要理解这一切。更快地回复邮件就是你所需要做的全部。正如自由市场资本主义者们相信市场无形的手,数据主义者们相信数据流无形的手。当全球数据处理体系变得全知全能,接入这个系统就成为了一切意义的来源。新格言说:“当你经历,请记录;当你记录,请上传;当你上传,请分享。” 数据主义者进一步认为,只要有了足够的统计生物学数据和计算能力,这个无所不包的系统对人类的理解将远甚于我们对自己的理解。当这一天到来,诸如民主选举这样的人文主义实践会像祈雨舞和打火石刀一样被时代淘汰。 脱欧公投后,当迈克尔⋅戈夫宣布竞选英国首相时(尽管他参选的时间很短),他解释说:“在我的政治生涯中,每迈出一步我都会问自己一个问题,‘什么是应该做的正确的事情?你的内心是怎么告诉你的?’”据戈夫所说,这就是他此前为脱欧奋战的原因,也是他感到必须背叛曾经的盟友鲍里斯·约翰逊从而亲自争取头把交椅的原因——他的内心让他这么做。 在关键时刻听从内心的不止戈夫一人。过去短短几个世纪里,人文主义并不仅仅在政治领域将人的心灵视作权威的至高来源,而是在人类活动的所有领域都如此。从婴儿时期开始,我们就被人文主义标语组成的火力网连番轰炸,被劝告:“倾听自己,忠于自己,信任自己,追随内心,做想做的。” 在政治中,人们相信权威依赖的是普通选民的自由选择;在市场经济中,我们坚称消费者永远是对的;人文艺术认为美在观看者的眼中;人文教育教我们独立思考;人文主义伦理劝告我们觉得好就应该放手去做。 过去的十余年间,以色列LGBT团体每年都会在耶路撒冷街道举行一次同志大游行。当然,在那些某件事情我觉得好你却觉得坏的情境中,人文主义伦理便会遭遇困境。例如在过去的十余年间,以色列LGBT团体每年都会在耶路撒冷街道举行一次同志大游行。对这个被冲突撕裂的城市来说,这是一年中唯一和谐的一天,在这一场合犹太教徒、穆斯林、基督教徒突然发现了一个共同目标——一起愤怒抵制同志大游行。然而真正有意思的是这些宗教狂热分子使用的论据。他们不说“你们不应该举行同志大游行因为上帝禁止同性恋。”而是对着每一个话筒和摄像机解释说“看见同志游行经过耶路撒冷圣城伤害了我们的感情。就像同志人群想要我们尊重他们的情感,他们也应该尊重我们的情感。”对这个具体的难题的看法并不重要,真正重要的是理解在人文主义社会,伦理和政治争论都是以情感冲突的名义进行的,而不是以神的诫命的名义。 然而,人文主义在今天面临着关乎存亡的挑战,“自由意志”这一思想受到了威胁。关于人类大脑和身体运作方式的科学洞见表明,我们的情感并不是某种特别的人类精神品质,而是所有哺乳动物和鸟类共同使用的、用来快速计算生存和繁衍概率的生物化学机制。 与流行的观点不同,情感并非理性的对立面,而是理性进化后的化身。当狒狒、长颈鹿或人类看到一只狮子,恐惧的出现是因为一种生化算法对相关数据进行了计算并得出了当前死亡概率很高的结论。相似的,感受到性吸引力是因为另一种生物化学算法计算出附近的个体有很高的概率能提供成功的交合。这些生化算法在几百万年的进化中演化改进。如果某个古代祖先的情感出现了问题,塑造这些情感的基因就不会传递给下一代。 尽管人文主义者们错误地把我们的情感当作某种神秘的“自由意志”的反映,但至今为止人文主义在实践意义上还是十分成功的。因为尽管我们的情感并不神秘,它们无论如何都还是宇宙中最好的决策方式——没有任何外在的系统能指望比我自己更了解我的情感。即使天主教会或苏联克格勃每分钟都派间谍监视我,他们仍然缺少必要的生物知识和运算能力来计算塑造我的欲望和选择的生化过程。因此,人文主义告诉人们遵从内心是对的。如果要在听从圣经还是听从自己的情感之间做出选择,听从自己的情感要好得多。因为圣经代表的是古代耶路撒冷的几个神父的观点和偏见,与此相对,你的情感代表着经过了自然选择最为缜密的质量控制检测的几百万年进化中积累的智慧。 但是,随着教会和克格勃让位于谷歌和Facebook,人文主义失去了实践优势。因为,我们现在正处于两股科学大潮的汇合处。一方面,生物学家正在破解人体尤其是人类大脑和情感的奥秘。与此同时,计算机科学家正在为我们提供前所未有的数据处理能力。当这两者结合在一起,得到的就是能比我们自己更好地监测和理解我们的情感的外在系统。一旦大数据系统我们更了解我们自身,权威就将从人类转换至算法。大数据将为“老大哥”赋权。 女星安吉丽娜⋅朱莉因为基因检测显示罹患乳腺癌的概率高达87%预先做了双侧乳房切除术。这种情形在医学领域已经发生了。越来越明显的趋势是,你生命中最重要的那些决定不再是根据你对自身疾病或健康的感觉做出的,甚至不是根据受过专业训练的医生的预判做出的——根据的是比你更了解你自己的计算机计算结果。一个最近的例子来自女星安吉丽娜⋅朱莉。2013年,朱莉在一次基因检测中发现自己携带有危险的乳腺癌1号基因(BRCA1)突变。数据库显示,携带这一基因突变的女性罹患乳腺癌的概率高达87%。尽管当时朱莉没有患上乳腺癌,她决定预先制止疾病并进行了双侧乳房切除术。她并没有觉得自己病了,却睿智地决定听从计算机算法的劝告,它说:“你可能没觉得有任何不妥,但你的基因里有个定时炸弹。快做点什么——马上去做!” 在医学领域已经发生的情形很可能在越来越多的领域发生,从买书读书这类简单的事情开始。人文主义者如何选择一本书?他们去书店,在书架间游荡,拿起一本快速翻阅,换一本读开头几行,直到某种直觉将他们和某一本巨著连接起来。数据主义者用亚马逊。当我登入亚马逊虚拟商店,一条信息弹出来告诉我:“我知道你以前喜欢哪些书。和你有相似品味的人还可能喜欢这本或者那本新书。” 这仅仅是一个开始。像亚马逊推出的Kindle这样的设备能够在用户读书时持续收集数据。Kindle可以监测你在一本书的哪些部分读得快,哪些部分读得慢;你在哪一页停住了,在读哪些句子的时候你放弃了整本书,再也没有读下去。如果将来Kindle升级到带有面部识别软件和生物统计学传感器,它将知道每个句子对你的心率和血压产生了怎样的影响;它会知道是什么令你发笑,是什么令你伤感,又是什么让你愤怒。很快,当你读书的时候书也在读你,你很快就会忘记你所读的大多数内容,而计算机程序可以永志不忘。这样的数据最终会让亚马逊以不可思议的精确度为你选书,也会让亚马逊清楚地知道你是谁以及如何操纵你的情感。 中世纪神父和家长拥有婚姻决定权,将来大数据将拥有这一权威。遵循着这种逻辑得出的结论,人们最终会赋予算法做出大多数对他们的人生至关重要的决定的权威,例如和谁结婚。在中世纪的欧洲,神父和家长拥有决定婚姻的权威,在人文社会我们这一权威交付给了我们的情感,而在数据主义社会,我们会让谷歌替我们做出选择,我会说,“听着,谷歌,约翰和保罗都在追求我,他们两个我都喜欢,但喜欢的方式不同,我很难做出决定。根据你了解的信息,你的建议是什么?” 然后谷歌会回答:“哦,我从你出生那天就认识你了。我读了你所有的邮件,录了你所有的电话,知道你最喜欢的电影,你的DNA和你心脏的所有生物统计学历史。我有你每次约会的数据,我可以给你展示每次你和约翰或者保罗约会时,你每一秒的心率、血压、血糖水平的图像。很自然地,我对他们两人的了解也像我对你的了解一样详细。在所有这些信息的基础上,根据我的高超算法和几十年来几百上千万恋爱关系的相关数据——我建议你选择约翰,因为选择他从长远来看有87%的概率会让你更满意。” “实际上,我太了解你了以至于我甚至知道你并不喜欢我的回答。保罗比约翰英俊多了,由于你私底下给了外表过高的权重,你暗暗地希望我会说‘选保罗’。外貌当然很重要,但是没你想得那么重要。你那几万年前在非洲稀树草原进化出的生化算法给潜在配偶评分时分配给外在美的权重是35%,而我的建立在最新研究和数据基础上的算法认为,外貌对恋爱关系能否取得长期成功的影响只占14%。所以,就算我把保罗的俊美计算在内,我还是会告诉你约翰才是更好的选择。” 谷歌并不需要做到完美无缺,也不需要每一次都正确,只要超过人类平均水平即可。这其实并不难,因为大多数人并不那么了解自己,而且很多人往往会在人生的关键问题上做出错误的决定。 数据主义世界观对政治家、商人和普通消费者都极具吸引力,因为它带来了开创性的技术和无穷尽的新力量。至于那些对于失去隐私和自由选择的恐惧,当消费者们不得不在保留隐私和得到远比过去优越的健康服务之间做出选择时,大多数人会选择健康。 对于学者和知识分子而言,数据主义允诺了人类在过去几个世纪里求而不得的科学“圣杯”:一项将从音乐学、经济学一直到生物学的科学学科统一起来的无所不包的理论。根据数据主义,贝多芬的第五交响曲、股票交易泡沫和流感病毒不过是数据流的三种形式,可以用相同的基本概念和工具进行分析。这一思想极具诱惑力,它将给予所有科学家一种共同的语言,在学术裂缝之上建立桥梁,让跨越学科边界输出洞见变得轻而易举。 当然,正如所有从前的教条,数据主义也可能是建立在对生命的误解之上的。特别是,数据主义没有回答声名狼藉的“意识的难题”。目前我们距离用数据处理来解释意识还很遥远。为什么当大脑中的几百万个神经元互相发送某种特定信号,会出现爱、恐惧或愤怒的主观情绪?我们对此一无所知。 但即便数据主义对生命的理解是错的,它仍然有可能征服世界。过去的很多信条尽管有着事实性错误也照样获得了巨大的名望和权力。如果基督教之流可以成功,数据主义为什么不可以?数据主义有着非常光明的前景,因为它正在向所有科学学科蔓延,而一个统一的科学范例很容易成为不可撼动的教条。 如果你不喜欢数据主义,希望置身于算法的领地之外,或许能给你的只有一个建议,就是书中最古老的:认识你自己。到了最后,这将只是一个实证问题。只要你对自己的了解和洞见超过算法,你自己的选择就仍然是更好的,你多少能保留一些权威在自己手中。如果说数据主义看上去还是要掌权了,那主要也是因为大多数人一点都不了解自己。

MogIA大數據預測出川普勝出

民調已死!美大選川普勝出 大數據神預測 共和黨候選人川普正式贏得2016美國總統選舉,跌破一票專家眼鏡,也打臉各家民調。(圖/美聯社) 2016年美國總統大選結果已經出爐,共和黨候選人川普(Donald Trump)至截稿前已贏得「274」張選舉人票,跨越勝選門檻,跌破一票專家眼鏡,然而,從大數據分析角度來看,可不是如此!早在美國總統大選前一周,來自印度的AI系統─MogIA就一反眾議,預測川普將會當選,結果證實,大數據給出的結果比民調更為準確,打臉美國各大媒體的民調結果。 今年十月底,來自印度的MogIA AI(人工智慧)系統,就透過蒐集Google、Facebook、Twitter、YouTube等兩千萬個數據來源進行分析,並預測川普將成為最後贏家。而從今日開票結果來看,獨排眾議的它,預測結果最為準確。 大數據的基本原理之一就是「預測」,透過把數學演算法運用到海量的數據中,來預測是情發生的可能性。在數據收集能力越來越高,數據分析能力也逐年提升的情況來看,大數據所預測的結果只會越來越準確。 已經成功預測三屆美國總統大選結果的MogIA,如今將它的記錄延伸到至四屆準確預測。但不同於過往兩屆歐巴馬勝選的歷史,這一屆美國大選的選情更為詭譎多變,因此更顯得MogIA創下的記錄難能可貴。由印度新創公司Genic.ai所研發的MogIA,有機會因為這一次準確預測美國總統大選結果,被世人廣為認識。 印度新創公司Genic.ai創辦人Sanjiv Rai在本屆美國總統結果確認之後,也在個人Twitter發表回應。謙虛表示人工智慧(AI)還有很長一段路要走,感謝對AI無偏見研究(有時能提供有意義的洞察)結果,感到珍惜的每個人。

来自大数据的反思:需要你读懂的10个小故事

来源:CSDN  作者:张玉宏 自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。 中国工程院李国杰院士更是把大数据提升到战略的高度,他表示【1】,数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后,将使我们像错过工业革命机会一样延误一个时代。 在这样的认知下,“大数据”日趋变成大家“耳熟能详”的热词。图1所示的是谷歌趋势(Google Trends)显示的有关大数据热度的趋势,从图1中可以看到,在未来的数年里,“大数据”的热度可能还是“高烧不退”(图1中虚线为未来趋势)。 图1 大数据趋势(图片来源:作者截图) 在大数据热火朝天前行的路上,多一点反思,多一份冷静,或许能让这路走的更好、更远?例如,2014年4月,大名鼎鼎的《纽约时报》发表题为《大数据带来的八个(不,是九个!)问题》(Eight (No, Nine!) Problems With Big Data)”的反思文章【2】,其中文中的第九个问题,就是所谓的“大数据的炒作(we almost forgot one last problem: the hype)”。同样为重量级的英国报刊《财经时报》(Financial Times,FT)也刊发了类似反思式的文章“大数据:我们正在犯大错误吗?(Big data: are we making a big mistake?)”【3】 在大数据热炒之中,大数据的价值是否被夸大了?是否存在人造的“心灵鸡汤”?大数据技术便利带来的“收之桑榆”,是否也存在自己的副作用——“失之东隅”——个人的隐私何以得到保障?大数据热炒的“繁华过尽”,数据背后的巨大价值是否还能“温润依旧”?在众声喧哗之中,我们需要冷静审慎地思考上述问题。 太多的“唐僧式”的说教,会让很多人感到无趣。下文分享了10个从“天南地北”收集而来的小故事(或称段子),从这些小故事中,可对热炒的大数据反思一下,这或许能让读者更加客观地看待大数据。有些小故事与结论之间的对应关系,或许不是那么妥帖,诸位别太较真,读一读、乐一乐、想一想就好! 故事01:大数据都是骗人的啊——大数据预测得准吗? 从前,有一头不在风口长大的猪。自打出生以来,就在猪圈这个世外桃源里美满地生活着。每天都有人时不时地扔进来一些好吃的东西,小猪觉得日子惬意极了!高兴任性时,可在猪圈泥堆里打滚耍泼。忧伤时,可趴在猪圈的护栏上,看夕阳西下,春去秋来,岁月不争。“猪”生如此,夫复何求? 根据过往数百天的大数据分析,小猪预测,未来的日子会一直这样“波澜不惊”地过下去,直到它从小猪长成肥猪……在春节前的一个下午,一次血腥的杀戮改变了猪的信念:尼玛大数据都是骗人的啊……惨叫嘎然而止。 图2 大数据预测:都是骗人的 这则“人造寓言”是由《MacTalk·人生元编程》一书作者池建强先生“杜撰”而成的【4】。池先生估计是想用这个搞笑的小寓言“黑”一把大数据。 我们知道,针对大数据分析,无非有两个方面的作用:(1)面向过去,发现潜藏在数据表面之下的历史规律或模式,称之为描述性分析(Descriptive Analysis);(2)面向未来,对未来趋势进行预测,称之为预测性分析(Predictive Analysis)。把大数据分析的范围从“已知”拓展 到了“未知”,从“过去” 走向 “将来”,这是大数据真正的生命力和“灵魂” 所在。 那头“悲催”的猪,之所以发出“大数据都是骗人的啊”呐喊,是因为它的得出了一个错误的“历史规律”:根据以往的数据预测未来,它每天都会过着“饭来张口”的猪一般的生活。但是没想到,会发生“黑天鹅事件”——春节的杀猪事件。 黑天鹅事件(Black Swan Event) 通常是指,难以预测的但影响甚大的事件,一旦发生,便会引起整个局面连锁负面反应甚至颠覆。读者可阅读纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)所著的畅销书《黑天鹅》,来获得对“黑天鹅事件”更多的理解。 其实,我们不妨从另外一个角度来分析一下,这个搞笑的小寓言在“黑”大数据时,也有失败的地方。通过阅读知道,舍恩伯格教授在其著作《大数据时代》的第一个核心观点就是:大数据即全数据(即n=All,这里n为数据的大小),其旨在收集和分析与某事物相关的“全部”数据,而非仅分析“部分”数据。 那头小猪,仅仅着眼于分析它“从小到肥”成长数据——局部小数据,而忽略了“从肥到没”的历史数据。数据不全,结论自然会偏,预测就会不准。 要不怎么会有这样的规律总结呢:“人怕出名,猪怕壮”。猪肥了,很容易先被抓来杀掉。这样的“猪”血泪史,天天都上演的还少吗?上面的小寓言,其实是告诉我们:数据不全,不仅坑爹,还坑命啊!

大数据怎么帮3000万光棍脱单?

国家统计局最新发布的数据显示,2015年中国大陆总人口达137462万人,男性人口70414万人,女性人口67048万人,总人口性别比为 105.02(以女性为100),出生人口性别比为113.51。男女人口相差3366万,这意味着约有3000余万的男性人口将面临“打光棍”的局面,面对我国如此严重的光棍危机,大数据该怎么帮助他们脱单呢? 交友网攀上高科技,带你玩转大数据 婚恋交友网站近年来始终是互联网领域的市场热点,某大型婚恋网凭借着超过1.3亿的用户注册量,从大数据着手,在海量数据多维度行为分析中洞察用户需求,帮助大众阶层的单身男女寻找合适的另一半。 大数据挖掘最基本的形态是帮助单身男女,搜罗信息最匹配、最符合需求的人士,比如身高、收入、职业等,并为他们做“你可能会对他们感兴趣”的页面推荐。用户还可设置基于交友条件对主动留信的人做再次过滤,如果条件确实为硬性标准,那就避免浪费过多时间在不符合条件的人士身上,大数据让交友网更贴心。 如果你以为大数据仅是上述的作用,那你可就大错特错了。大数据还能够让同城交友更靠谱,让缘分的到来变得更加微妙。如果七夕当天你无聊地在某咖啡厅或书店、酒吧解闷,你的缘分可能就会找上你哦~在用户允许的情况下,出行和位置大数据可以让交友APP知道你在哪里,如果你开启了实时接收模式,交友APP会为你匹配同一位置且符合要求的异性,这样基于位置的匹配,一是猜测对方和你可能有相同的兴趣爱好,爱去同样的地方;二是考虑双方的生活范围和距离也应该不会过于遥远。如果其中一方主动发起认识邀请,并征得对方同意的情况下,APP会为你们显示一条缘分路线,顺着地图路线双方可以很快见面,见面结束后红娘会互相询问你们的进展情况并为害羞的一方表达心意,做贴心的交友咨询。区别于传统相亲的未知,大数据交友会更加令人期待。 对这种实时大数据交友,用户也不用过多担心安全问题,因为该服务尽管使用昵称,但均需事先进行实名认证,且在同意对方邀请之前,对方无法获得另一方的准确位置。拒绝对方邀请后,也将立刻消失在对方的缘分列表中,对方无法再查看任何个人信息。该交友服务会再三提示用户,避免在人迹稀少的地方使用该功能。当然女性用户也可以选择带同伴同行,但出于对对方的尊重,开始使用功能前需要提交同行人数。另外即使单独见面后如确有不佳情况发生,APP也支持一键立即报警和举报该用户。 另有单身大数据显示,成都、西安、北京单身女性数量最多,而单身男性主要集中在西安、北京、深圳。所以在哪里找男女朋友大家可要看准咯。国外曾有一名博士借助数字算法找到了匹配度91%的女朋友并成功求婚,所以大数据不仅能让光棍们的交友历程更精准化、高效化,也能让这个过程变得更加美好。  

生态学研究正进入大科学、大数据时代

说起“大科学”这个词,首先让人联想到的是火箭、天文望远镜和粒子加速器的研究,这些研究需要大量的资金支撑。而生态学研究,让人联想到的是带着样方尺的植物生态学家、拿着望远镜的鸟类生态学家、以及手持捕虫网的昆虫学家等等,很少会有人将他们的研究与大科学联系起来。其实,反过来想,这又是特别令人奇怪的!生态学家研究的地区,例如大多数陆地,是一个真正被人类占领的区域,却一直没有归为大科学的范畴。不过,在David Schimel的带领下,一大邦美国生态学家们正打算纠正这种状态。他们计划将撼动陆地生态学领域,并将之引入到大科学的规模和范围,这就是他们正在建立的的美国国家生态观测网络(NEON, National Ecological Observatory Network),这也正是本文将作为详细案例进行探讨的一个话题。 “大数据”(Big Data)所覆盖的范围越来越大。例如,《纽约时报》2012年8月2日就大数据这种新出现的文化基因(cultural meme)进行了探讨。通常,人们首先以技术爱好者的角度来看待大数据。《纽约时报》的文章将大数据描述为“应用人工智能工具,如机器学习,巨大的数据的新搜集,这超越了标准的数据库。新的数据来源包括网页浏览数据的痕迹、社会网络通信、传感器数据和监测数据。” 大数据受到自然世界的塑造,并影响我们如何理解自然世界和与自然世界交流。生物学在如此多的水平上提供一个巨大的数据:来自遗传研究几乎无限的数据正充斥着我们最大的数字仓库中的字节;大量保存在自然历史博物馆的标本;在全球范围内日常生活所拍摄的摄影档案;大量的来自“公民科学”(citizen science)数据库中的数据,如国家物候学网络(National Phenology Network),有关这个内容,在2012年出版的一期的Frontiers in Ecology and the Environment中的“公民科学”栏目中有一个非常重要的综述文章“From Caprio’s lilacs to the USA National Phenology Network”介绍了这个网络;大尺度的生物地球化学作用研究的汇集,比如滨海“死亡地带”的研究,实质上是总汇了工业氮转换、人类农业实践、初级生产力和生物呼吸之间的相互作用。有关这些区域的交互式地图已经由WRI出版。 大数据正在影响我们如何理解世界,因为它正在瓦解我们在过去50年被告知的对科学理解的基石:在一个“强大的推理”框架中用受控实验来测试可证伪的假设。认为科学必须可证伪的想法来自卡尔·波普尔(Karl Popper),他从约翰·普拉特(John Platt)的传道中得到了启示,在其1964年所发表的高引用“强推论”(Strong Inference)雄文中主张用标准化方法进行生物科学研究。Observation and Ecology的作者Rafe说:“如果你第一次阅读他的文章时候就很喜欢,其实我也是这样的,但我还是劝您以批判的态度再读一遍”。并说这有点像在高中时候对艾茵·兰德(Ayn Rand)很痴迷,成年后试图用她的思想与现实结合起来。显而易见,这些哲学思想产生了一些惯例性的规则:“相关性并不意味着因果关系”、“模式不能揭示机制”,以及科学的结论如果没有推翻预先确定的假设,其作用就仅相当于“审前调查”。大数据使得以前这些坚实的信念看起来有点古怪。虽然这些信念有时候仍然有价值,但其中自反的特性被科学家和非科学家以相同的方式采用,这都需要重新评估。如果我们无法把一些机制性原因弄得100%清楚(其实没有那个方法能做到这点儿),大数据方法允许生命科学家在更大的混沌周期中发现更为健壮的模式,或者时会让我们尽可能接近真实状况。同时,在对待大数据中应该注意的是,大数据永远不会完全取代小数据。那些花时间观察自然的小数据,以及对小数据片言只语的理解,是构成大数据整体的基石。 在生态学领域,现在提起NEON,不能说是家喻户晓、人人皆知,但也可以说是在这个大数据时代增添了一道异常鲜艳的光芒。开始,这个项目仅立足于在科罗拉多的博尔德寻求资金支持,项目进展异常艰难。但是在长达十年的讨论和计划后,美国国家科学基金会设法说服国会专项拨款4.34亿美元进行建设,这是一个中等太空探测器的价格,操作预算大约为每年8千万美元。2011年美国的大陆尺度生态网络计划终于启动了,它将全面监测整个美国的环境变化,从根本上改变传统的小规模、地域性研究方式,形成陆地领域的群体合作。研究人员宣称,生态领域的大数据时代已经来临,生态观测将迎来“数据洪流”。 最终,覆盖美国的60个地区将同步建立起来。一旦在2016年这个台站网络完成后,一切顺利的话,将有15000个传感器用于收集超过500个类型的数据,包括温度、降水、气压、风速和风向、湿度、日照、如臭氧等的空气污染物浓度、土壤和溪流中各种营养的总量,以及地区的植被和微生物状态。在每个地方这些仪器将以同样的方式安装,并采用相同的测量,用标准化方式坚持长期的数据收集,希望能达到统计学功效的需求,将生态学研究从一些技巧性实验观测变成一个工业规模的企业运作。有了这样的基础,就可以观察生态系统是如何应对气候变化和土地利用变化以及新物种入侵的。最终,利用这些观测数据可开发一些预测生态系统未来的模型,这可帮助决策者评估各种行动方案所产生的后果。 图1 美国NEON项目将美国划分为20个不同的生态系统区域 NEON的研究人员将美国划分为20个不同的区域(图1),每一个区域代表一个特定的生态系统类型。每个区域都配备有三套传感器。一套固定安装在核心位点进行至少30年的连续监测,核心位点的环境条件不受干扰而且可能维持下去。其他两套可进行移动,在一个地方进行三到五年的观测后移动到其他地方,这些“浮动”的位点用于同区域内的比较。每一个位点,不管是核心位点还是浮动位点,都有一座布满传感器的观测塔,这座塔比现有的植被冠层高10米。在围绕这座塔方圆几十平方公里的区域内,研究者将更多的传感器布设在土壤和溪流中,测量温度、二氧化碳和营养水平,以及根生长速率和微生物活动。这些传感器将记录不同的生态系统如何有效地利用养分和水分,植被如何响应气候变化,以及二氧化碳在生物和大气之间是如何移动的。这将有助于寻求对碳循环的理解,以及温室气体引起的气候变化的后果。为了配合这些地面测量,研究人员还将在每个核心站点进行一年一次空中的调查,观察诸如叶化学特征和森林冠层的健康问题,也可用于与卫星观测数据进行比较。此外,NEON的研究人员可以部署一个特殊装备的飞机,其上配备了激光雷达(雷达的光学本的),一个光谱仪(测定化学成分)和一个高分辨率的相机,用于评估自然灾害如洪水、野火和害虫爆发的影响。   如何真正从小问题中辨别出大科学,这才是值得研究的。天文学家和物理学家们已经在这个问题上进行了数十年的探索,生物学家在人类基因组的余波中也发现这个问题。这并不是所涉及的投资巨大,而是需要处理的数据总量。过去多年来,该项目一直受到各方质疑。有人担忧NEON可能会带来大量毫无价值的数据,那些数据不一定是科学家们所需要的。组织、处理、分析这些数据并从中得出实际的意义将是一个重大挑战。哈佛大学大气化学家斯蒂文·沃夫西说:“要解决这些问题,科学家必须要学习如何利用这些数据。如果他们成功了,将给解决宏观生态问题带来实际作用。”哈勃太空望远镜在最初升空的20多年,也是产生了大量的数据。预计当NEON完全运作起来后,每年产生会200TB的数据,这是哈勃太空望远镜数据量的四倍。NEON的发展,的确代表了向“大”奋斗的生态学家的转变。毫无疑问,这将带来划时代的革命,就像天文学、物理学和遗传学变成大科学时的改变。以后,生态学家利用望远镜和捕虫网的日子是屈指可数的。但没有人怀疑,这种变化是为了更好地进行生态学研究,而且这些变化在生态学研究中正在实实在在地发生着。 如果说NEON只是美国在生态学领域开展的一个大数据项目,那么,其实在生态学领域的国际合作中,曾经产生,或目前正在产生,以及今后即将产生的大数据项目还有许多。下面仅举三个例子来说明。 由多个国家参与的国际长期生态研究项目(International Long Term Ecological Research,ILTER),支持科学家和学生进行长周期的、覆盖面广的过程研究,它涉及海洋站点、南极、市区和全球农业生态系统。ILTER科学家正致力于创造一个真实的网络,他们开始探索把许多站点连接起来的总体问题,一个根本目标是实现生态学预测。 海洋主动观测(the Ocean Observatory Initiative ,OOI)项目包括一个相互连接的海底站点区域网络。一旦建立起来,观测站将为地球和海洋科学家提供独一无二的机会,从几秒到数十年的时间尺度上研究多样的、交互过程。他们将引导区域过程和空间特征的比较研究。最终,海洋观测站将映射到整个地球并建立起基本尺度结构。 图2 ARGO计划全球浮标布设图 ARGO计划是由美国等国家大气、海洋科学家于1998年推出的一个全球海洋观测试验项目,旨在快速、准确、大范围地收集全球海洋上层的海水温、盐度剖面资料,以提高气候预报的精度,有效防御全球日益严重的气候灾害(如飓风、龙卷风、台风、冰暴、洪水和干旱等)给人类造成的威胁。 ARGO计划构想用3年至4年时间(2000年-2003年)在全球大洋中每隔300公里布放一个卫星跟踪浮标,总计为3000个,组成一个庞大的ARGO全球海洋观测网(图2)。一种称为自律式的拉格朗日环流剖面观测浮标将担当此重任。它的设计寿命为4年至5年,最大测量深度为2000米,会每隔10天至14天自动发送一组剖面实时观测数据,每年可提供多达10万个剖面的海水温度和盐度资料。ARGO全球海洋观测网建设受到了世界各沿海国家、大气科学家的青睐,被誉为“海洋观测手段的一场革命”,实现了长期、自动、实时和连续获取大范围、深层海洋资料的能力,可从根本上弥补目前天气预报中对海洋内部信息缺少了解的局面,从而会在很大程度上提高天气预报的精确度。据全球Argo实时海洋观测网透露,2012年11月4日由印度布放的编号为“2901287”的Argo浮标,收集到具有里程碑意义的第100万条观测剖面数据,标志着包括中国在内的由世界多个沿海国家共同参与的大型海洋国际合作观测计划步入了一个新的发展阶段。10年来,由美国、澳大利亚等30多个沿海国家布放的约8500个Argo浮标所组成的全球Argo实时海洋观测网,首次实现了真正意义上的对全球海洋上层温度、盐度和海流的实时观测。我国于2001年加入国际Argo计划,截至2012年11月6日,我国共计投放146个Argo浮标,获取剖面8928条,目前正在工作的浮标有85个。

大数据思维的十大原理

大数据思维的十大原理:当样本数量足够大时,你会发现其实每个人都是一模一样的 一、数据核心原理 从“流程”核心转变为“数据”核心 大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。 例如:IBM将使用以数据为中心的设计,目的是降低在超级计算机之间进行大 量数据交换的必要性。大数据下,云计算找到了破茧重生的机会,在存储和计算上都体现了数据为核心的理念。大数据和云计算的关系:云计算为大数据提供了有力 的工具和途径,大数据为云计算提供了很有价值的用武之地。而大数据比云计算更为落地,可有效利用已大量建设的云计算资源,最后加以利用。 科学进步越来越多地由数据来推动,海量数据给数据分析既带来了机遇,也构成了新的挑战。大数据往往是利用众多技术和方法,综合源自多个渠道、不同时间的信息而获得的。为了应对大数据带来的挑战,我们需要新的统计思路和计算方法。 说明:用数据核心思维方式思考问题,解决问题。以数据为核心,反映了当下IT产业的变革,数据成为人工智能的基础,也成为智能化的基础,数据比流程 更重要,数据库、记录数据库,都可开发出深层次信息。云计算机可以从数据库、记录数据库中搜索出你是谁,你需要什么,从而推荐给你需要的信息。 二、数据价值原理 由功能是价值转变为数据是价值 大数据真正有意思的是数据变得在线了,这个恰恰是互联网的特点。非互联网时期的产品,功能一定是它的价值,今天互联网的产品,数据一定是它的价值。 例如:大数据的真正价值在于创造,在于填补无数个还未实现过的空白。有人把 数据比喻为蕴藏能量的煤矿,煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而 在于“有用”,价值含量、挖掘成本比数量更为重要。不管大数据的核心价值是不是预测,但是基于大数据形成决策的模式已经为不少的企业带来了盈利和声誉。 数据能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。大数据是数据数量上 的增加,以至于我们能够实现从量变到质变的过程。举例来说,这里有一张照片,照片里的人在骑马,这张照片每一分钟,每一秒都要拍一张,但随着处理速度越来 越快,从1分钟一张到1秒钟1张,突然到1秒钟10张后,就产生了电影。当数量的增长实现质变时,就从照片变成了一部电影。 美国有一家创新企业Decide.com 它可以帮助人们做购买决策,告诉消费者什么时候买什么产品,什么时候买最便宜,预测产品的价格趋势,这家公司背后的驱动力就是大数据。他们在全球各 大网站上搜集数以十亿计的数据,然后帮助数以十万计的用户省钱,为他们的采购找到最好的时间,降低交易成本,为终端的消费者带去更多价值。 在这类模式下,尽管一些零售商的利润会进一步受挤压,但从商业本质上来讲,可以把钱更多地放回到消费者的口袋里,让购物变得更理性,这是依靠大数据催生出的一项全新产业。这家为数以十万计的客户省钱的公司,在几个星期前,被eBay以高价收购。 再举一个例子,SWIFT是全球最大的支付平台,在该平台上的每一笔交易都 可以进行大数据的分析,他们可以预测一个经济体的健康性和增长性。比如,该公司现在为全球性客户提供经济指数,这又是一个大数据服务。,定制化服务的关键 是数据。《大数据时代》的作者维克托·迈尔·舍恩伯格认为,大量的数据能够让传统行业更好地了解客户需求,提供个性化的服务。 说明:用数据价值思维方式思考问题,解决问题。信息总量的变化导致了信息形态的变化,量变引发了质变,最先经历信息爆炸的学科,如天文学和基因学, 创造出了“大数据”这个概念。如今,这个概念几乎应用到了所有人类致力于发展的领域中。从功能为价值转变为数据为价值,说明数据和大数据的价值在扩大,数 据为“王”的时代出现了。数据被解释是信息,信息常识化是知识,所以说数据解释、数据分析能产生价值。 三、全样本原理 从抽样转变为需要全部数据样本 需要全部数据样本而不是抽样,你不知道的事情比你知道的事情更重要,但如果现在数据足够多,它会让人能够看得见、摸得着规律。数据这么大、这么多, 所以人们觉得有足够的能力把握未来,对不确定状态的一种判断,从而做出自己的决定。这些东西我们听起来都是非常原始的,但是实际上背后的思维方式,和我们 今天所讲的大数据是非常像的。 举例:在大数据时代,无论是商家还是信息的搜集者,会比我们自己更知道你可 能会想干什么。现在的数据还没有被真正挖掘,如果真正挖掘的话,通过信用卡消费的记录,可以成功预测未来5年内的情况。统计学里头最基本的一个概念就是, 全部样本才能找出规律。为什么能够找出行为规律?一个更深层的概念是人和人是一样的,如果是一个人特例出来,可能很有个性,但当人口样本数量足够大时,就 会发现其实每个人都是一模一样的。 说明:用全数据样本思维方式思考问题,解决问题。从抽样中得到的结论总是有水分的,而全部样本中得到的结论水分就很少,大数据越大,真实性也就越大,因为大数据包含了全部的信息。 四、关注效率原理 由关注精确度转变为关注效率 关注效率而不是精确度,大数据标志着人类在寻求量化和认识世界的道路上前进了一大步,过去不可计量、存储、分析和共享的很多东西都被数据化了,拥有 大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。大数据能提高生产效率和销售效率,原因是大数据能够让我们知道市场的需要,人的消费 需要。大数据让企业的决策更科学,由关注精确度转变为关注效率的提高,大数据分析能提高企业的效率。 例如:在互联网大数据时代,企业产品迭代的速度在加快。三星、小米手机制造商半年就推出一代新智能手机。利用互联网、大数据提高企业效率的趋势下,快速就是效率、预测就是效率、预见就是效率、变革就是效率、创新就是效率、应用就是效率。 竞争是企业的动力,而效率是企业的生命,效率低与效率高是衡量企来成败的关键。一般来讲,投入与产出比是效率,追求高效率也就是追求高价值。手工、 机器、自动机器、智能机器之间效率是不同的,智能机器效率更高,已能代替人的思维劳动。智能机器核心是大数据制动,而大数据制动的速度更快。在快速变化的 市场,快速预测、快速决策、快速创新、快速定制、快速生产、快速上市成为企业行动的准则,也就是说,速度就是价值,效率就是价值,而这一切离不开大数据思 维。 说明:用关注效率思维方式思考问题,解决问题。大数据思维有点像混沌思维,确定与不确定交织在一起,过去那种一元思维结果,已被二元思维结果取代。 过去寻求精确度,现在寻求高效率;过去寻求因果性,现在寻求相关性;过去寻找确定性,现在寻找概率性,对不精确的数据结果已能容忍。只要大数据分析指出可 能性,就会有相应的结果,从而为企业快速决策、快速动作、创占先机提高了效率。 五、关注相关性原理 由因果关系转变为关注相关性 关注相关性而不是因果关系,社会需要放弃它对因果关系的渴求,而仅需关注相关关系,也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。

Skip to toolbar