AlphaGo之父Hassabis | 关于围棋,人类3000年来犯了一个错

4月10日,“人机大战”的消息再次传出,关于人类和AI的对抗再次牵动世界的神经。 “我会抱必胜心态、必死信念。我一定要击败阿尔法狗!”对于5月23日至27日与围棋人工智能程序AlphaGo(阿尔法狗)的对弈,目前世界排名第一的中国职业九段柯洁放出豪言。然而,AlphaGo(阿尔法狗)之父却说,“我们发明阿尔法狗,并不是为了赢取围棋比赛。” AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人工智能,对于阿尔法狗的诸多疑问——过去3000年里人类低估了棋局哪个区域的重要性?阿尔法狗去年赢了韩国职业九段李世石靠哪几个绝招?今年年初拿下数位国际大师的神秘棋手Master究竟是不是阿尔法狗?为什么围棋是人工智能难解之谜? 杰米斯·哈萨比斯,Deep Mind创始人, AlphaGo之父。 杰米斯·哈萨比斯,Deep Mind创始人,AlphaGo(阿尔法狗)之父, 4岁开始下象棋,8岁时在棋盘上的成功促使他开始思考两个至今令他困扰的问题:第一,人脑是如何学会完成复杂任务的?第二,电脑能否做到这一点?17岁时,哈萨比斯就负责了经典模拟游戏《主题公园》的开发,并在1994年发布。他随后读完了剑桥大学计算机科学学位,2005年进入伦敦大学学院,攻读神经科学博士学位,希望了解真正的大脑究竟是如何工作的,以此促进人工智能的发展。2014年他创办公司Deep Mind, 公司产品阿尔法狗在2016年大战围棋冠军李世石事件上一举成名。 哈萨比斯在当天的演讲中透露了韩国棋手李世石去年输给阿尔法狗的致命原因,他最后也提到了阿尔法狗即将迎战的中国棋手柯洁,他说,“柯洁也在网上和阿尔法狗对决过,比赛之后柯洁说人类已经研究围棋研究了几千年了,然而人工智能却告诉我们,我们甚至连其表皮都没揭开。柯洁提到了围棋的真理,我们在这里谈的是科学的真理。” 世界围棋冠军柯洁即将迎战阿尔法狗。   非常感谢大家今天能够到场,今天,我将谈谈人工智能,以及DeepMind近期在做些什么,我把这场报告命名为“超越人类认知的极限”,我希望到了报告结束的时候,大家都清晰了解我想传达的思想。 1.你真的知道什么是人工智能吗? 对于不知道DeepMind公司的朋友,我做个简单介绍,我们是在2010年于伦敦成立了这家公司,在2014年我们被谷歌收购,希望借此加快我们人工智能技术的脚步。我们的使命是什么呢?我们的首要使命便是解决人工智能问题;一旦这个问题解决了,理论上任何问题都可以被解决。这就是我们的两大使命了,听起来可能有点狡猾,但是我们真的相信,如果人工智能最基本的问题都解决了的话,没有什么问题是困难的。 那么我们准备怎样实现这个目标呢?DeepMind现在在努力制造世界上第一台通用学习机,大体上学习可以分为两类:一种就是直接从输入和经验中学习,没有既定的程序或者规则可循,系统需要从原始数据自己进行学习;第二种学习系统就是通用学习系统,指的是一种算法可以用于不同的任务和领域,甚至是一些从未见过的全新领域。大家肯定会问,系统是怎么做到这一点的? 其实,人脑就是一个非常明显的例子,这是可能的,关键在于如何通过大量的数据资源,寻找到最合适的解决方式和算法。我们把这种系统叫做通用人工智能,来区别于如今我们当前大部分人在用的仅在某一领域发挥特长的狭义人工智能,这种狭义人工智能在过去的40-50年非常流行。 IBM 发明的深蓝系统(Deep Blue)就是一个很好的狭义人工智能的例子,他在上世纪90年代末期曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov) 。如今,我们到了人工智能的新的转折点,我们有着更加先进、更加匹配的技术。   1997年5月,IBM与世界国际象棋冠军加里·卡斯帕罗夫对决 2.如何让机器听从人类的命令? 大家可能想问机器是如何听从人类的命令的,其实并不是机器或者算法本身,而是一群聪明的编程者智慧的结晶。他们与每一位国际象棋大师对话,汲取他们的经验,把其转化成代码和规则,组建了人类最强的象棋大师团队。但是这样的系统仅限于象棋,不能用于其他游戏。对于新的游戏,你需要重新开始编程。在某种程度上,这些技术仍然不够完美,并不是传统意义上的完全人工智能,其中所缺失的就是普适性和学习性。我们想通过“增强学习”来解决这一难题。在这里我解释一下增强学习,我相信很多人都了解这个算法。 首先,想像一下有一个主体,在AI领域我们称我们的人工智能系统为主体,它需要了解自己所处的环境,并尽力找出自己要达到的目的。这里的环境可以指真实事件,可以是机器人,也可以是虚拟世界,比如游戏环境;主体通过两种方式与周围环境接触;它先通过观察熟悉环境,我们起初通过视觉,也可以通过听觉、触觉等,我们也在发展多感觉的系统; 第二个任务,就是在此基础上,建模并找出最佳选择。这可能涉及到对未来的预期,想像,以及假设检验。这个主体经常处在真实环境中,当时间节点到了的时候,系统需要输出当前找到的最佳方案。这个方案可能或多或少会改变所处环境,从而进一步驱动观察的结果,并反馈给主体。 简单来说,这就是增强学习的原则,示意图虽然简单,但是其中却涉及了极其复杂的算法和原理。如果我们能够解决大部分问题,我们就能够搭建普适人工智能。这是因为两个主要原因:首先,从数学角度来讲,我的合伙人,一名博士,他搭建了一个系统叫‘AI-XI’,用这个模型,他证明了在计算机硬件条件和时间无限的情况下,搭建一个普适人工智能,需要的信息。另外,从生物角度来讲,动物和人类等,人类的大脑是多巴胺控制的,它在执行增强学习的行为。因此,不论是从数学的角度,还是生物的角度,增强学习是一个有效的解决人工智能问题的工具。 3.为什么围棋是人工智能难解之谜? 接下来,我要主要讲讲我们最近的技术,那就是去年诞生的阿尔法狗;希望在座的大家了解这个游戏,并尝试玩玩,这是个非常棒的游戏。围棋使用方形格状棋盘及黑白二色圆形棋子进行对弈,棋盘上有纵横各19条直线将棋盘分成361个交叉点,棋子走在交叉点上,双方交替行棋,以围地多者为胜。围棋规则没有多复杂,我可以在五分钟之内教给大家。这张图展示的就是一局已结束,整个棋盘基本布满棋子,然后数一下你的棋子圈出的空间以及对方棋子圈出的空间,谁的空间大,谁就获胜。在图示的这场势均力敌的比赛中,白棋一格之差险胜。   白棋以一格之差险胜。 其实,了解这个游戏的最终目的非常难,因为它并不像象棋那样,有着直接明确的目标,在围棋里,完全是凭直觉的,甚至连如何决定游戏结束对于初学者来说,都很难。围棋是个历史悠久的游戏,有着3000多年的历史,起源于中国,在亚洲,围棋有着很深的文化意义。孔子还曾指出,围棋是每一个真正的学者都应该掌握的四大技能之一(琴棋书画),所以在亚洲围棋是种艺术,专家们都会玩。 如今,这个游戏更加流行,有4000万人在玩围棋,超过2000多个顶级专家,如果你在4-5岁的时候就展示了围棋的天赋,这些小孩将会被选中,并进入特殊的专业围棋学校,在那里,学生从6岁起,每天花12个小时学习围棋,一周七天,天天如此。直到你成为这个领域的专家,才可以离开学校毕业。这些专家基本是投入人生全部的精力,去揣摩学习掌握这门技巧,我认为围棋也许是最优雅的一种游戏了。 像我说的那样,这个游戏只有两个非常简单的规则,而其复杂性却是难以想象的,一共有10170 (10的170次方) 种可能性,这个数字比整个宇宙中的原子数1080(10的80次方)都多的去了,是没有办法穷举出围棋所有的可能结果的。我们需要一种更加聪明的方法。你也许会问为什么计算机进行围棋的游戏会如此困难,1997年,IBM的人工智能DeepBlue(深蓝)打败了当时的象棋世界冠军GarryKasparov,围棋一直是人工智能领域的难解之谜。我们能否做出一个算法来与世界围棋冠军竞争呢?要做到这一点,有两个大的挑战: 一、搜索空间庞大(分支因数就有200),一个很好的例子,就是在围棋中,平均每一个棋子有两百个可能的位置,而象棋仅仅是20. 围棋的分支因数远大于象棋。 二、比这个更难的是,几乎没有一个合适的评价函数来定义谁是赢家,赢了多少;这个评价函数对于该系统是至关重要的。而对于象棋来说,写一个评价函数是非常简单的,因为象棋不仅是个相对简单的游戏,而且是实体的,只用数一下双方的棋子,就能轻而易举得出结论了。你也可以通过其他指标来评价象棋,比如棋子移动性等。 所有的这些在围棋里都是不可能的,并不是所有的部分都一样,甚至一个小小部分的变动,会完全变化格局,所以每一个小的棋子都对棋局有着至关重要的影响。最难的部分是,我称象棋为毁灭性的游戏,游戏开始的时候,所有的棋子都在棋盘上了,随着游戏的进行,棋子被对方吃掉,棋子数目不断减少,游戏也变得越来越简单。相反,围棋是个建设性的游戏,开始的时候,棋盘是空的,慢慢的下棋双方把棋盘填满。 因此,如果你准备在中场判断一下当前形势,在象棋里,你只需看现在的棋盘,就能告诉你大致情况;在围棋里,你必须评估未来可能会发生什么,才能评估当前局势,所以相比较而言,围棋难得多。也有很多人试着将DeepBlue的技术应用在围棋上,但是结果并不理想,这些技术连一个专业的围棋手都打不赢,更别说世界冠军了。 所以大家就要问了,连电脑操作起来都这么难,人类是怎样解决这个问题的?其实,人类是靠直觉的,而围棋一开始就是一个靠直觉而非计算的游戏。所以,如果你问一个象棋选手,为什么这步这样走,他会告诉你,这样走完之后,下一步和下下一步会怎样走,就可以达到什么样的目的。这样的计划,有时候也许不尽如人意,但是起码选手是有原因的。 然而围棋就不同了,如果你去问世界级的大师,为什么走这一步,他们经常回答你直觉告诉他这么走,这是真的,他们是没法描述其中的原因的。我们通过用加强学习的方式来提高人工神经网络算法,希望能够解决这一问题。我们试图通过深度神经网络模仿人类的这种直觉行为,在这里,需要训练两个神经网络,一种是决策网络,我们从网上下载了成百万的业余围棋游戏,通过监督学习,我们让阿尔法狗模拟人类下围棋的行为;我们从棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定;系统的输入是在那个特殊位置最有可能发生的前五或者前十的位置移动;这样,你只需看那5-10种可能性,而不用分析所有的200种可能性了。 一旦我们有了这个,我们对系统进行几百万次的训练,通过误差加强学习,对于赢了的情况,让系统意识到,下次出现类似的情形时,更有可能做相似的决定。相反,如果系统输了,那么下次再出现类似的情况,就不会选择这种走法。我们建立了自己的游戏数据库,通过百万次的游戏,对系统进行训练,得到第二种神经网络。选择不同的落子点,经过置信区间进行学习,选出能够赢的情况,这个几率介于0-1之间,0是根本不可能赢,1是百分之百赢。 通过把这两个神经网络结合起来(决策网络和数值网络),我们可以大致预估出当前的情况。这两个神经网络树,通过蒙特卡洛算法,把这种本来不能解决的问题,变得可以解决。我们网罗了大部分的围棋下法,然后和欧洲的围棋冠军比赛,结果是阿尔法狗赢了,那是我们的第一次突破,而且相关算法还被发表在《自然》科学杂志。 接下来,我们在韩国设立了100万美元的奖金,并在2016年3月,与世界围棋冠军李世石进行了对决。李世石先生是围棋界的传奇,在过去的10年里都被认为是最顶级的围棋专家。我们与他进行对决,发现他有非常多创新的玩法,有的时候阿尔法狗很难掌控。比赛开始之前,世界上每个人(包括他本人在内)都认为他一定会很轻松就打赢这五场比赛,但实际结果是我们的阿尔法狗以4:1获胜。围棋专家和人工智能领域的专家都称这具有划时代的意义。对于业界人员来说,之前根本没想到。 4.棋局哪个关键区域被人类忽视了? 这对于我们来说也是一生仅有一次的偶然事件。这场比赛,全世界28亿人在关注,35000多篇关于此的报道。整个韩国那一周都在围绕这个话题。真是一件非常美妙的事情。对于我们而言,重要的不是阿尔法狗赢了这个比赛,而是了解分析他是如何赢的,这个系统有多强的创新能力。阿尔法狗不仅仅只是模仿其他人类选手的下法,他在不断创新。在这里举个例子 ,这是第二局里的一个情况,第37步,这一步是我整个比赛中最喜欢的一步。在这里,黑棋代表阿尔法狗,他将棋子落在了图中三角标出的位置。为什么这步这么关键呢?为什么大家都被震惊到了。   图左:第二局里,第37步,黑棋的落子位置  图右:之前貌似陷入困境的两个棋子。

高盛99页人工智能重磅报告 史上最全AI产业盘点

导读:人工智能(AI),可以说是科技信息时代的大飞跃,既具备一定的类人逻辑性,又具备强大的计算能力和数据存储能力。虽然,目前业界并不处在一个良好的投资状态,但AI 技术依旧被认为是下一个带来巨大经济效益,提高社会生产力的巨大突破点。 转智东西(微信号:zhidxcom) 编|十四 事实上,在过去的这两年时间里,AI、机器人、自动驾驶等概念已经成为最前沿的文化、政治名词。很多研究认为,我们目前正处于这样一个技术拐点:计算能力更强更快,数据源更丰富,深度学习算法趋于成熟,专业的硬件(芯片)和开源代码逐渐崛起,越来越多的实用性AI应运而生。 本期的智能内参,我们推荐来自高盛的AI产业调研报告,报告详细介绍了AI的技术背景、应用前景和目前的产业竞争局势及产业链地图,如果想收藏本文的报告全文,可以在智东西(公众号:zhidxcom)回复关键词“nc113”下载。 以下为智能内参整理呈现的干货: AI背后的三大推手:数据、芯片、算法 1、移动网络大量普及 数据结构化或爆发 数据可以说是机器学习的关键。分布全球的无所不在的互联设备,包括移动设备、物联网等,使得非结构化的数据大量增长,也就是说,机器学习算法能够用来模拟、训练和测试的数据源更加充足。 仅以特斯拉互联汽车为例,截至目前,特斯拉总行程78000万英里,公司平台额外驱动的互联汽车也行驶了 100万英里。无线运营方面,Verizon8月公布了新的传输标准,使得远程传感器联通云端软件的速度更快。同时,新的5G网络也将促进传输数据,IDC预计截至2020年,年均数据量将达44泽字节(也就是44万亿字节),未来五年复合年增长率将达141%,大数据技术将逐渐渗透实用领域。 与此同时,移动网络建立大规模数据库和云端处理技术的成本也在不断降低。智东西也曾在111期智能内参援引世界经济论坛指出:预计不用三年,将有90%的人拥有被广告商支持的无限的免费数据存储。这是因为,硬盘驱动器的成本持续下降,激励着数据的创造。事实上,近90%的数据是过去两年中创建的。   *IDC调研的数据量增长趋势 2、GPU应用大势 新硬件更适配并行结构 GPU被认为是低成本、高计算能力的处理单元,特别是针对云端服务和新的神经网络结构,它能提高准确性和计算速率。基于GPU的并行结构允许更快的机器学习培训体系,远远优于目前广泛使用的基于CPU的数据架构。此外,通过额外的显卡网络,GPU体系可以加快迭代,实现更为精确的快速培训。   *基于GPU的云运算 芯片浮点能力发展之快可以以NVIDIA GPU(GTX 1080)为例:该芯片性能为9T浮点运算,价值约700美元,也就是每G约8美分。参考1961年的IBM 1620,不考虑浮点运算能力的话,通过串联实现的每G浮点运算需耗9万亿美元。 智东西也曾在102期智能内参中强调GPU的市场前景,并分析市场份额。相比于CPU,GPU 具有数以千计的计算核心,及强大、高效并行计算能力, 可实现 10-100倍应用吞吐量,特别适用于AI 海量训练数据情形。目前深度学习解决方案几乎完全依赖 (NVIDIA的)GPU。   *超级计算机浮点指数增长趋势   *千兆次浮点运算所需成本变化趋势 3、算法不断优化 大公司推动开源 越来越多的算法研究推动着深度学习的实用性,伯克利、谷歌、Facebook也纷纷公开自家的源代码框架,也就是Caffe、TensorFlow和Torch。源代码的开放吸引着越来越多的软件开发者尝试新的算法,不到一年,TensorFlow就以及该形成了一个活络的存储库GitHub,作为目前最大的开发商合作网站。当然,并不是所有的AI都出自于开源框架。   *AI进程时间表 AI产业的三大类布局 从技术更新周期来看,过去50年,计算机在摩尔定律的推动下不断进步,仅仅在系统框架方面,计算能力、存储容量带宽、编程语言转换都有很大的进展。参见90年代技术变革带来的经济繁荣,推动了软件、硬件、网络公司的整改。公共软件公司1995至今市值从2亿美元暴涨到5亿美元,只有2000年左右趋于平缓。显然,AI也有这样的趋势,引领硬件、软件、数据和服务提供商等领域的增长。事实上,谷歌、亚马逊、微软和Salesforce自2014年来就已经完成了17起AI相关的收购。   *2014年以来的AI相关收购项目   *AI风投增长趋势 目前,科技大佬和风投人主要关注的有三个方面:DIY,也就是自主建立自己的人才和数据库,推出新的AI栈,主要玩家包括微软、谷歌、亚马逊和百度;咨询服务,为垂直和特定的领域提供专业的AI咨询,如IBM的沃森;开发服务型AI(AI-aaS),如谷歌图片识别模型。   *人工智能系统框架示意图   *AI栈的演化 1、DIY趋势:云平台和开源 高盛咨询了各大公司和风投机构,总结认为,AI或者机器学习(ML)将被互联网公司大量的使用,这就需要有效数据收集和相关人才稀缺。不过,随着移动互联设备和物联网的普及,数据量越来越多,数据收集变得越来越容易。 目前,AI堆栈与其他前沿技术最大的区别在于,大部分的机器学习严重依赖于开源技术和基于云平台供应商的服务。这是因为,AI和ML需要大量数据支持,并且按需计算。目前,AI主要的基础技术投资都来自于微软、谷歌、亚马逊等云服务提供者,其中,云运算的首选是GPU和FPGA,它们能够进行并行的,快速的数据处理。很多公司都会购买这些开源或者云服务来帮助开拓客户,减少运营成本。   *主要的开源项目

李飞飞北京演讲:AI会改变世界,改变AI的又会是谁?

AI科技评论按:2017年1月15日,李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼,发表名为《视觉智能的探索》 (The  Quest  for  Visual  Intelligent)演讲。李飞飞教授分别从四个视角讲述了她眼里的AI,提到她加入谷歌后从事的几项工作,并致力于推动AI的多样性发展。AI科技评论根据其现场演讲,精编整理成本文,由宗仁和亚萌共同编辑。 大家下午好!我非常荣幸看到在这个历史性时刻,中国正在庆祝它在科学和创新领域的进步。今天我来到这边是作为人工智能的学术圈一员,我想跟大家分享一下视觉技术方面最新的进展。 | 作为社会整体,我们依然是盲人 大概5亿年前,有一些非常简单的生物生活在一片非常大的海洋当中,它们等待着食物的到来,或有时也成为别人的食物。那时的动物王国非常简单,后来可能是出于偶然,最早期的一些动物出现了眼睛这种器官,这些动物的眼睛其实还是非常简单,它们就像古代中国“小孔成像匣”一样初级。在视觉发展之后,动物才变得更加积极,尤其是在猎取食物时,它们可以自发进攻,它们也会寻找更隐蔽的地方躲藏起来,避免自己成为它人的食物。 之后,在一段相对较短的时间内,地球上的物种得到了非常丰富的发展,这也是视觉进化引发的“寒武纪大爆发”。寒武纪大爆发之后,视觉就在动物中发挥着非常重要的作用,帮助它们行动、寻找食物、躲避敌人等等。作为人,我们也是一样的,我们也用视觉支持我们的生活、我们的工作、我们的交流,让我们更好地了解世界。 事实上,在5亿年的进化当中,视觉已经成了我们人最重要的感知系统,我们的大脑中有超过一半都是和视觉处理联系在一起的。虽然,动物在5.4亿年前就看到了世界的光明,但是直到如今我们的机器和计算机所面对的还是“黑暗时代”。我们如今到处都有监控器,但是如果监控器拍到一个小孩落水了,它也并不知道发生了什么事情。 每一分钟,都有成百上千个小时的视频上传到Youtube和Facebook的服务器里,但是我们还不能根据视频的内容来进行搜索;无人机也可以飞翔在广袤的土地上,但我们还不能根据无人机镜头捕捉到的绘制出地貌。 总的来说,我们作为一个社会整体,是个盲人,这是因为我们的最智能的机器还是盲人。 作为一名计算机视觉科学家,我们致力于开发出能从视觉世界中学习AI算法,识别出图片、视频里的内容,最终为数字世界带来“光明”。 | ImageNet的诞生:从孩子获得灵感 为了实现这样一个目标,首先我们要教计算机识别物体,物体是视觉世界的基础物件。我们给计算机一些特定物体的训练图像,比如猫的图片样本,然后设计数学模型,让机器从这些训练图像中学习。 在早期物体建模中,我们用数学语言,告诉计算机这只猫由不同形状组成(例如圆形的脸、三角型的耳朵等),但是还有很多的图片里的猫,它们摆出各种奇怪扭曲的姿势,这时猫身体的各个部位已经不是规则的形状了,这时要怎么办呢? 所以,为了让不同的猫都能被计算机识别出来,我们需要设计不同的模型,但这样大量的工作真得会把人逼疯,所以研究就陷入了困境。很多年来机器视觉领域的很多科学家,都想找到一个神奇的算法,可以对同一个物体的不同“变种”进行建模。 大概8年前,一个简单但深刻的发现,改变了我的思考方式,那就是从小孩学习的过程中得到灵感。孩子在学认猫的过程中,并没有被告知猫是各种形状的组合,他们只是根据过去的经历习得。如果把小孩的眼睛当做一对生物摄像机,它每秒钟都要看至少5张猫的图片,到了3岁时,一个孩子已经见过数以亿计来自真实世界的图像。 所以在我们专注于找出最佳的算法之前,我们应该为计算机提供跟孩子一样多的训练图片。所以,这时,我们需要采集数据,采集比以往多得多的图像,这个数量将是以前的几千倍。 所以,我和普林斯顿大学的李凯教授、当时的学生Jia Deng一起,启动了ImageNet项目。 我们在网络上找到了很多图片、很多数据,网络是汇集人类所拍照片的最大宝库。经过3年的辛勤工作后,2009年ImageNet正式交付,其中包括1500万张图片和22000类物体,并用日常英语单词组织起来,这在机器学习和视觉领域,从数量和质量来说都是史无前例的。我们比以往,更加准备好了去解决计算机视觉领域的问题。 而这,就是从一个孩子的视角出发得来的。 | ImageNet完美匹配的算法:CNN 事实证明,ImageNet提供的充足信息,能够完美匹配某类机器学习算法,就是“卷积神经网络”,由1970年代和80年代的计算机科学家提出。 卷积神经网络受人脑启发,其中的基本运算单元,是类似神经元的节点,节点能从其它节点接受输入,并输出到其它节点,而且,这成百上千的节点,会分层有序地组织连接在一起。 这是一个非常经典的用来训练物体识别的卷积神经网络模型,它大概有2400万个节点,1.4亿个参数和150亿个连接。ImageNet提供的海量信息,加上现代CPU和GPU来训练如此庞大的模型,卷积神经网络的快速发展超出人们的想象,它成为了非常成功的算法,在物体识别方面取得了令人欣喜的成果。   在一张图里,计算机告诉我们这张照片里有一只猫以及这只猫在哪里;这另一张图里,计算机告诉我们,一个小孩拿着他的泰迪熊。 如今,计算机取得了巨大的进步,然而这还仅仅是第一步。很快,另一个发展里程碑就会达到。孩子会开始用句子来交流,比如看到这张图片,一个小孩会说“一只猫躺在床上”。而计算机也一样,所以要教电脑看懂图片,并且用一句话来描述它。我们需要用到神经系统,并且把神经系统推向一个高度,我们需要把视觉信息和文本信息结合起来,并且让它生成出一个具有意义的句子。 大概是一年半之前,我们与世界上其它几个实验室进行了合作,创造出了第一个根据图片讲故事的计算机视觉算法。 计算机在看到图片时说出了一句描述:“一架大型飞机停在机场跑道上”。 当然,相比三岁的孩子,计算机的发音没有那么可爱。这种看到一张图,产生一句描述语的叫做“Image Capturing”,而且我们将这种能力扩展,使得计算机可以根据一张图片,产生很多句描述。最近,我们提交了一篇论文,计算机通过算法,针对第一次看到的图片,而自动生成出完整的一大段的自然语句。 总之,得到大脑的启发之后,我们发现深度学习的算法和公式能够帮助我们做一些视觉方面的检测,而这就是从大脑的视角得来的。 | 我在谷歌的一些工作 在卷积神经网络和深度学习技术得到如此大的发展之后,我们也开始把焦点转向其它一些领域,尤其是视频。我们要看看,图片中学习到的东西能否复制到视频领域中去,让真实世界从中获益。我们的实验室和谷歌YouTube团队合作,把YouTube上100万个运动相关的视频样本抓取出来,它们分别属于450种运动类别。我们希望有一天这样的技术能够帮助我们去管理、索引和搜索大量的视频和图片。我们已经可以让计算机自动对屏幕上的体育项目进行分类,这里包括各种各样的体育项目,武术、篮球、帆船运动等等。 最近我们的实验室,联合谷歌和Facebook一起进一步扩展了我们工作的范围,不仅仅能够让机器识别出运动的类型,而且可以看看单个队员做了哪些事情。我们来看NBA的篮球,机器可以追踪每个队员在重要事件中的表现,譬如三分球投篮成功等。 我们拿了一些安全监控视频(比如医院里的),通过深度传感器的视频来进行分析应用,识别出当中人的姿势和动作,这个是非常有价值的。 我们和欧洲一个火车站进行了合作,将成百上千个视觉传感器安装在公共空间,利用这些计算机的传感器来追踪乘客的行动,火车站有数百万的人流穿梭,通过这样一种监测可以帮助优化火车站的空间,调整火车发车时间表。 最近我们利用了深度学习、CNN和RNN,让机器学习如何预测人类行为的轨迹,这样一个工作能够把我们前边所讨论的结合在一起。算法不仅有IQ,可以识别出人,而且它也有EQ,来做出被人类社会接受的行为。比如当它用来规划一个机器人的行为轨迹时,就该知道机器人不应该干扰人,或者机器人在一个空间行走时,不能冲进人群里。 我们利用所有这些技术和现实中的情况结合,现在我们和斯坦福医院合作,部署相关技术,可以提高他们手卫生和工作流程,不仅是在工作场所,在家也是。 总而言之,作为一个技术人员,看到计算机视觉算法正在帮助解决现实生活中的问题,真的让我感特别兴奋,这是一个技术人士的视角。 | 推动AI多样性的三个理由 大概是5亿年前,动物视觉和智力面临的挑战就是让个体存活,而如今,机器视觉和AI所面临的挑战就是让人类能够繁荣。作为技术人员我们要问,AI将会成为一种摧毁力,还是能给我们带来更好的世界?我思考这个问题很久了,最近我突然顿悟,AI的未来掌握在那些创造、开发和使用者的手中。无疑的,AI会改变世界,但这里真正的问题是,改变AI的又是谁呢? 大家都知道,世界各地都是缺乏多样性的,包括美国的硅谷、中国、欧洲等,还有很多其它区域都缺乏多样性,在美国学术界只有25%的计算机专业人士是女性,不到15%的美国顶尖工程学校的教职员工是女性,对于少数族裔来说,女性的代表就更少了,这一不平衡的现象在工业界也同样存在。这并不是工作文化问题,这实际上是经济和集体财产的问题。 几个月前我受邀到美国白宫讨论了AI中多样性的必要性,我提出必须提高AI多样性的三个理由。第一个理由关乎经济和劳动力,AI人工智能是一个日益增长的技术,会影响到每个人,我们需要更多人力开发出更好的技术;第二个理由关乎创造力和创新,很多研究都显示出,当拥有多种多样背景的人共同合作时,会产生更好的结果和更具有创意的解决方案;最后一个理由,关乎社会正义和道德价值,当各种各样背景的人聚集到一起时,他们有着各种各样不同的价值观,代表着人类的技术也会有更加多样性的思考。 视觉和智能的发展造成了动物多样性在5亿年前大爆炸式的增长,现在如果我们能够让更多的人参与到AI教育和研究当中,我们可以鼓励更多技术多样化的发展,这样我们会看到寒武纪技术上的大爆炸,使我们的世界变得更好。 这是一位教育家和一位母亲的视角。 谢谢各位!

Skip to toolbar