李德毅院士:人工智能在奔跑

来源:观察者网
2016-09-26 15:39:36

李德毅院士:人工智能在奔跑

【AlphaGo战胜李世石,靠的是穷举的计算能力?不,是靠“深度学习”了一天就能下300万盘棋积累下的经验。李德毅老师的团队也正在以算法大数据的思路,打造“主要靠经验”的人工智能“老司机”。他在4月22日的全球人工智能技术大会所作的《人工智能在奔跑》演讲,二十二次说到“记忆”这个词。】

各位同行,我很高兴下午做第一个发言。我的题目有点大,叫人工智能在奔跑。因为人工智能经过60年的历练已经到了可以奔跑的时候了,我想讲三个问题。先讲讲围棋脑,然后再讲讲智能车驾驶脑,然后再讲讲决策脑,作为人脑最重要的部分怎么做决策。

先讲讲围棋,围棋其实是中国的文化遗产,中国的围棋在全世界很有名。就跟中国的乒乓球一样有名,但乒乓球是舶来品,围棋是我们中国人的。现在围棋最好的是中日韩。围棋是谁把谁围住了谁就赢,所以我出了一个题目,叫做形象思维的自动化。下象棋大家都知道主要是吃子,有大小之分。围棋就不一样了,围棋的子没有大小之分,象棋是八分八的棋盘。我想特别回顾一下历史,在2011年9月6号,我们中国人工智能学会组织了九路围棋,81个格子,让北邮的围棋程序Lingo对俞斌,让俞斌让两个子给Lingo,他说不好赢。在2011年的时候包括中央电视台也播了,俞斌是我们中国围棋队总教练,我们的围棋在世界上可以说是稳拿的,两盘都败给了Lingo,当时认为两三年九路棋盘是有希望的。这是五年前的事情,只不过我们中国人工智能学会影响不那么大,全世界不一定都感知到了。

到了2016年3月9号,李世石下了19路围棋,而且最后4:1输了。为什么?难在哪里?围棋难以锁定下一个目标,具有更大的不确定性。我有一篇著作叫做“不确定性人工智能”。围棋的不确定性比象棋大很多,象棋更注重逻辑思维,围棋在某个状态下应对的步骤比象棋多很多,既有逻辑思维也更注重形象思维,更大局观。

我们看看在《自然》杂志上,20个作者写了AlphaGo的程序,他们采取的办法。这篇文章里提到一个特定的围棋棋局,有很多的计算量和推理量。我们中国人有一句话叫做千古无同局,所以历来把它认为是给人工智能一个挑战的很好的里程碑。那么我们仔细分析一下,AlphaGo为什么赢?这是我今天要报告的重点。它突破了传统的程序,构建了两道模仿人类思维的深度卷积神经网络。第一个网络主要担当棋局态势的评估,第二个网络是如何落子,这是人机大战,如果你知道每一步怎么下的,你会得到一个结论,那就是没有看到有天外来客下出不食人间烟火的套路。这句话告诉大家AlphaGo的学习能力很强,因为它是我们围棋手教他的。

所以在全世界一片振动之后,我提出四个问题请大家思考一下。

第一个问题,如果让AlphaGo或李世石再下一次复盘,让李世石原来怎么下还怎么下,请问AlphaGo能不能复盘,能下出跟原来一样的吗?它是以不确定性为强的,能不能重复?这是第一个问题。

第二个问题,在比赛之前以及比赛之后,这个程序变了没有?还是原来的程序吗?我们手机坏了实在不行重新启动,还是原来的。AlphaGo的程序还是原来的吗?它跟李世石下了五盘棋学到了什么东西。

第三个问题,跟李世石下棋之前,AlphaGo跟别人下过,如果用相同的版本对比的话结局如何?还有没有意义?能不能提高AlphaGo的水平。

第四个问题,让AlphaGo从此以后不再跟高棋手下棋,AlphaGo的程序水平会不会降低?

我觉得这几个问题可以让我们人工智能工作者稍微多想一下。其实在我们眼里李世石只是充当了一次人工智能发展成果的测试员而已,他对我们来说只是我们测程序的一次科学实验而已,是一个人与一群人的对决,包括棋类高手又包括人工智能高手。你们看deepmind的作者,他们不但是人工智能高手,也是围棋高手,是两个领域的能人,这个不容易的。所以我们经常讲什么叫人机大战,人机大战实际上是人在前面机器在后面,或机器在前面人在后面的一场对决而已。因此从统计学上来看人机大战总的结局应该是5:5。

下面讲AlphaGo程序还有很多的不足,比如说它下棋的时候还要有一个助理员拿棋子,它的手还没做出来,它没有眼睛,没有感受和行为能力。这个机器人一定要有它的感知能力、有行为能力,而它只有思考能力是不够的。再一个AlphaGo程序目前还没有情绪、没有情感,不能现场分析对手的心理状态,跟谁下都是一回事,不能够现场和对手展开心理战,缺少交互认知的能力。我想两条AlphaGo程序的作者也一定会同意的。

李德毅院士:人工智能在奔跑

AlphaGo的成功用了深度卷积神经网络,但是这个卷积神经网络有四个毛病。

第一,有太多的学习参数,就是今天上午各位讲的权重系数,这些系数的确定具有随意性。包括有多少个卷积和,怎么卷,怎么下载,这里面随意性太大。所以我们发现他们发表的文章我们做的时候恢复不了,文章主要的东西没写进去。

第二,你在学习的过程当中不能进行你的数据样本很大,就能保证算法是正确的,这个事情很糟糕。

第三,现在用的卷积神经网络更多的还是前面的,这是跟人类学习不一样的。

第四,现在用的对样本的学习是没有累积性的,我们人是有累积性的。

因此这四个缺陷是我们人工智能要想办法努力克服的。我个人认为深度学习不管是卷积神经网络还是其他的神经网络学习方法,都不能是人工智能的终结者。尤其重要的是我们看到的人都是个性的,而AlphaGo程序目前还没有定位为个性的,我们需要的张三李四,世界上并不存在一个人类,人类是我们人的总称而已。

下面第二个议题,驾驶脑。因为围棋实际上在我看来应该是个围住和不围住的问题,在统计学里面是拓扑学的问题,充其量AlphaGo是拓扑学动力学的问题,如果把这个问题引入到其他领域要很复杂。比如说开车需要驾驶认知,汽车发明130多年了,走的正好是跟围棋相反的道路。先走的是行为能力,不管什么时候这个汽车都要能跑,这个很重要,这是汽车工业的骄傲。我们做了几百辆车还觉得太少,你能跑恶劣环境吗?所以在汽车上配置感知零部件,实现自动驾驶,是在车辆动力学和人工智能成立的基础上。现在我们做自动驾驶,我们觉得自动还不行,当你买了这个自动驾驶车回来之后,我会告诉你,你会不满意的,因为它时不时就说对不起,你请你转入人工驾驶。这次长安的车很多都要人工干预,这里面缺少了一个问题,光感知是不够的,一定要有认知脑。因此和围棋脑相反,我们现在走的是现有行为能力,感知能力,目前汽车还需要有认知能力,那就变成了机器人。我们现在希望做一个机器人,是汽车上比较集中的目标。说得再挑战一点,我们希望做一个飙车机器人,假如飙车机器人跑的比人类快,那就更加全面了,就不单是脑子的问题,还有感知和认知的问题了。

现在智能驾驶系统很烦恼,因为是离线辅助驾驶。我写了一个报告,叫最后的繁荣和转型之路。因为你做了那么多的中控设备,显示设备,将来汽车要自己会自驾驶了,这个行业,这个工业怎么办?转向自动驾驶。但是我刚才讲了目前的自动驾驶是局部时段,局部区域,能满足驾驶的范围很小。自驾驶说得更多一点是无人驾驶,或者自助驾驶。我们昨天科技部进行了重要的答辩,用了以人为本的人机系统共享,不是单纯的由人驾驶,也不是单纯的由马驾驶,而是共同的协调驾驶。

既然需要一个驾驶脑,我们就要考虑人脑有哪些功能,需要驾驶脑来承担。我们认为记忆一点不亚于计算,尤其是长期记忆、短期记忆,或者瞬间记忆,这个形态是不一样的,数据量也是不同的。现在所有厂家做的图像识别,基本上还是在瞬间记忆阶段。我们这个课题组不一样,我们把它做到行政化后面去了,这就是我们的特长。

把人脑中动机、学习和思维、性格、记忆,都用机器来实现,就可以做一个机器的驾驶脑。情绪注意力不集中就不要进来了,我们希望个性化还是要进来的。这样的情况下我们有了思想,既能有感知信息,把感知信息合并到一起大概三大类。第一块是路网文件,精确到10厘米左右。第二个是雷达通道,航天雷达、超声雷达,都叫雷道通道,也是个千里眼。再一个就是摄像头。这三个通道就好像人的感知器官一样,很重要,但是哪一路都有不完善的地方。它们都在完成定位、路权检测和导航的能力。定位就是我在什么地方,路权检测就是周围有什么,导航就是下一步怎么走。定位里面最重要的就是同步定位和映射,这个要做得好智能驾驶就好了,现在最难的就是这块。周围有什么我们用我们的行政化的方法,此时此刻我周围多大的空间是我可以使用的。下一步怎么做就是方向盘了。

我们的课题组不仅做前面的视觉的感知深度神经网络学习,我们把这些叫做先视后觉。尤其要感兴趣的是视而不觉,边视边觉和先觉后视。我多次讲驾驶脑对路边的美女是不用看的,我们强调要记住当前的感知,已有的认知对当前的感知起重要的作用。因此我们在驾驶脑里面有视图仪表,通过长期的记忆,工作记忆和瞬间记忆,来记忆不同时间了解交通的信息,最后形成一个动作的执行,这就是我们说的感知、认知、行动,再感知、再认知,再行动。

其实跟下围棋相比,驾驶活动更多的是技巧,是记忆或经验。而不是知识、推理和计算。驾驶脑的差异反映个人智力和运动能力的差异,一个孩子从小就看得出他有没有跳芭蕾舞的天赋,其实开车有是大同小异的。为什么两口子开到最后发现一个人更会开,他的小脑比另外一个人要发达一点。

我们这十年用了很多的时间让我们的程序员一边开车,一边调程序,调的很辛苦。在过程当中我们慢慢的悟出了一个真理,真正能够叫机器人开车的不应该是程序员,应该是驾驶员。有今天的驾驶员长期互动,已经把车同化为人体的一部分,成为与身体无缝对接的真实外延。因此机器人驾驶脑在驾驶员开车时形成一个脑和机器融合在一起的,实现一个梦想。这是我们最近几年的追求。

我们原来的驾驶脑里面有一个工作总线,还有调试总线,现在我们把调试总线开展为自学习总线,完成统计学习和进化学习,研发有个性的智能车。一旦当前的认知与过去经历的记忆进行了混合对比,驾驶脑便能对不确定的未来做出合适的决策,完成大脑的创造性,运动的灵巧性,以及对车无穷无尽的过程。这个过程太重要了。这个自学习非常有意义的是和AlphaGo围棋的深度学习网络非常一致,是一个评估网。我们这个叫自学习操作网。我们将驾驶员对油门、制动、方向盘的操控量增加为一个认知箭头,箭头拐弯多少表示你拐弯多少,油门和刹车只能取其中之一,用两个颜色表示出来。因此我们把驾驶员的动作变成一个箭头,通过一个驾驶态势图图像化。这样就变成了人工驾驶的时候经常出现的问题,如果能通过深度学习形成一个驾驶记忆的话就好了。当然人的学习一个很重要的是在错误中学习。我们同样把一次次的驾驶事故也形成了事故记忆。驾驶脑利用搜索配备引擎,实时在记忆当中搜索,自己找到或者推理求出符合当前驾驶态势的认知箭头,学以致用,形成控制指令的输出,克服了宏观认知的形式化困难,细分了约束期间,通过大量微观认知的形式化,降低了形式化的难度,缩小了在线推理范围。我的报告值得的就是这四句话,克服宏观的形式化困难,通过大量微观的形式化降低难度,缩小推理范围。

比如说现在有一个有经验的驾驶员在开车,人工驾驶。他通过他的视觉形成对他驾驶态势的判断。而在这同时我们也要感知系统也在工作,而且形式化驾驶态势图。驾驶员的操作他的态势是在他的头脑里面,但是他的操作我是能感受出来的,我就画出一个箭头,把当前的驾驶态势和驾驶员操作的结果变成一个图,叫做驾驶态势人质箭头图堆。如果从首都机场到天安门30分钟能到,我用36000个认知箭头变成36000个图堆,用深度学习加成了驾驶记忆。下次开车的时候人没有了,机器在开车,机器根据当时感觉到的驾驶态势,通过搜索来解决推理问题,形成了一个驾驶认知的箭头输出。然后再把这个箭头变成方向盘,这就是我们的高招。这就是我们最骄傲的地方。

最近我们已经把这个大数据都采来了,我们现在正在做深度学习,如果有哪位跟我们合作我们很高兴,可以把我们的大数据库给你,我们一起来做这个深度学习。

通过深度学习实现自学习,也就是统计学习或进化学习。当然一个人开车过程当中遇到了几次小磨小蹭,甚至遇到几次比较大的事故你终身难忘。机器人要吸取教训,同样我们在这样的情况下,采用这样的箭头,造成的事故形成一个事故记忆,下次机器人开车的时候又遇到了这个态势图,找到了事故处置的时候怎么造成事故的,这个箭头是万万不可用的,于是我们就有了事故指引。如果你的车上有事故记忆,当你做错误操作的时候能切断你,你肯定是会高兴的。同时怎么做到的呢?一个就是驾驶态势工作总线,一个是自学习总线,基本上是感知板块、认知板块、交互板块、自学习板块,但是它们之间并不乱,尤其是工作总线带宽我必须保证。而学习总线上我们就可以学到这个图的方法,形成驾驶记忆。然后把这个对汽车的操作放到汽车的线上去。

驾驶脑成功的关键是驾驶认知的形式化,如果说我们做得比较好的话还能拿个冠军,我认为我们的工作起了核心的作用。深度学习站在全球人工智能的风口,普遍把卷积神经网络用于点云图样式,感知架构的自学习。而我们却另辟蹊径,把卷积神经网络用于形式化之后的驾驶态势图,这就大大的减少了数据量,大大的简化了图里的实效,我们认为这里还有一点创新之处。回顾十几年来我们参加的比赛曾经迷惑过、迷盲过,试来试去,换车、换平台、换电源、换模块。通过多车交叉检验,尤其是2015年我们的联合课题组实现了交叉验证、常态实验。我的模块在你的车上试,你的人到我的组里来。形成了全新的设计图,这是北京到天津的,这是18米绕桩的。还有无人驾驶的,我们是全程无人工干预,到开封不到40公里的过程。我们现在正在做宇通大客车在场区内部的通勤。

下面我们讲讲第三个内容,决策脑。人在认知方面最终要做的不管多么复杂,其实就是做还是不做,是决策的问题。无论你有多少知识,多快的推理,多高的情商,多么善于沟通,最终反映出来的是选择,所以《哈利·波特》里有一句话,决定你成功的,不是你的能力,而是你的选择归根到底就是决策的能力。生命科学家要把我们的大脑搞清楚,有多种的组织组成。通过核磁共振将人脑分为166个区加以研究,只研究大脑某一部分的时代离我们越来越远,我们更重要的是研究它们之间的关联。生物学家们企图造出一个人工的干细胞,我认为挑战也是蛮强的。我们物理学家跟生命科学家有点不同,我们因为对生命科学了解的不如人家深,但是我们非常关注脑认知的七个大块,其中好几个都是微观、宏观,进行神明科学的研究。而我们这些搞理工和IT的人,觉得应该用物理学的方法,语言、知识、文明、传承,都是后天学习的。包括驾驶在内的所有的技巧,他们的原材料都来自客观世界,因此我们要研究人脑成长和认知的社会性。给我们提供了很多的方法,我们如何在信号,甚至在符号,甚至在行为,来研究人的智能是很重要的。多年来我们创造了定义概念和定量数据,我们提出过云模型,数据场,今天我们又提出了驾驶脑,还有其他行业专门支持的功能脑。我们认为这些方法解决不确定性因素是最有效的。需要我们学科的交叉融合。但是生命科学和物理学都是很有个性的学科,要把它交叉进来也很难。

我们强调记忆认知、计算认知、交互认知,三位一体。其实记忆有时候比知识更重要。广义知识驱动的智能难在形式化,碎片化和狭小区间形成的形式化相对比较容易,在认知过程当中人脑神经的交互也是不或缺的。因此我们提出多层次的认知网络,客观技术的局限性。60年过去了,我们设计了一个logo来纪念人工智能60年的光辉历程,我们认为人工智能奔跑的时代是一步一步走过来的,尤其是在今天移动互联网的支撑下,人工智能走到了人们关注的焦点上,如果说人类围棋手一生也许只能参赛1000盘棋,而AlphaGo一天就能下300万盘棋。从这个意义上讲计算机的围棋脑的智能程度超过人。因此我主张对人工智能要有点敬畏之心,不要说它是弱智能,我觉得还是要有一点敬畏之心。围棋本质上是动力学的问题,假如把棋盘扩大一倍,变成38道,哪个赢得快,我作为程序员我觉得围棋脑快,人可能觉得脑子不够用。

我们人工智能学会组织的围棋比赛是九路,当时只是一个电脑笔记本,今天人家用了170个GPU,1200个CPU来比的。驾驶员一天开八小时车,他不可能永不疲劳的跑。而驾驶脑可以做到,驾驶通过自学习可以会聚多人的驾驶认知,远远高于单个驾驶员驾驶技巧的速度。我对北京的道路很熟悉,但是我还可以把它变成天津的道路,一个人要既熟悉北京的所有道路又熟悉天津的,不是一天的事情,但机器脑完成的比较快。所以智能很重要,可以战胜人类的优秀个体,我是这样看的。就是驾驶脑开得比你好,是可能的。人工智能的核心不仅仅是算法,这是我们传统的看法,传统的认为什么叫软件,等于程序加数据,认为程序是最重要的,把数据放到程序里,形成人工智能。今天在大数据的情况下更重要的是学习,要让程序放到数据里面去,形成数据驱动的人工智能,用记忆认知、技术认知和交互认知形成决策脑,展现出当前人工智能井喷的局面和灿烂的前景。

我们可以构筑驾驶脑、围棋脑、翻译脑等等,哪怕不具有组织机构,但在宏观上并不亚于个别人的情商和智商。用人工智能构建千千万万的认知脑,并通过移动互联网、云计算,就可以倒逼一脑万用的人造生物脑。这就是说为什么我们对人工智能要有一点敬畏之心。

在我们的星球上围棋和汽车都是人类的发明,而且我们要迎来机器人新人类,围棋机器人要发展成为人类的伙伴,他们有智慧,有个性,有行为能力,甚至还有情感。机器人给人类带来的影响将远远超过计算机和互联网在过去几十年间,已经对世界造成的改变。人类的发展史,就是人要学会运用工具,制造共聚合发明机器的历史,科技不停步,人类永不满足。智能手机可以成为你的助理,曾经的很多工作岗位都将被机器人替代,但同时又自然的涌现出新的工作岗位,人类将更加优雅智慧的生活。人类善于更好的调教帮助机器人,利用机器人的优势,弥补机器人的不足,用新的机器人淘汰旧的机器人。反过来人类也找到了利用机器人提升人类的智慧和能力和方法。因此机器人一定会让人类自身更智能,各色各样的机器人为我们迎来了人与机器人共舞的新时代,人类始终是领舞者,谢谢大家。