「深度」Facebook对深度学习的追求：让机器理解我们

2015-08-12 12:12

雷锋网的读者应该对人工智能并不陌生，但要了解它的历史，我们得先回到1995年。
彼时，一名年轻的法国人Yann Lecun花了10多年时间做一件事：模仿大脑的某些功能来打造人工智能机器。这件事在许多计算机科学家看来是一个坏主意，但Lecun的研究已经表明，这种做法可以造出智能而且真正有用的产品。
在贝尔实验室工作期间，他开发出了一些模拟神经元的软件，通过读取不同的例子来辨识手写文本。而贝尔实验室的母公司——AT＆T，也用利用这门技术，开发出了第一台可以读取支票和书写笔迹的机器。对于Lecun和人工神经网络的信徒们来说，这似乎是一个新时代的开始，标志着机器可以学习以前仅属于人类的技能。
只是对于Lecun而言，这项成果取得成功之时也是这个项目走向尽头的时候。为了开拓不同的市场，AT&T宣布分拆成三家不同的公司。他们打算让Lecun做一些其他的研究，于是他离职去了纽约大学任教职。与此同时，其他地方的研究人员也发现，他们无法把Lecun的突破应用于计算问题，随后人们对于将大脑模拟的方法应用于AI研究的热情也逐渐开始减退。
虽然对于现在已经55岁的Lecun而言，他从来没有停止探索人工智能的步伐。在被无情拒绝了20年有余后，Lecun等人终于在人脸和语音识别等领域取得了惊人的成就。如今在科技领域人尽皆知的深度学习，已经成为Google等科技公司新的战场，他们急不可耐地想将其应用于商业服务。Facebook在2013年聘用了Lecun，让其管理由50多人组成的人工智能研究团队——FAIR。对于Facebook而言，Lecun的团队是其第一笔基础研究投资，可能让公司从社交网络的定位中走出来，并且很可能会让我们对机器能做的事情有重新的认识。
雷锋网多次报道，Facebook等公司在近几年急不可耐地投身于这一领域，主要是因为在计算机识图等领域，深度学习技术比之前的AI技术要先进得多。在以前，研究人员需要编写大量的程序来赋予机器能力，例如侦测出图片中的线条和直角。但深度学习软件则能自己理解和利用数据，不需要借助这种程序。基于这一理论开发出的一些程序，精确度已经可以和人类相媲美。
现在Lecun在研究更加有力的东西，他打算赋予软件完成基础对话的语言能力和常识。在进行搜索时，我们可以直接告诉机器我们想要的是什么，就像和人交流一样，而不用小心思考要输入检索的内容。深度学习让机器拥有了理解和交流的能力，能辨明和回答问题并且给予我们建议。其应用之一就是可以理解我们的要求并代替我们预定餐馆，并且很有可能对游戏行业产生变革。
在Lecun看来，这些系统不仅要能帮人类完成任务，还需要知道为什么。现今的搜索引擎、反垃圾系统以及虚拟助手还做不到这一点，他们大多数只是通过关键词匹配等技术来完成任务，而忽略了词语出现的顺序。以Siri为例，它只是在几类应答库中搜索符合你所提要求的内容，但实际上它并不能理解你说的到底是什么意思。而像此前在Jeopardy游戏中战胜了人类的IBM大型机Watson，则是通过高度程序化的规则来掌握语言能力，但其无法应用于其他情境。
相反地，深度学习的软件可以像人类一样掌握理解语言的能力。研究人员试图让机器拥有理解词汇的能力，Lecun等人开发出的系统，可以在阅读一些简单的故事后回答问题，进行逻辑推理等。
但是Lecun等人深知，人工智能领域总是雷声大雨点小，人们起初认为可能取得巨大的突破，到最后可能只是小小的一步。要想让机器处理复杂的语言问题可比图像识别要复杂得多，毫无疑问，深度学习在这一领域大有作为，但它们是否能真正掌握语言并改变我们的生活，还是一个未知数。
深度的历史
如果要追溯起来，深度学习的历史远早于Lecun在贝尔实验室的工作的年代，他和其他人实际上只是复活了一个长眠已久的想法。
时间回到20世纪50年代，为了探讨智力和学习是如何产生，以及信号在大脑的神经元之间是怎样传递的，生物学家们提出了一些简单的理论。其中核心的观点就是，如果细胞间总是频繁地交流，那么神经元间的联系会加强。在有新的经验产生时，这种传递会调整大脑的结构，以便在下一次经历相似的事情时让人产生更好地理解。
心理学家Frank Rosenblatt 在1956年使用这一理论，结合软件和硬件对神经元进行了模拟，他开发出的一套“感知器”可以对图片进行简单的分类。虽然他是在笨拙的大型机上实现的这一想法，但他奠定了如今人工神经网络的基石。
他造的这台计算机由大量的马达和光学监测器相连，一共拥有8个虚拟的神经元。首先，监测器会侦测图片的光学信号，并将信号传递给神经元。这些神经元在获取到监测器传递的信号后，会对其进行加工并返回出一个值。借由这些值，机器能 “描绘”出其“看到”的东西。一开始的测试结果很糟糕，但是Rosenblatt 使用了一种高级学习的方法，使得及其可以正确区分出不同的形状。他在向机器展示图片的同时，也会告诉其正确答案，之后机器会对输入的信号进行判别，计算出如果要得到正确答案，各个神经元的信号权重是多少，并进行再分配和纠正。在重复了大量例子之后，机器可以识别出从来没有见过的图片。现今的深度学习网络使用了更加高级的算法，并且拥有数百万个模拟神经元，但训练方式和之前是一样的。
Rosenblatt 预言，他的感知器将有广泛的应用，比如可以让机器用名字和人问候。如果人们能实现在神经网络的多个层间传递图片和信号，则可以让感知器解决更加复杂的问题。不幸的是，他的学习算法在多层领域并不奏效。1969年，AI领域的先驱Marvin Minsky更是出版了一本书，把人们对神经网络的兴趣扼杀在了摇篮里。Minsky声称多层面并不会让感知器更加有用。于是AI研究人员抛弃了这一想法，取而代之的是使用逻辑操作开发人工智能产品，而神经网络则被推到了计算机科学的边缘地带。
当1980年Lecun在巴黎念书时，他发现了之前人们的这些工作，并惊讶于为什么会抛弃了这一想法。他在图书馆寻找相关的论文，最后发现在美国有一个小组在研究神经网络。他们研究的内容是Rosenblatt遇到的老问题，即如何训练神经网络，让其坚决多层问题。这份研究有些“地下工作”的意味，为了不被审稿人拒稿，研究人员尽量避免使用“神经”、“学习”等字样。
在读到这些之后，Lecun加入了这个团队。在那里他认识了现在任职于Google的Geoff Hinton，他们一致认为，只有人工神经网络才是构建人工智能的唯一途径。此后，他们成功开发出了应用于多层面的神经网络，但是其适用性非常有限。而贝尔实验室的研究人员则开发出了另一套更加实用的算法，并很快被Google和Amazon等公司应用于反垃圾和商品推荐。
在Lecun离开贝尔实验室去了纽约大学以后，他和其他研究人员组成了一个研究小组。为了证明神经网络的作用，他们不动声色地让性能强大的机器学习和处理更多的数据。此前Lecun的手写识别系统由5个神经元层构成，现在则加到了10多个。到了2010年后，神经网络在图片分类等领域打败了现有的技术，并且微软等大公司开始将其应用于语音识别。但对于科研人员来说，神经网络还是很边缘化的一门技术。2012年的时候，Lecun还写过一封匿名信对此痛斥一番，因为他们的一篇介绍神经网络新记录的文章投稿被一场顶尖会议给拒绝了。
6个月以后的一件事情，让一切都发生了变化。
Hinton带着两个学生，参加了一场机器图像识别比赛，并在大赛中取得了傲人的成绩。他们在比赛中所用的网络就和之前Lecun开发的支票阅读网络类似，在这场比赛中，软件要辨识超过1000种各种各样的物品，而他们的这套系统辨识率高达85%，超过第二名10个百分点。深度学习软件的第一层对神经元进行优化，找到边角等简单的特点，而其他层则连续寻找形状等特点。Lecun现在还能回想起当时的情景，作为胜出者的他们拿出论文，仿佛对着屋子里那些曾经无视他们研究的人脸上狠狠打了一巴掌，而他们只能说：“OK，我们承认，你们赢了。”
经此一役，计算机视觉领域的风向很快就变了，人们迅速抛弃旧的方法，而深度学习很快变成了人工智能领域的主流。Google买下了Hinton成立的公司，开发Google Brain。微软也开始立项研究这一技术，Facebook的CEO 扎克伯格甚至也出现在神经网络的研究会议上，宣布Lecun在纽约大学担任教职的同时，加入到他们的FAIR团队中。

1993年Lecun在贝尔实验室，它旁边的电脑能识别支票上的手写数字
语言学习
Facebook的新办公地离Lecun教书的地方只有3分钟车程，在这里他和研究人员一道，尝试让神经网络能更好地理解语言。具体做法就是，神经网络来回检索文档，当遇到一个词时，预言该词前后的内容，再和实际情况进行判别。通过这样，软件把每一个词解构成了一组和其他词的关系向量。
例如，在神经网络看来，“国王”和“女王”这组词的向量关系，就和“丈夫”和“妻子”一样。对于一整句话来说，这种方法也可以奏效。一些研究成果表明，使用向量技术的机器在同义、反义词等理解测试上，甚至超过了人类。
而Lecun的团队还走得更远，他们认为，语言本身其实并不复杂，真正复杂的是对语言要有一个深入的理解，并对其拥有常识般的认知。举个例子，“小明拿着瓶子走出了房间”，这句话隐含的意思就是，瓶子在小明身上。鉴于此，在他们开发的神经网络上搭载有一个记忆网络，用来存储一些它已经学会的事实，每次有新的数据输入时，它也不会被清除。
Facebook的AI研究人员开发出了一套可以回答简单问题的系统，哪怕其中有些内容是它之前没有遇到过的。例如，研究人员给记忆网络一篇魔戒的梗概，让它回答一些简单的问题，如“魔戒在哪？”，虽然它可能在之前并没有遇到过“魔戒”这个词，但还是能够回答上来。如果它能够理解一些更加复杂的句子的话，那么将会有很大的应用。
然而，打造一套能够完成有限对话的系统已经耗费巨大的精力，更何况神经网络的推理能力很差，更不论制定计划。尽管研究人员还没有找到更高效的解决方法，但Lecun等研究人员对此仍充满了信心。
不过并不是每个人都如此乐观，西雅图一家研究机构的CEO Oren Etzioni就认为，深度学习软件现在只是展现出了语言识别最简单的那部分能力，他们仍缺乏逻辑推理能力，这和现在神经网络做的图形分类以及声波解析都有着天壤之别。此外，掌握语言也不是那么简单的事，因为在文本中句子的意思可能会发生改变。要让软件拥有语言能力，则需要它们像婴儿那样，没有明确的指示也能掌握句子的意思。
深度的信仰
在Facebook的CTO Mike Schroepfer 看来，未来他们希望能看到Facebook的系统与你进行交流，就像和一个人类管家一样。这套系统能够在更高的层面上理解语言和概念：比如你可以要求它展示一张朋友的照片，而不是他的动态。随着Lecun的系统掌握更高的推理和规划能力，这在短期内还是很可能实现的。此外，Facebook可能还会提供一些他们觉得你会感兴趣的东西，并且询问你的看法，最终让这个超级管家沉浸于信息的海洋之中。
不仅如此，这种交流算法的改进也可以提高Facebook过滤信息和广告的能力，这对Facebook想要超越社交网络的定位至关重要。随着Faebook开始以媒体的身份发布信息，人们就需要更好的信息管理方式，这套虚拟助手可以帮助Facebook实现这一野心。
如果深度学习再重蹈以前人工智能的覆辙，那这些可能永远都不会发生了。但是Lecun对此充满了信心，他认为有足够多的证据站在他这边，表明深度学习终将会带来巨大的汇报。让机器处理语言需要新的想法，但是随着越来越多的公司和大学加入到这个领域，原来小小的一片天开始拥有无限可能，这将大大加快整个进程。
究竟深度学习能不能实现Facebook预想的管家还不得而知，就算是真正能实现，人们能获益多少现在也还难以想象。但可能我们并不需要等太久了，他坚信那些怀疑机器深度学习语言能力的人们终会后悔。这和2012年以前一样，虽然事情出现了一些改变，但用老方法的人仍然顽固不化。也许再过个几年，人们就不会这么看了。
Via techreview

共有评论0条