AI最大缺陷是缺乏常识,LeCun一小时演讲精彩盘点

LeCun表示,深度学习的特点在于“整个程序都是可训练的”,监督学习存在两大问题

科技世界网     发布时间:2017-04-29   

近日,在台湾大学,卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun
以「Deep Learning and the Path to
AI」为题,对深度学习目前的发展现状和面临的最大挑战、以及应对方法进行了综述和分析。

一、无监督学习的重要性

AI 技术的飞速进步很大程度上是由于深度学习和神经网络领域的突破,还得益于大型数据库的建立和更快的
GPU。我们现在已有了图像识别能力可与人类相比的 AI 系统 (例如下文中
Facebook
的识别系统)。这会导致自动化交通,医疗图像解析在内的多个领域的革命。但这些系统现在用的都是监督学习(supervised
learning),输入的数据被人为加上标签。
接下来的挑战在于,怎么让机器从未经处理的、无标签无类别的数据中进行学习,比方说视频和文字。而这就是无监督学习(unsupervised
learning)。

6 月 29 日,台湾大学。卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun
以「Deep Learning and the Path to
AI」为题,对深度学习目前的发展现状和面临的最大挑战、以及应对方法进行了综述和分析。新智元结合台湾大学在
Facebook 上公布的视频、台湾科技媒体 iThome 的报道,以及 Yann LeCun
今年早些时候在爱丁堡大学的演讲资料,为您综合介绍。

二、神经网络的规模越大越好

传统的思想认为,如果你没有大量的数据,神经网络应该控制在较小的规模。Yann
LeCun
指出这完全是错误的。他的团队在数据不变的情况下扩展了神经网络,得到了更好的结果。他说,神经网络越大,效果就越好(当然前提是数据库大小达到了临界值)。至于为什么会这样,目前仍是一个谜,相关理论研究正在开展。

深度学习的特点在于“整个程序都是可训练的”

三、卷积神经网络在识别领域的广阔前景

Yann LeCun
特别强调了卷积神经网络的重要性和应用:”我们很早就认识到,卷积神经网络可以被用来处理多种任务——不单单是识别单个物体,还可以识别多个物体,同时进行物体识别、分组和解释。比方说,可以用卷积神经网络训练
AI
系统识别并标注图像中的每一个像素,以此分析前方路径是否可通过。在英伟达最近的自动驾驶项目中,他们就使用了卷积神经网络来训练自动驾驶系统。系统分析摄像头提供的图像,据此模仿人类的转向角度。“
他还介绍了卷积神经网络在 Facebook
图像识别系统中的应用。“有了它之后,Facebook
的系统不仅能识别图像,还能绘制出图像的轮廓,并根据轮廓影像对物体进行分类。该系统甚至可以挑出中国菜里面的西兰花。”
下面是对同一幅图像识别前后的对比: Yann LeCun
表示这是一个巨大的进步,如果你在几年前问一个 AI
专家:”我们什么时候才能做到这样?”,答案会是“不清楚”。 “ 想让 AI
技术继续进步,我们就必须要让机器能够分析、推理、记忆,把现象和文字转化为运行知识。”
他接着作出预测,下一个将会十分流行的技术是记忆增强神经网络。它可被理解为用记忆增强的递归神经网络,其中,记忆本身是一个能被区分的回路,并可以作为学习中的一部分用于训练。Yann
LeCun 接下来对该技术进行了深入探讨,这里不赘述,详情请见视频。

演讲从模式识别(Pattern Recognition)的起源说起。1957年,Perceptron
诞生,成为第一个 LearningMachine。LeCun 说,目前的机器学习算法大多衍生自
Perceptron的概念。

四、强化学习、监督学习、无监督学习的数据要求

进行强化学习、监督学习、无监督学习的所需数据规模相差数个数量级。强化学习每次验证所需的信息可能只有几比特,监督学习是十到一万比特的信息量,而无监督学习则需要数百万比特。所以,Yann
LeCun
做了一个比喻:假设机器学习是一个蛋糕,强化学习是蛋糕上的一粒樱桃,监督学习是外面的一层糖衣,无监督学习则是蛋糕糕体。无监督学习的重要性不言而喻。为了让强化学习奏效,也离不开无监督学习的支持。

从那时起,模式识别的标准模型就可以分为 3
步走:1.程序被输入一张图像,通过特征提取,将图像特征转换为多个向量;2.
输入这些向量到可训练的分类器中;3.程序输出识别结果。

五、用模拟机制提高强机器学习的效率

当下的主要问题是,AI 系统没有“常识”。人类和动物通过观察世界、行动和理解自然规律来获得常识,机器也需要学会这么做。包括
Yann LeCun
在内的许多专家,把无监督学习作为赋予机器常识的关键,该过程如下: AI
系统由两部分组成:代理和目标(agent and
objecTIve)。代理做出行动,观察该行动对现实的影响产生认知,然后再通过该认知来预测现实情况。代理进行这一系列活动的动机来自于实现目标,而最终的目的则是:以最高的效率达到该目标。在强化学习中,对代理行为的奖励来自于外部,无监督学习的奖励则来自内部(对接近该目标的满意)。
但这个过程存在一个很大的问题:代理进行无监督学习的方法是在现实生活中进行各种尝试,这存在危险并且效率很低。比如,无人驾驶车不能尝试所有可能的驾驶方法,会带来安全隐患。这种尝试又受到时间的限制,不能像计算机程序那样每秒运行数千次。所以,Yann
LeCun 解释道,为了提高机器学习的效率,我们需要基于模型的强化学习(model
based reinforcement learning )。它由三部分组成:现实模拟器(world
simulator),行动器和反馈装置。现实模拟器对现实情况进行模拟,行动器生成行动预案(acTIon
proposals),然后反馈装置对该行动的效果进行预测。这样,AI
系统就可以对行动反复推演,进行优化,而不受到现实中时间和成本的限制。

他表示,机器学习算法其实就是误差校正(Error
correction),通过调整权重,来进行特征提取。也就是说,如果输入一张图,算法识别后,结果值低于预期类别的值,工程师就将输入的图增加
Positive 的权重,减少 Negative 的权重,来校正误差。

网赌十大信誉的平台 1

深度学习是当今最广泛使用的模式识别方法。LeCun
认为深度学习的特点在于“整个程序都是可训练的”。他解释,构建深度学习的模型不是用手动调整特征提取的参数来训练分类器,而是建立一群像小型瀑布般的可训练的模组。

网赌十大信誉的平台 2

当开发人员将原始的影像输入系统后,会先经过初步的特征提取器,产生代表的数值,在这一个阶段可能会先识别出一些基本的纹理,接下来这些纹理的组合会再被拿来识别更具体的特征,像是物件的形体或是类别,整个训练的过程就是不断地经过一层又一层这样的模型,每一层都是可训练的,所以我们称这个算法为深度学习或是端到端训练(End
to End Running)。

LeCun
解释,深度学习模型之所以工作良好,是因为现在的影像都是自然景象加上其他物体,也就是混合型的图像,而每个物体又由不同的特征所组成,会有不同的轮廓和纹路,图片的像素也是一个问题,因此,可以将影像分级成像素、边缘、轮廓、元件和物件等,初级的特征提取会先侦测出影像中最基本的轮廓,比如明显的纹路和色块,进一步的特征提取则是将上一层的结果组合再一起,拼成一个形体,最后再拼成一个物体。

网赌十大信誉的平台 3

这种分层式的组合架构(Hierarchical
Compositionality)其实不只适用于影像,LeCun说明,它对文字、语音、动作或是任何自然的信号都适用,这种方式参考了人脑的运作模式。大脑中的视觉中枢,也是用类似分层式的组合架构来运行,当人类看到影像后,由视网膜进入到视丘后方外侧膝状体,再到大脑中主要的视觉中枢,最后来到颞叶皮质,人类看图像也是由大脑经过多层的结构,在100毫秒内就能识别图片。

网赌十大信誉的平台 4

深度学习的问题在于如何训练,在1980年代中期,误差反向传播算法(Back
Propagation
Algorithm)开始流行,但其实误差反向传播算法很早就被提出来,只是当时没有受到重视。误差反向传播算法一开始先经过简单线性分类,再将这些结果带到非线性的线性整流函数(Rectified
Linear
Unit,ReLU),线性整流函数就是找到要调整参数的方向,来减少错误判断,不过现在都已经有可用的套件或是框架,像是Torch、TensorFlow
或是 Theano等,还有一些套件是可用来计算输出结果和预期结果之间的误差。

Yann LeCun认为,现在要撰写机器学习算法并不难,用 3 行 Python
就可以完成,不过这还停留在监督式学习阶段,所谓的监督式学习就是输入大量的训练样本,每一套训练样本都已经经过人工标注出原始图片和对应的预期结果。以影像处理为例,训练集由多个参数组成,X就是影像的像素,Y则是预设的识别结果类别,像是车子、桌子等,之后再用大量的测试集来测试程序,若判断结果正确,不用调整,若判断有误则调整程序中的参数。

监督式机器学习存在二大问题

因此,Yann LeCun表示,监督式的机器学习就是功能优化(Function
Optimization),资料输入和输出的关系通过可调整的参数来优化,经由调整参数的方式,将结果的错误率降至最低,其中,调整参数的方式有很多种,很多人都会用梯度下降算法(Stochastic
Gradient
Descent),梯度下降算法可以找到最适合的回归模型系数.即时地根据输入的资料动态调整模型。

网赌十大信誉的平台 5

身为「卷积神经网络之父」的 Yann LeCun
也介绍了卷积神经网络(Convolutional Neural
Network,CNN),卷积网络就是将输入的影像像素矩阵经过一层过滤器,挑选出特征,再透过池化层(PoolingLayer),针对输入特征矩阵压缩,让特征矩阵变小,降低计算的复杂度。CNN影像和语音识别都有很好的成效,不仅如此,还能识别街上移动的路人、街景的物体,Facebook
也用 CNN 来识别 Facebook 用户上传的照片,他表示一天 Facebook
就有10亿以上的照片,可以准确地识别物体的类别,像是人还是狗、猫等,还能识别照片的主题,像是婚礼或是生日派对等。

网赌十大信誉的平台 6

网赌十大信誉的平台,不过,Yann
LeCun提出,监督式的机器学习有2大问题,第一是要如何建立复杂的算法来解决复杂的问题,第二则是手动调整参数的知识和经验都是来自于不同任务,许多工程师想要处理的领域,像是影像识别、语音识别都需要建置不同模型,因此,监督式机器学习可以在训练过的专案上有很好的表现,但是没有训练过的资料,程序就无法辨别,简单来说,如果要程序识别椅子,不可能训练所有椅子的特征资料。

事实上,Yann LeCun
表示现实中有种机器具备数百万的调整钮,这些调整钮就像机器学习中的参数和
Perceptron
的权重一样,可以用上百万的训练样本来训练模型,最后分类出上千种的类别,但是,每一个特征的识别都必须经过数十亿次的操作,因此,可想而知,现今大家所使用的神经网络是非常复杂的,如此庞大的运作不可能在一般的
CPU 上执行,“我们面对的是非常大规模的优化问题。”他说。

AI系统的架构

网赌十大信誉的平台 7

AI系统的架构大致上可以分为感知(Perception)、触发器和目标(Objective)3个模组,先由感知器侦测真实世界的数据,像是影像、语音等,这些数据经由触发器,会依据状态触发目标,执行相对应的程序并产生结果,其中触发器就是AI
的精髓,触发器必须要负责规划、预测等智能工作,而目标则是由本能和固定的两个元件所组成,以视觉识别(VisualIdentity)系统为例,经由感知收集影像数据,透过触发器触发分析情绪的程序,再判断影片中的人是开心还是不开心。

网赌十大信誉的平台 8

AI
架构中的触发器主要负责预测和规划,运作过程又可分为模拟器(Simulator)、执行器、回馈器,模拟器接收到状态后,传送给执行器,执行器就会启动相对应的动作,并同时对模拟器提出要求,启动相对应的动作之后送到回馈器,经由回馈器分析要採取的动作,决定后才送往目标(Objective)执行。

AI 最大局限是没有人类的“常识”

网赌十大信誉的平台 9

市场上 AI 好像无所不能,但其实,Yann LeCun个人认为,AI
还是有些局限,像是机器必须会观察状态、了解很多背景知识、世界运行的定律,以及精确地判断、规划等,其中,Yann
LeCun 认为 AI 最大的局限是无法拥有人类的「常识」。

网赌十大信誉的平台 10

由于目前比较好的AI应用都是采用监督式学习,能够准确识别人工标示过的物体,也有些好的成果是用强化学习(Reinforcement
Learning)的方式,但是强化学习需要大量地收集资料来训练模型,Yann
LeCun表示,对应到现实社会中的问题,监督式学习不足以成为“真的”AI。

他指出,人类的学习是建立在与事物互动的过程,许多都是人类自行体会、领悟出对事物的理解,不需要每件事都要教导,举例来说,若有个物体被前面的物体挡住,人类会知道后面的物体依然存在的事实,或是物体没有另一个物体支撑就会掉落的事实。

“人脑就是推理引擎!”他说明,人类靠着观察建立内部分析模型,当人类遇到一件新的事物,就能用这些既有的模型来推测,因为生活中人类接触到大量的事物和知识,而建立了“常识”。这些常识可以带领人类做出一些程序无法达到的能力,像是人类可以只看一半的脸就能想像另外一半脸,或是可以从过去的事件推测未来等。

他举例,若人类看到一张战利品放不下行李箱的图片,再看到一个句子说:”这些战利品放不下行李箱,因为它太小了。“人类能够很清楚地知道“它”指的是行李箱,人类也因为知道整个社会和世界运行的规则,当没有太多的信息时,人类可以依照因果关系自动补足空白的信息。

无监督式学习是突破 AI 困境的关键,采用无监督学习的对抗训练让 AI
拥有真正自我学习的能力。

如何让 AI 拥有人类的常识?Yann
LeCun认为要用无监督式学习。他又称之为预测学习,他将现今机器学习的方式分为强化式、监督式和无监督式学习,并以黑森林蛋糕来比喻。

网赌十大信誉的平台 11

强化学习是蛋糕上不可或缺的樱桃,所需要资料量可能大约只有几个Bits,监督式学习是蛋糕外部的糖衣,需要10到10,000个Bits的资料量,而无监督学习则是需要数百万个Bits,无监督学习被他比喻为黑森林蛋糕,因为无监督学习的预测能力像拥有黑魔法一样神奇,不过,他也强调黑森林蛋糕必须搭配樱桃,樱桃不是可选择的配料,而是必要的,意味着无监督学习与强化学习相辅相成,缺一不可。

Yann
LeCun认为,程序还是很难在不确定性的情况下,正确地预测,举例来说,如果一只直立的笔,没有支撑之后,程序可以判断出笔会倒下,但是无法预测会倒向哪一个方向。

因此,他表示,对抗训练(Adversarial Training)是可以让 AI
程序拥有自学能力的方法,他解释,对抗训练就是让两个网络相互博奕,由生成器(Generator)和判别器(Discriminator)组成,生成器随机地从训练集中挑选真实数据和干扰噪音,产生新的训练样本,判别器再用与真实数据比对的方式,判断出数据的真实性,如此一来,生成器与判别器可以交互学习自动优化预测能力,创造最佳的预测模型。

————

编辑 ∑ Pluto