深度学习是什么？

深度学习：像人脑一样深层次地思考
从上一篇我们可以看出。个性化推荐系统确实很会“察言观色” 。针对不同的用户。主动推送不同的3D打印内容。但如果你认为它真正有了“人工智能” 。那你就错了。其实。这些推荐系统背后的运行原理主要基于概率统计、矩阵或图模型。计算机对这些数值运算确实很擅长。但由于采用的只是“经验主义”的实用方法（也即管用就行）。而非以“理性主义”的原则真正探求智能产生的原理。所以距离真正的人工智能还很远。AI（Artificial Intelligence）。也就是人工智能。就像长生不老和星际漫游一样。是人类最美好的梦想之一。虽然计算机技术已经取得了长足的进步。但是到目前为止。还没有一台计算机能产生“自我”的意识。
提示：图灵测试（Turing Testing）。是计算机是否真正具有人工智能的试金石。“计算机科学之父”及“人工智能之父”英国数学家阿兰·图灵（1912—1954）在1950年的一篇著名论文《机器会思考吗？》里。提出图灵测试的设想。即把一个人和一台计算机分别隔离在两间屋子。然后让屋外的一个提问者对两者进行问答测试。如果提问者无法判断哪边是人。哪边是机器。那就证明计算机已具备人的智能。
直到深度学习（Deep Learning）的出现。让人们看到了一丝曙光。至少。（表象意义下的）图灵测试已不再是那么遥不可及了。2013年4月。《麻省理工学院技术评论》杂志将深度学习列为2013年十大突破性技术（Breakthrough Technology）之首。有了深度学习。推荐系统可以更加深度地挖掘你内心的需求。并从海量的3D模型库中挑选出最合适的供你打印。
让我们先来看看人类的大脑是如何工作的。1981年的诺贝尔医学奖。颁发给了David Hubel和Torsten Wiesel 。以及Roger Sperry 。前两位的主要贡献是。发现了人的视觉系统的信息处理是分级的。如图4-45所示。从视网膜（Retina）出发。经过低级的V1区提取边缘特征。到V2区的基本形状或目标的局部。再到高层的整个目标（如判定为一张人脸）。以及到更高层的PFC（前额叶皮层）进行分类判断等。也就是说高层的特征是低层特征的组合。从低层到高层的特征表达越来越抽象和概念化。也即越来越能表现语义或者意图。

文章插图
图4-45人脑的视觉处理系统（图片来源：Simon Thorpe）
这个发现激发了人们对于神经系统的进一步思考。大脑的工作过程。或许是一个不断迭代、不断抽象概念化的过程。如图4-46所示。例如。从原始信号摄入开始（瞳孔摄入像素）。接着做初步处理（大脑皮层某些细胞发现边缘和方向）。然后抽象（大脑判定眼前物体的形状。比如是椭圆形的）。然后进一步抽象（大脑进一步判定该物体是张人脸）。最后识别眼前的这个人──正是大明星刘德华。这个过程其实和我们的常识是相吻合的。因为复杂的图形。往往就是由一些基本结构组合而成的。同时我们还可以看出：大脑是一个深度架构。认知过程也是深度的。

文章插图
图4-46视觉的分层处理结构（图片来源：Stanford）
而深度学习（Deep Learning）。恰恰就是通过组合低层特征形成更加抽象的高层特征（或属性类别）。例如。在计算机视觉领域。深度学习算法从原始图像去学习得到一个低层次表达。例如边缘检测器、小波滤波器等。然后在这些低层次表达的基础上。通过线性或者非线性组合。来获得一个高层次的表达。此外。不仅图像存在这个规律。声音也是类似的。比如。研究人员从某个声音库中通过算法自动发现了20种基本的声音结构。其余的声音都可以由这20种基本结构来合成！
在进一步阐述深度学习之前。我们需要了解什么是机器学习（Machine Learning）。机器学习是人工智能的一个分支。而在很多时候。几乎成为人工智能的代名词。简单来说。机器学习就是通过算法。使得机器能从大量历史数据中学习规律。从而对新的样本做智能识别或对未来做预测。
而深度学习又是机器学习研究中的一个新的领域。其动机在于建立可以模拟人脑进行分析学习的神经网络。它模仿人脑的机制来解释数据。例如。图像、声音和文本。深度学习之所以被称为“深度” 。是因为之前的机器学习方法都是浅层学习。深度学习可以简单理解为传统神经网络（Neural Network）的发展。大约二三十年前。神经网络曾经是机器学习领域特别热门的一个方向。这种基于统计的机器学习方法比起过去基于人工规则的专家系统。在很多方面显示出优越性。如图4-47所示。深度学习与传统的神经网络之间有相同的地方。采用了与神经网络相似的分层结构：系统是一个包括输入层、隐层（可单层、可多层）、输出层的多层网络。只有相邻层节点（单元）之间有连接。而同一层以及跨层节点之间相互无连接。这种分层结构。比较接近人类大脑的结构（但不得不说。实际上相差还是很远的。考虑到人脑是个异常复杂的结构。很多机理我们目前都是未知的）。