AI骗局：不要怪人工智能有假，只因你不了解其中细节

2019年12月2日来源：防爆云平台--防爆产业链服务平台防爆电气防爆电机防爆空调防爆风机防爆通讯浏览 3672 次评论 0 次

早在2016年的时候，彭博社报道过，初创公司就已经开始营销私人助理机器人——埃米·英格拉姆（Amy Ingram）。公司对外宣称这款机器人是“能够为你安排会议的私人助理”！你只要将电子邮箱发送给埃米，埃米就能以非常甜美的语气开始自己的私人助理工作。

当时人们一度认为，埃米确实比人类更适合这项工作。

但是，经历过一次又一次AI骗局之后，我们才慢慢弄明白，原来AI也是有假。现在我们在看看埃米，如果仔细观察其广告细则，就会发现人类可以随意介入这个“人工智能”系统。营销这个机器人的公司在背后利用全天候工作的人来操控埃米。

当然，还有比这个更早的自动机骗局。

1770年，一个酷似真人的机械装置——“土耳其人”，战胜了绝大多数人类棋手，成为国际象棋高手。公众对于这款机器的痴迷要远远高于之前的沃康松发明长笛演奏者。有人怀疑机器里面是不是有一个小孩，但是每当打开机器内部，就能够发现里面有很多机械齿轮在运作，并没有发现有小孩藏在里面。

“土耳其人”机器人

历任主人对这款国际象棋高手机器的工作原理始终讳莫如深，外界对“土耳其人”历经多年的猜测，却还是无法揭示这款自动机的工作原理。“土耳其人”被创作出的84年后，一场大火烧掉了“土耳其人”。后一任主人的儿子觉得保守秘密也没有意义，于是公布了“土耳其人”的工作原理。

事实上，“土耳其人”就是一个巨大的木偶人，利用巧妙的机关构成对观众的欺骗。

这些例子表明，我们不应该接受“它采用了深度神经网络”的回答，来掩盖所谓“人工智能”系统的工作原理。因为如果不这样，会让我们陷入到一些毫无根据的人工智能炒作之中。事实上，这种“粗心”的想法让我们轻信了像“土耳其人”这样的骗局。

确保我们不会落入骗局和“甜蜜营销”陷阱的方法之一是仔细研究这些装置背后的细节和工作原理。

深度神经网络如何识别图像中的物体？

在2006年之后的10年时间内，计算机识别图像、语音等的能力已经得到显著地提升。甚至从某种角度上说，计算机已经超过人类在图像识别方面的能力，而这得益于一种叫做“深度神经网络”的技术。不仅仅如此，深度神经网络还能针对一副图片创造出逼真的渲染效果。

深度神经网络本质上就是一种输入和输出之间的映射关系。一旦网络参数训练完毕，深度神经网络是一个可以预测的，是一个确定性的函数。只要隐藏层足够多，深度神经网络理论上是可以表达任意函数。而且只要我们仔细研究，就会发现，深度神经网络就是一个分类器。

但是了解了这些，我们还是无法知道深度神经网络在了解世界的内部表达是什么样，还是不知道深度神经网络在那些时候会表现比较差？要想了解深度神经网络的能力和局限，我们只能去了解深度神经网络背后的细节。

这里以“深度神经网络识别图像中的狗”为例，说明深度神经网络的工作原理。

首先，需要准备让深度神经网络去学习的图片。这些“训练样例”有包含狗的图片，也有不包含狗的图片。而且，为了深度神经网络理解这些图片，需要对样例进行数字编码，这样就能够用数字来表达像素的颜色，从而用数字来描述图片。

因为彩色图片中，每个像素有三种颜色（红、绿、蓝）因此，对于640×480大小的图片，需要921600（640×480×3）个数字来表达。一旦将网络的输入设置为这些数字的时候，就可以开始运行设计好的深度神经网络框架。这些数字会一层层地激活，直到在末端产生一个输出。

可以把神经网络中的神经元想象成一个个打开或关闭的小灯泡。而且，当网络中神经元的激励水平越高，小灯泡的亮度就会越大。一旦网络运行，网络中的一些神经元就会变亮，另一些则会变暗。在深度神经网络识别狗的过程中，我们更关注网络输出的神经元有多亮。

含有两个隐藏层的神经网络

假设我们设计的网络的输出层只有一个神经元，我们称之为“狗神经元”。如果“狗神经元”亮，则说明图片中含有“狗”，反之则不含。如果亮度不暗也不亮，则认为图片中可能有狗，可能没有狗。同样，我们对“训练样例”的标签也做数字编码处理，通过人工标注的方式，有狗则为“1”，无狗则为“0”。

之后，我们就需要将输出的亮度和“训练样例”的标签进行对比，一个输入的末端神经元亮，且该输入的标签为“1”，则认为网络的预测是正确。然后，根据预测结果来评估网络的误差有多大。并将误差反向传递给网络，从而调节每个神经元之间的权重，以便下一次预测误差会变小。直到网络预测完全正确或者绝大部分都正确，则不再调整网络参数。

随着时间的推移，网络会变得越来越准确。原因就在于，我们就是将预测不断逼近我们的训练标签（真值）。这就是很多标准神经网络的训练方式，尽管很简单，但也直到20世纪七八十年代才被人们真正理，而神经网络此前已经存在了几十年。

如何避免过拟合的问题？

神经网络的挑战就是过拟合问题。我们会经常发现，训练好的深度神经网络，能够很好应对与训练样例类似的情况，但是对于训练样例中没有出现的对象，深度神经网络就会表现得比较差。尽管它很好地匹配了训练数据，但它不太可能很好地解释新数据，这就是过拟合的问题。

过拟合问题说明

一旦神经网络函数无线逼近训练样本，模型的复杂度就会上升，其泛化能力自然变得非常差。

通常，避免过拟合问题，有两种解决办法：一是使用更简单的模型，即使用可调旋钮比较少的模型；二是把更多数据用于复杂模型。目前，研究人员倾向于将这两种办法结合起来，使用尽可能多的数据来训练旋钮较少的网络。

说起更多数据，不得不提一下，斯坦福大学李飞飞教授的ImageNet数据集。李飞飞之所以出名，一定程度上在于她制作了大量标注良好的图片。当认识到数据对于网络训练会产生巨大作用后，李飞飞和同事开始了一个宏大的项目——ImageNet。到目前，这个ImageNet拥有1400万张高分辨率的图片，标注的类别超过2.2万个。

李飞飞与ImageNet数据集

这个数据集比当时其他数据集要多出一个数量级的标注图片，而且还有很多细粒度标签，比如有达尔马提亚犬、荷兰毛狮犬和迷你雪纳瑞犬。2010年，李飞飞组织了一场名为“ImageNet大规模视觉识别挑战赛”的比赛，数据集采用1000个类别的140万张图片。比赛的前两年，识别错误率从2010年的28%下降到2011年的26%。

但是在2010年的时候，一个不被看好的成功——深度神经网络，成为挑战赛不可争议的赢家，错误率达到16%，远低于之前的26%。这个转变思维模式的深度神经网络被称为AlexNet，这个模型之所以表现出色，在于用大量的数据来训练不太多需要调整权重的网络。

AlexNet是一个卷积神经网络，通过一系列卷积层（5层），然后一系列全连接层（3层）。那么，这种网络架构设计到底有什么奇特之处呢？

简单来说，卷积层就是通过查找图片中的物体来转化图片。每个卷积层都有一组过滤器，用于查找图片中的不同对象，比如猫、狗等。如果猫过滤器映射出的图片都是暗的，则表示没有找到猫。但对于第一个卷积层的过滤器来说，一般都不会识别出很复杂的物体，部分原因在于第一层的过滤器通常比较小。

AlexNet神经网络架构

AlexNet的第一层的过滤器在11×11的像素块中查找对象，而且采用大约100个过滤器，意味着拥有100个神奇的物体探测器。这些过滤器被称为“边缘探测器”，因为它们匹配输出的是图片的边缘或者其他简单模型。AlexNet另外4个卷积层中每层都有几百个过滤器。每一个连续的卷积层都使用前一层的过滤器作为基本构件，将其组合成更加复杂的模式。

随着网络的不断深入，过滤器捕捉到的成分越来越复杂。慢慢地，你可以开始分辨出物体的连贯部分，有些像毛发，有些甚至像人脸。一旦穿过第5个卷积层，就开始3个全连接层。网络的输出有 1000个不同的神经元，分别对应ImageNet挑战中的每一个类别。

激活网络输出层神经元的图像块，左为大白鲨，右为沙漏

后，不出所料，点亮大白鲨神经元的图像块似乎有大白鲨，点亮沙漏神经元的图像块似乎有沙漏。但是这些图片中物体并非来自任何一张图片，而是网络自己生成，以反映每个神经元找到的内容。

尽管目前，AlexNet并不是和高效的，但是其应对过拟合的思维却影响着后续神经网络的设计。

为什么深度神经网络会如此有效？

是什么让深度神经网络，尤其是AlexNet，在ImageNet比赛中表现得如此出色？AlexNet的网络架构真的非常完美吗？事实上，从理论上说，一个隐藏层就能够表达任意复杂函数，那么，网络真的需要这样深吗？

如果只有一个隐藏层，那么对于复杂问题，我们网络的隐藏层将会变得非常庞大、非常宽。这就需要更多的数据来调整更多的网络神经元权重，否则就会出现过拟合的情况。根据《On the Number of Linear Regions of Deep Neural Networks》这篇文章的理论表明，通过让隐藏层更深而不是更宽，能够更加有效地表达复杂的函数。

换句话说，神经元越少，需要学习的权重就越少！

卷积层之所以强大，在于其使用分布式表达来处理图像。

卷积神经网络

那么，为什么深度比宽度有效？这个其实很好理解。通过一些基本的、少量的共享特征，比如眼睛、耳朵、眉毛、嘴巴、肤色等，可以构建出不同的人种。这样，前几层就可以专注于寻找基本组件，后几层则专注于如何组合这些基本组件。这种做法自然比一次识别出不同形象（更宽的隐藏层）要来得高效。

2012之后，很多ImageNet比赛都开始采用深度神经网络的设计思路。目前，ImageNet挑战赛中的错误率已经达到2.3%，与AlexNet的16%更是精进许多，已经超过了人类的图像识别能力。但是，我们也能发现，目前很多深度神经网络的深度已经变得越来越深，甚至达到看似荒谬的程度。

Inception v2:用两个 3×3卷积替代 5×5

但是，谷歌曾推出22层的Inception Network，为什么没有因为深度而陷入过拟合？原因在于谷歌研发人员发现，卷积层的神经元过于简单，因此采用更多复杂的微型网络取而代之。更重要的是，让每一层使用更少的参数。（例如，两个3×3过滤器和一个1×1过滤器，以及将它们组合起来的3个权重，总共需要22个参数，而一个5×5过滤器则有25个参数）

之后，还有更多改善网络的办法，比如在不相邻的卷积层之间增加连接，能够提高网络性能。比如让神经元在网络一层内相互加强，比如找到了狗耳朵，就会让其他部分更加注重寻找狗尾巴和狗腿。

总而言之，随着科技技术的不断发展，深度神经网络也会变得越来越有效。

结论

目前，市面上有很多宣称是基于深度神经网络的人工智能项目，但真假也的确难辨。要想分清真假人工智能系统，需要更多关注项目背后的细节。

本文从深度神经网络如何识别图像的过程入手，介绍了一个标准的深度神经网络的工作原理。之后针对深度神经网络极易出现的过拟合问题，说明解决过拟合问题可以用“大量的数据来训练不太多需要调整权重的网络”的思路。

后，本文分析了为什么深度神经网络会变得如此有效，原因在于网络的深度比宽度更有效。但是，即使网络再深，也需要尽可能减少网络需要调整的参数，从而避免过拟合问题。

未来，深度神经网络必将出现更多更有效的网络模型，要想分辨真假，只能从细节入手！你们怎么看待人工智能有假的问题，欢迎在下方留言评论。

上一篇：防爆电油汀使用小常识

下一篇：高低压配电装置的安装与维修

评论列表

每页 10 条，共 0 条

云服务

AI骗局：不要怪人工智能有假，只因你不了解其中细节

深度神经网络如何识别图像中的物体？

如何避免过拟合的问题？

为什么深度神经网络会如此有效？

结论

热门新闻

人工智能在企业数字化转型中的应用与实践

中小型企业数字化转型痛点与转型

关于数字化转型，必懂的40个问题汇总

信息化，数字化，智能化是三种不同的概念吗？

行业动态

品牌商品

购物指南

配送与支付

服务保障

商家服务

关于我们

关注我们