2019/7/16
文章目录:
2_深度学习笔试100题.md
https://www.julyedu.com/question/select/kp_id/26  
**  七月在线,笔试练习——深度学习**
1、梯度下降算法的正确步骤是什么?  
1.计算预测值和真实值之间的误差  
2.重复迭代,直至得到网络权重的最佳值  
3.把输入传入网络,得到输出值  
4.用随机值初始化权重和偏差  
5.对每一个产生误差的神经元,调整相应的(权重)值以减小误差  
A、1,  2,  3,  4,  5  
B、5,  4,  3,  2,  1  
C、3,  2,  1,  5,  4  
D、4,  3,  1,  5,  2
答案:D  
解析:
2、已知:
§
大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。
每一个神经元都有输入、处理函数和输出。
神经元组合起来形成了网络,可以拟合任何函数。
为了得到最佳的神经网络,我们用梯度下降方法不断更新模型
给定上述关于神经网络的描述,什么情况下神经网络模型被称为深度学习模型?  
A、加入更多层,使神经网络的深度增加  
B、有维度更高的数据  
C、当这是一个图形识别的问题时  
D、以上都不正确
答案:A  
解析:  
更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型,目前如果有超过2层的
隐层,那么也可以及叫做深度模型。
§
1/35
2019/7/16
2_深度学习笔试100题.md
3、训练CNN时,可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是
对,还是不对?  
A、对  
B、不对
答案:A  这题选错  
解析:  
如寒sir所说,训练CNN时,可以进行这些操作。当然也不一定是必须的,只是data
augmentation扩充数据后,模型有更多数据训练,泛化能力可能会变强。
§
4、下面哪项操作能实现跟神经网络中Dropout的类似效果?  
A、Boosting  
B、Bagging  
C、Stacking  
D、Mapping  
答案:B  这题选错  
解析:  
Dropout可以认为是一种极端的Bagging,每一个模型都在单独的数据上训练,同时,通过和其
他模型对应参数的共享,从而实现模型参数的高度正则化。
5、下列哪一项在神经网络中引入了非线性?  
A、随机梯度下降  
B、修正线性单元(ReLU)  
C、卷积函数  
D、以上都不正确
答案:B  
解析:  
修正线性单元是非线性的激活函数。
§
§
6、在训练神经网络时,损失函数(loss)在最初的几个epochs时没有下降,可能的原因是?  
A、学习率(learning  rate)太低  
B、正则参数太高  
2/35
2019/7/16
C、陷入局部最小值  
D、以上都有可能
答案:D  
解析:
2_深度学习笔试100题.md
§
7、下列哪项关于模型能力(model  capacity)的描述是正确的?(指神经网络模型能拟合复杂
函数的能力)  
A、隐藏层层数增加,模型能力增加  
B、Dropout的比例增加,模型能力增加  
C、学习率增加,模型能力增加  
D、都不正确
答案:A  
解析:
§
8、如果增加多层感知机(Multilayer  Perceptron)的隐藏层层数,分类误差便会减小。这种陈
述正确还是错误?  
A、正确  
B、错误
答案:B  
解析:  
并不总是正确。层数增加可能导致过拟合,从而可能引起错误增加。
§
9、构建一个神经网络,将前一层的输出和它自身作为输入。  
下列哪一种架构有反馈连接?  
A、循环神经网络  
B、卷积神经网络  
C、限制玻尔兹曼机  
D、都不是
答案:A  
解析:
§
3/35
2019/7/16
2_深度学习笔试100题.md
§
10、在感知机中(Perceptron)的任务顺序是什么?  
1  随机初始化感知机的权重  
2  去到数据集的下一批(batch)  
3  如果预测值和输出不一致,则调整权重  
4  对一个输入样本,计算输出值  
A、1,  2,  3,  4  
B、4,  3,  2,  1  
C、3,  1,  2,  4  
D、1,  4,  3,  2
答案:D  
解析:
§
11、假设你需要调整超参数来最小化代价函数(cost  function),会使用下列哪项技术?  
A、穷举搜索  
B、随机搜索  
C、Bayesian优化  
D、都可以
答案:D  这题选错,选了C  
解析:
§
12、在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?  
答案:  B  
解析:  
这是鞍点(Saddle  Point)的梯度下降的经典例子。另,本题来源于:
https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/
§
13、下图显示了训练过的3层卷积神经网络准确度,与参数数量(特征核的数量)的关系。  
 
从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个特定阈值后,便开始降低。
4/35
2019/7/16
2_深度学习笔试100题.md
造成这一现象的可能原因是什么?  
A、即使增加卷积核的数量,只有少部分的核会被用作预测  
B、当卷积核数量增加时,神经网络的预测能力(Power)会降低  
C、当卷积核数量增加时,导致过拟合  
D、以上都不正确
答案:C  
解析:  
网络规模过大时,就可能学到数据中的噪声,导致过拟合
§
14、假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如
现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来替代这个隐藏层。  
 
那么,这两者的输出效果是一样的吗?  
A、是  
B、否
答案:  B  
解析:  
PCA  提取的是数据分布方差比较大的方向,隐藏层可以提取有预测能力的特征
§
15、下列哪个函数不可以做激活函数?  
A、y  =  tanh(x)  
B、y  =  sin(x)  
C、y  =  max(x,0)  
D、y  =  2x
答案是:D  这题选错啦,选择了  B  (激活函数非线性)  
解析:  
线性函数不能作为激活函数。
§
16、下列哪个神经网络结构会发生权重共享?  
A、卷积神经网络  
B、循环神经网络  
5/35
2019/7/16
C、全连接神经网络  
D、选项A和B
答案是:D  
解析:
2_深度学习笔试100题.md
§
17、批规范化(Batch  Normalization)的好处都有啥?  
A、让每一层的输入的范围都大致固定  
B、它将权重的归一化平均值和标准差  
C、它是一种非常有效的反向传播(BP)方法  
D、这些均不是
答案是:A  
解析:
§
18、在一个神经网络中,下面哪种方法可以用来处理过拟合?  
A、Dropout  
B、分批归一化(Batch  Normalization)  
C、正则化(regularization)  
D、都可以
答案是:D  
解析:  
对于选项A,  Dropout  可以在训练过程中适度地删减某些神经元,  借此可以减小过拟合的风险.  
对于选项B,  分批归一化处理过拟合的原理,是因为同一个数据在不同批中被归一化后的值会有
差别,相当于做了data  augmentatio。  
对于选项C,正则化(regularization)的加入,本身就是为了防止过拟合而做的操作.  
因此答案是D
§
19、如果我们用了一个过大的学习速率会发生什么?  
A、神经网络会收敛  
B、不好说  
C、都不对  
D、神经网络不会收敛
6/35
2019/7/16
2_深度学习笔试100题.md
答案是:D  这题选错啦,选择了  B  
解析:  
可能是我考虑的有些极端啦,大部分情况下,会出现其在震荡,梯度长时间不更新,就是因为
学习率较大导致的
§
20、下图所示的网络用于训练识别字符H和T,如下所示  
答案是:D  
解析:  
不知道神经网络的权重和偏差是什么,则无法判定它将会给出什么样的输出。
§
21、神经网络模型(Neural  Network)因受人类大脑的启发而得名
 
enter  description  here
 
神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一
个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?
神经网络由许多神经元(Neuron)组成,每个神经元接受一个输入,对输入进行处理后给出一
个输出,如下图所示。请问下列关于神经元的描述中,哪一项是正确的?
A、每个神经元可以有一个输入和一个输出  
B、每个神经元可以有多个输入和一个输出  
C、每个神经元可以有一个输入和多个输出  
D、每个神经元可以有多个输入和多个输出  
E、上述都正确
正确答案是:E,的选择是:  B
解析:  
每个神经元可以有一个或多个输入,和一个或多个输出。
§
22、在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元
准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?  
7/35
2019/7/16
2_深度学习笔试100题.md
A、搜索每个可能的权重和偏差组合,直到得到最佳值  
B、赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重  
C、随机赋值,听天由命  
D、以上都不正确的
正确答案是:  B,您的选择是:  B  
解析:  
选项B是对梯度下降的描述。
§
23、基于二次准则函数的H-K算法较之于感知器算法的优点是()?  
A、计算量小  
B、可以判别问题是否线性可分  
C、其解完全适用于非线性可分的情况
正确答案是:  B,您的选择是:A
解析:
HK算法思想很朴实,就是在最小均方误差准则下求得权矢量.  
他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,
给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程。  
来源:@刘炫320,链接:http://blog.csdn.net/column/details/16442.html
§
24、输入图片大小为200×200,依次经过一层卷积(kernel  size  5×5,padding  1,stride
2),pooling(kernel  size  3×3,padding  0,stride  1),又一层卷积(kernel  size  3×3,
padding  1,stride  1)之后,输出特征图大小为  
A、95  
B、96  
C、97  
D、98
正确答案是:C,您的选择是:C  
解析:  
首先我们应该知道卷积或者池化后大小的计算公式,其中,padding指的是向外扩展的边缘大
小,而stride则是步长,即每次移动的长度。  
这样一来就容易多了,首先长宽一般大,所以我们只需要计算一个维度即可,这样,经过第一
次卷积后的大小为:  本题  (200-5+2  *  1)/2+1  为99.5,取99,  向下取整  
8/35