2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 1/23
下
载
|
连
『
吴
恩
达
』
都
点
赞
的
深
度
学
习
笔
记
吴
恩
达
在
推
特
上
展
示
了
⼀
份
由
T
e
s
s
F
e
r
r
a
n
d
e
z
完
成
的
深
度
学
习
专
项
课
程
信
息
图
,
这
套
信
息
图
优
美
地
记
录
了
深
度
学
习
课
程
的
知
识
与
亮
点
。
因
此
它
不
仅
仅
适
合
初
学
者
了
解
深
度
学
习
,
还
适
合
机
器
学
习
从
业
者
和
研
究
者
复
习
基
本
概
念
。
机
器
之
⼼
认
为
这
不
仅
仅
是
⼀
份
课
程
笔
记
,
同
时
还
是
⼀
套
信
息
图
与
备
忘
录
。
下
⾯
,
我
们
将
从
深
度
学
习
基
础
、
卷
积
⽹
络
和
循
环
⽹
络
三
个
⽅
⾯
介
绍
该
笔
记
,
并
提
供
信
息
图
下
载
地
址
。
深
度
学
习
基
础
1
.
深
度
学
习
基
本
概
念
监
督
学
习
:
所
有
输
⼊
数
据
都
有
确
定
的
对
应
输
出
数
据
,
在
各
种
⽹
络
架
构
中
,
输
⼊
数
据
和
输
出
数
据
的
节
点
层
都
位
于
⽹
络
的
两
端
,
训
练
过
程
就
是
不
断
地
调
整
它
们
之
间
的
⽹
络
连
接
权
重
。
左
上
:
列
出
了
各
种
不
同
⽹
络
架
构
的
监
督
学
习
,
⽐
如
标
准
的
神
经
⽹
络
(
N
N
)
可
⽤
于
训
练
房
⼦
特
征
和
房
价
之
间
的
函
数
,
卷
积
神
经
⽹
络
(
C
N
N
)
可
⽤
于
训
练
图
像
和
类
别
之
间
的
函
数
,
循
环
神
经
⽹
络
(
R
N
N
)
可
⽤
于
训
练
语
⾳
和
⽂
本
之
间
的
函
数
。
左
下
:
分
别
展
示
了
N
N
、
C
N
N
和
R
N
N
的
简
化
架
构
。
这
三
种
架
构
的
前
向
过
程
各
不
相
同
,
N
N
使
⽤
的
是
权
重
矩
阵
(
连
接
)
和
节
点
值
相
乘
并
陆
续
传
播
⾄
下
⼀
层
节
点
的
⽅
式
;
C
N
N
使
⽤
矩
形
卷
积
核
在
图
像
输
⼊
上
依
次
进
⾏
卷
积
操
作
、
滑
动
,
得
到
下
⼀
层
输
⼊
的
⽅
式
;
R
N
N
记
忆
或
遗
忘
先
前
时
间
步
的
信
息
以
为
当
前
计
算
过
程
提
供
⻓
期
记
忆
。
章
数
据
。
2
0
2
0
-
0
4
-
3
0
1
8
:
2
7
:
1
3
机
器
学
习
算
法
与
P
y
t
h
o
n
学
习
⼿
机
阅
读
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
壹
伴
图
⽂
章
⼯
具
采
集
图
⽂
合
成
多
采
集
样
式
查
看
封
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 2/23
右
上
:
N
N
可
以
处
理
结
构
化
数
据
(
表
格
、
数
据
库
等
)
和
⾮
结
构
化
数
据
(
图
像
、
⾳
频
等
)
。
右
下
:
深
度
学
习
能
发
展
起
来
主
要
是
由
于
⼤
数
据
的
出
现
,
神
经
⽹
络
的
训
练
需
要
⼤
量
的
数
据
;
⽽
⼤
数
据
本
身
也
反
过
来
促
进
了
更
⼤
型
⽹
络
的
出
现
。
深
度
学
习
研
究
的
⼀
⼤
突
破
是
新
型
激
活
函
数
的
出
现
,
⽤
R
e
L
U
函
数
替
换
s
i
g
m
o
i
d
函
数
可
以
在
反
向
传
播
中
保
持
快
速
的
梯
度
下
降
过
程
,
s
i
g
m
o
i
d
函
数
在
正
⽆
穷
处
和
负
⽆
穷
处
会
出
现
趋
于
零
的
导
数
,
这
正
是
梯
度
消
失
导
致
训
练
缓
慢
甚
⾄
失
败
的
主
要
原
因
。
要
研
究
深
度
学
习
,
需
要
学
会
「
i
d
e
a
—
代
码
—
实
验
—
i
d
e
a
」
的
良
性
循
环
。
2
.
l
o
g
i
s
t
i
c
回
归
左
上
:
l
o
g
i
s
t
i
c
回
归
主
要
⽤
于
⼆
分
类
问
题
,
如
图
中
所
示
,
l
o
g
i
s
t
i
c
回
归
可
以
求
解
⼀
张
图
像
是
不
是
猫
的
问
题
,
其
中
图
像
是
输
⼊
(
x
)
,
猫
(
1
)
或
⾮
猫
(
0
)
是
输
出
。
我
们
可
以
将
l
o
g
i
s
t
i
c
回
归
看
成
将
两
组
数
据
点
分
离
的
问
题
,
如
果
仅
有
线
性
回
归
(
激
活
函
数
为
线
性
)
,
则
对
于
⾮
线
性
边
界
的
数
据
点
(
例
如
,
⼀
组
数
据
点
被
另
⼀
组
包
围
)
是
⽆
法
有
效
分
离
的
,
因
此
在
这
⾥
需
要
⽤
⾮
线
性
激
活
函
数
替
换
线
性
激
活
函
数
。
在
这
个
案
例
中
,
我
们
使
⽤
的
是
s
i
g
m
o
i
d
激
活
函
数
,
它
是
值
域
为
(
0
,
1
)
的
平
滑
函
数
,
可
以
使
神
经
⽹
络
的
输
出
得
到
连
续
、
归
⼀
(
概
率
值
)
的
结
果
,
例
如
当
输
出
节
点
为
(
0
.
2
,
0
.
8
)
时
,
判
定
该
图
像
是
⾮
猫
(
0
)
。
左
下
:
神
经
⽹
络
的
训
练
⽬
标
是
确
定
最
合
适
的
权
重
w
和
偏
置
项
b
,
那
这
个
过
程
是
怎
么
样
的
呢
?
这
个
分
类
其
实
就
是
⼀
个
优
化
问
题
,
优
化
过
程
的
⽬
的
是
使
预
测
值
y
h
a
t
和
真
实
值
y
之
间
的
差
距
最
⼩
,
形
式
上
可
以
通
过
寻
找
⽬
标
函
数
的
最
⼩
值
来
实
现
。
所
以
我
们
⾸
先
确
定
⽬
标
函
数
(
损
失
函
数
、
代
价
函
数
)
的
形
式
,
然
后
⽤
梯
度
下
降
逐
步
更
新
w
、
b
,
当
损
失
函
数
达
到
最
⼩
值
或
者
⾜
够
⼩
时
,
我
们
就
能
获
得
很
好
的
预
测
结
果
。
右
上
:
损
失
函
数
值
在
参
数
曲
⾯
上
变
化
的
简
图
,
使
⽤
梯
度
可
以
找
到
最
快
的
下
降
路
径
,
学
习
率
的
⼤
⼩
可
以
决
定
收
敛
的
速
度
和
最
终
结
果
。
学
习
率
较
⼤
时
,
初
期
收
敛
很
快
,
不
易
停
留
在
局
部
极
⼩
值
,
但
后
期
难
以
收
敛
到
稳
定
的
值
;
学
习
率
较
⼩
时
,
情
况
刚
好
相
反
。
⼀
般
⽽
⾔
,
我
们
希
望
训
练
初
期
学
习
率
较
⼤
,
后
期
学
习
率
较
⼩
,
之
后
会
介
绍
变
化
学
习
率
的
训
练
⽅
法
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 3/23
右
下
:
总
结
整
个
训
练
过
程
,
从
输
⼊
节
点
x
开
始
,
通
过
前
向
传
播
得
到
预
测
输
出
y
h
a
t
,
⽤
y
h
a
t
和
y
得
到
损
失
函
数
值
,
开
始
执
⾏
反
向
传
播
,
更
新
w
和
b
,
重
复
迭
代
该
过
程
,
直
到
收
敛
。
3
.
浅
层
⽹
络
的
特
点
左
上
:
浅
层
⽹
络
即
隐
藏
层
数
较
少
,
如
图
所
示
,
这
⾥
仅
有
⼀
个
隐
藏
层
。
左
下
:
这
⾥
介
绍
了
不
同
激
活
函
数
的
特
点
:
s
i
g
m
o
i
d
:
s
i
g
m
o
i
d
函
数
常
⽤
于
⼆
分
分
类
问
题
,
或
者
多
分
类
问
题
的
最
后
⼀
层
,
主
要
是
由
于
其
归
⼀
化
特
性
。
s
i
g
m
o
i
d
函
数
在
两
侧
会
出
现
梯
度
趋
于
零
的
情
况
,
会
导
致
训
练
缓
慢
。
t
a
n
h
:
相
对
于
s
i
g
m
o
i
d
,
t
a
n
h
函
数
的
优
点
是
梯
度
值
更
⼤
,
可
以
使
训
练
速
度
变
快
。
R
e
L
U
:
可
以
理
解
为
阈
值
激
活
(
s
p
i
k
i
n
g
m
o
d
e
l
的
特
例
,
类
似
⽣
物
神
经
的
⼯
作
⽅
式
)
,
该
函
数
很
常
⽤
,
基
本
是
默
认
选
择
的
激
活
函
数
,
优
点
是
不
会
导
致
训
练
缓
慢
的
问
题
,
并
且
由
于
激
活
值
为
零
的
节
点
不
会
参
与
反
向
传
播
,
该
函
数
还
有
稀
疏
化
⽹
络
的
效
果
。
L
e
a
k
y
R
e
L
U
:
避
免
了
零
激
活
值
的
结
果
,
使
得
反
向
传
播
过
程
始
终
执
⾏
,
但
在
实
践
中
很
少
⽤
。
右
上
:
为
什
么
要
使
⽤
激
活
函
数
呢
?
更
准
确
地
说
是
,
为
什
么
要
使
⽤
⾮
线
性
激
活
函
数
呢
?
上
图
中
的
实
例
可
以
看
出
,
没
有
激
活
函
数
的
神
经
⽹
络
经
过
两
层
的
传
播
,
最
终
得
到
的
结
果
和
单
层
的
线
性
运
算
是
⼀
样
的
,
也
就
是
说
,
没
有
使
⽤
⾮
线
性
激
活
函
数
的
话
,
⽆
论
多
少
层
的
神
经
⽹
络
都
等
价
于
单
层
神
经
⽹
络
(
不
包
含
输
⼊
层
)
。
右
下
:
如
何
初
始
化
参
数
w
、
b
的
值
?
当
将
所
有
参
数
初
始
化
为
零
的
时
候
,
会
使
所
有
的
节
点
变
得
相
同
,
在
训
练
过
程
中
只
能
学
到
相
同
的
特
征
,
⽽
⽆
法
学
到
多
层
级
、
多
样
化
的
特
征
。
解
决
办
法
是
随
机
初
始
化
所
有
参
数
,
但
仅
需
少
量
的
⽅
差
就
⾏
,
因
此
使
⽤
R
a
n
d
(
0
.
0
1
)
进
⾏
初
始
化
,
其
中
0
.
0
1
也
是
超
参
数
之
⼀
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 4/23
4
.
深
度
神
经
⽹
络
的
特
点
左
上
:
神
经
⽹
络
的
参
数
化
容
量
随
层
数
增
加
⽽
指
数
式
地
增
⻓
,
即
某
些
深
度
神
经
⽹
络
能
解
决
的
问
题
,
浅
层
神
经
⽹
络
需
要
相
对
的
指
数
量
级
的
计
算
才
能
解
决
。
左
下
:
C
N
N
的
深
度
⽹
络
可
以
将
底
层
的
简
单
特
征
逐
层
组
合
成
越
来
越
复
杂
的
特
征
,
深
度
越
⼤
,
其
能
分
类
的
图
像
的
复
杂
度
和
多
样
性
就
越
⼤
。
R
N
N
的
深
度
⽹
络
也
是
同
样
的
道
理
,
可
以
将
语
⾳
分
解
为
⾳
素
,
再
逐
渐
组
合
成
字
⺟
、
单
词
、
句
⼦
,
执
⾏
复
杂
的
语
⾳
到
⽂
本
任
务
。
右
边
:
深
度
⽹
络
的
特
点
是
需
要
⼤
量
的
训
练
数
据
和
计
算
资
源
,
其
中
涉
及
⼤
量
的
矩
阵
运
算
,
可
以
在
G
P
U
上
并
⾏
执
⾏
,
还
包
含
了
⼤
量
的
超
参
数
,
例
如
学
习
率
、
迭
代
次
数
、
隐
藏
层
数
、
激
活
函
数
选
择
、
学
习
率
调
整
⽅
案
、
批
尺
⼨
⼤
⼩
、
正
则
化
⽅
法
等
。
5
.
偏
差
与
⽅
差
那
么
部
署
你
的
机
器
学
习
模
型
需
要
注
意
些
什
么
?
下
图
展
示
了
构
建
M
L
应
⽤
所
需
要
的
数
据
集
分
割
、
偏
差
与
⽅
差
等
问
题
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 5/23
如
上
所
示
,
经
典
机
器
学
习
和
深
度
学
习
模
型
所
需
要
的
样
本
数
有
⾮
常
⼤
的
差
别
,
深
度
学
习
的
样
本
数
是
经
典
M
L
的
成
千
上
万
倍
。
因
此
训
练
集
、
开
发
集
和
测
试
集
的
分
配
也
有
很
⼤
的
区
别
,
当
然
我
们
假
设
这
些
不
同
的
数
据
集
都
服
从
同
分
布
。
偏
差
与
⽅
差
问
题
同
样
是
机
器
学
习
模
型
中
常
⻅
的
挑
战
,
上
图
依
次
展
示
了
由
⾼
偏
差
带
来
的
⽋
拟
合
和
由
⾼
⽅
差
带
来
的
过
拟
合
。
⼀
般
⽽
⾔
,
解
决
⾼
偏
差
的
问
题
是
选
择
更
复
杂
的
⽹
络
或
不
同
的
神
经
⽹
络
架
构
,
⽽
解
决
⾼
⽅
差
的
问
题
可
以
添
加
正
则
化
、
减
少
模
型
冗
余
或
使
⽤
更
多
的
数
据
进
⾏
训
练
。
当
然
,
机
器
学
习
模
型
需
要
注
意
的
问
题
远
不
⽌
这
些
,
但
在
配
置
我
们
的
M
L
应
⽤
中
,
它
们
是
最
基
础
和
最
重
要
的
部
分
。
其
它
如
数
据
预
处
理
、
数
据
归
⼀
化
、
超
参
数
的
选
择
等
都
在
后
⾯
的
信
息
图
中
有
所
体
现
。
6
.
正
则
化
正
则
化
是
解
决
⾼
⽅
差
或
模
型
过
拟
合
的
主
要
⼿
段
,
过
去
数
年
,
研
究
者
提
出
和
开
发
了
多
种
适
合
机
器
学
习
算
法
的
正
则
化
⽅
法
,
如
数
据
增
强
、
L
2
正
则
化
(
权
重
衰
减
)
、
L
1
正
则
化
、
D
r
o
p
o
u
t
、
D
r
o
p
C
o
n
n
e
c
t
、
随
机
池
化
和
提
前
终
⽌
等
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 6/23
如
上
图
左
列
所
示
,
L
1
和
L
2
正
则
化
也
是
是
机
器
学
习
中
使
⽤
最
⼴
泛
的
正
则
化
⽅
法
。
L
1
正
则
化
向
⽬
标
函
数
添
加
正
则
化
项
,
以
减
少
参
数
的
绝
对
值
总
和
;
⽽
L
2
正
则
化
中
,
添
加
正
则
化
项
的
⽬
的
在
于
减
少
参
数
平
⽅
的
总
和
。
根
据
之
前
的
研
究
,
L
1
正
则
化
中
的
很
多
参
数
向
量
是
稀
疏
向
量
,
因
为
很
多
模
型
导
致
参
数
趋
近
于
0
,
因
此
它
常
⽤
于
特
征
选
择
设
置
中
。
此
外
,
参
数
范
数
惩
罚
L
2
正
则
化
能
让
深
度
学
习
算
法
「
感
知
」
到
具
有
较
⾼
⽅
差
的
输
⼊
x
,
因
此
与
输
出
⽬
标
的
协
⽅
差
较
⼩
(
相
对
增
加
⽅
差
)
的
特
征
权
重
将
会
收
缩
。
在
中
间
列
中
,
上
图
展
示
了
D
r
o
p
o
u
t
技
术
,
即
暂
时
丢
弃
⼀
部
分
神
经
元
及
其
连
接
的
⽅
法
。
随
机
丢
弃
神
经
元
可
以
防
⽌
过
拟
合
,
同
时
指
数
级
、
⾼
效
地
连
接
不
同
⽹
络
架
构
。
⼀
般
使
⽤
了
D
r
o
p
o
u
t
技
术
的
神
经
⽹
络
会
设
定
⼀
个
保
留
率
p
,
然
后
每
⼀
个
神
经
元
在
⼀
个
批
量
的
训
练
中
以
概
率
1
-
p
随
机
选
择
是
否
去
掉
。
在
最
后
进
⾏
推
断
时
所
有
神
经
元
都
需
要
保
留
,
因
⽽
有
更
⾼
的
准
确
度
。
B
a
g
g
i
n
g
是
通
过
结
合
多
个
模
型
降
低
泛
化
误
差
的
技
术
,
主
要
的
做
法
是
分
别
训
练
⼏
个
不
同
的
模
型
,
然
后
让
所
有
模
型
表
决
测
试
样
例
的
输
出
。
⽽
D
r
o
p
o
u
t
可
以
被
认
为
是
集
成
了
⼤
量
深
层
神
经
⽹
络
的
B
a
g
g
i
n
g
⽅
法
,
因
此
它
提
供
了
⼀
种
廉
价
的
B
a
g
g
i
n
g
集
成
近
似
⽅
法
,
能
够
训
练
和
评
估
值
数
据
数
量
的
神
经
⽹
络
。
最
后
,
上
图
还
描
述
了
数
据
增
强
与
提
前
终
⽌
等
正
则
化
⽅
法
。
数
据
增
强
通
过
向
训
练
数
据
添
加
转
换
或
扰
动
来
⼈
⼯
增
加
训
练
数
据
集
。
数
据
增
强
技
术
如
⽔
平
或
垂
直
翻
转
图
像
、
裁
剪
、
⾊
彩
变
换
、
扩
展
和
旋
转
通
常
应
⽤
在
视
觉
表
象
和
图
像
分
类
中
。
⽽
提
前
终
⽌
通
常
⽤
于
防
⽌
训
练
中
过
度
表
达
的
模
型
泛
化
性
能
差
。
如
果
迭
代
次
数
太
少
,
算
法
容
易
⽋
拟
合
(
⽅
差
较
⼩
,
偏
差
较
⼤
)
,
⽽
迭
代
次
数
太
多
,
算
法
容
易
过
拟
合
(
⽅
差
较
⼤
,
偏
差
较
⼩
)
。
因
此
,
提
前
终
⽌
通
过
确
定
迭
代
次
数
解
决
这
个
问
题
。
7
.
最
优
化
最
优
化
是
机
器
学
习
模
型
中
⾮
常
⾮
常
重
要
的
模
块
,
它
不
仅
主
导
了
整
个
训
练
过
程
,
同
时
还
决
定
了
最
后
模
型
性
能
的
好
坏
和
收
敛
需
要
的
时
⻓
。
以
下
两
张
信
息
图
都
展
示
了
最
优
化
⽅
法
需
要
关
注
的
知
识
点
,
包
括
最
优
化
的
预
备
和
具
体
的
最
优
化
⽅
法
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 7/23
以
上
展
示
了
最
优
化
常
常
出
现
的
问
题
和
所
需
要
的
操
作
。
⾸
先
在
执
⾏
最
优
化
前
,
我
们
需
要
归
⼀
化
输
⼊
数
据
,
⽽
且
开
发
集
与
测
试
集
归
⼀
化
的
常
数
(
均
值
与
⽅
差
)
与
训
练
集
是
相
同
的
。
上
图
也
展
示
了
归
⼀
化
的
原
因
,
因
为
如
果
特
征
之
间
的
量
级
相
差
太
⼤
,
那
么
损
失
函
数
的
表
⾯
就
是
⼀
张
狭
⻓
的
椭
圆
形
,
⽽
梯
度
下
降
或
最
速
下
降
法
会
因
为
「
锯
⻮
」
现
象
⽽
很
难
收
敛
,
因
此
归
⼀
化
为
圆
形
有
助
于
减
少
下
降
⽅
向
的
震
荡
。
后
⾯
的
梯
度
消
失
与
梯
度
爆
炸
问
题
也
是
⼗
分
常
⻅
的
现
象
。
「
梯
度
消
失
」
指
的
是
随
着
⽹
络
深
度
增
加
,
参
数
的
梯
度
范
数
指
数
式
减
⼩
的
现
象
。
梯
度
很
⼩
,
意
味
着
参
数
的
变
化
很
缓
慢
,
从
⽽
使
得
学
习
过
程
停
滞
。
梯
度
爆
炸
指
神
经
⽹
络
训
练
过
程
中
⼤
的
误
差
梯
度
不
断
累
积
,
导
致
模
型
权
重
出
现
很
⼤
的
更
新
,
在
极
端
情
况
下
,
权
重
的
值
变
得
⾮
常
⼤
以
⾄
于
出
现
N
a
N
值
。
梯
度
检
验
现
在
可
能
⽤
的
⽐
较
少
,
因
为
我
们
在
T
e
n
s
o
r
F
l
o
w
或
其
它
框
架
上
执
⾏
最
优
化
算
法
只
需
要
调
⽤
优
化
器
就
⾏
。
梯
度
检
验
⼀
般
是
使
⽤
数
值
的
⽅
法
计
算
近
似
的
导
数
并
传
播
,
因
此
它
能
检
验
我
们
基
于
解
析
式
算
出
来
的
梯
度
是
否
正
确
。
下
⾯
就
是
具
体
的
最
优
化
算
法
了
,
包
括
最
基
本
的
⼩
批
量
随
机
梯
度
下
降
、
带
动
量
的
随
机
梯
度
下
降
和
R
M
S
P
r
o
p
等
适
应
性
学
习
率
算
法
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1
2020/4/30
下载 | 连『吴恩达』都点赞的深度学习笔记
https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 8/23
⼩
批
量
随
机
梯
度
下
降
(
通
常
S
G
D
指
的
就
是
这
种
)
使
⽤
⼀
个
批
量
的
数
据
更
新
参
数
,
因
此
⼤
⼤
降
低
了
⼀
次
迭
代
所
需
的
计
算
量
。
这
种
⽅
法
降
低
了
更
新
参
数
的
⽅
差
,
使
得
收
敛
过
程
更
为
稳
定
;
它
也
能
利
⽤
流
⾏
深
度
学
习
框
架
中
⾼
度
优
化
的
矩
阵
运
算
器
,
从
⽽
⾼
效
地
求
出
每
个
⼩
批
数
据
的
梯
度
。
通
常
⼀
个
⼩
批
数
据
含
有
的
样
本
数
量
在
5
0
⾄
2
5
6
之
间
,
但
对
于
不
同
的
⽤
途
也
会
有
所
变
化
。
动
量
策
略
旨
在
加
速
S
G
D
的
学
习
过
程
,
特
别
是
在
具
有
较
⾼
曲
率
的
情
况
下
。
⼀
般
⽽
⾔
,
动
量
算
法
利
⽤
先
前
梯
度
的
指
数
衰
减
滑
动
平
均
值
在
该
⽅
向
上
进
⾏
修
正
,
从
⽽
更
好
地
利
⽤
历
史
梯
度
的
信
息
。
该
算
法
引
⼊
了
变
量
v
作
为
参
数
在
参
数
空
间
中
持
续
移
动
的
速
度
向
量
,
速
度
⼀
般
可
以
设
置
为
负
梯
度
的
指
数
衰
减
滑
动
平
均
值
。
上
图
后
⾯
所
述
的
R
M
S
P
r
o
p
和
A
d
a
m
等
适
应
性
学
习
率
算
法
是
⽬
前
我
们
最
常
⽤
的
最
优
化
⽅
法
。
R
M
S
P
r
o
p
算
法
(
H
i
n
t
o
n
,
2
0
1
2
)
修
改
A
d
a
G
r
a
d
以
在
⾮
凸
情
况
下
表
现
更
好
,
它
改
变
梯
度
累
积
为
指
数
加
权
的
移
动
平
均
值
,
从
⽽
丢
弃
距
离
较
远
的
历
史
梯
度
信
息
。
R
M
S
P
r
o
p
是
H
i
n
t
o
n
在
公
开
课
上
提
出
的
最
优
化
算
法
,
其
实
它
可
以
视
为
A
d
a
D
e
l
t
a
的
特
例
。
但
实
践
证
明
R
M
S
P
r
o
p
有
⾮
常
好
的
性
能
,
它
⽬
前
在
深
度
学
习
中
有
⾮
常
⼴
泛
的
应
⽤
。
A
d
a
m
算
法
同
时
获
得
了
A
d
a
G
r
a
d
和
R
M
S
P
r
o
p
算
法
的
优
点
。
A
d
a
m
不
仅
如
R
M
S
P
r
o
p
算
法
那
样
基
于
⼀
阶
矩
均
值
计
算
适
应
性
参
数
学
习
率
,
它
同
时
还
充
分
利
⽤
了
梯
度
的
⼆
阶
矩
均
值
(
即
有
偏
⽅
差
/
u
n
c
e
n
t
e
r
e
d
v
a
r
i
a
n
c
e
)
。
8
.
超
参
数
以
下
是
介
绍
超
参
数
的
信
息
图
,
它
在
神
经
⽹
络
中
占
据
了
重
要
的
作
⽤
,
因
为
它
们
可
以
直
接
提
升
模
型
的
性
能
。
章
数
据
。
此
为
临
时
链
接
,
仅
⽤
于
预
览
,
将
在
短
期
内
失
效
。
⽣
成
永
久
预
览
预
估
粉
丝
数
头
条
订
阅
公
众
号
历
史
推
⽂
号
采
集
⽂
机
器
学
习
算
g
u
o
d
o
n
g
w
9
9
1