nndl-book邱锡鹏.pdf

发布时间：2022-06-09 发布人：admin 分类：说明书资料大小：6.81M 资料格式：pdf 举报版权申诉

u013610995-11182842-16359648043179260722.pdf-第1页.png

第1页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第2页.png

第2页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第3页.png

第3页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第4页.png

第4页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第5页.png

第5页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第6页.png

第6页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第7页.png

第7页 / 共444页

u013610995-11182842-16359648043179260722.pdf-第8页.png

第8页 / 共444页

前言

第一部分入门篇

第1章绪论

1.1 人工智能

1.1.1 人工智能的发展历史

1.1.2 人工智能的流派

1.2 神经网络

1.2.1 人脑神经网络

1.2.2 人工神经网络

1.2.3 神经网络的发展历史

1.3 机器学习

1.4 表示学习

1.4.1 局部表示和分布式表示

1.4.2 表示学习

1.5 深度学习

1.5.1 端到端学习

1.5.2 常用的深度学习框架

1.6 本书的组织结构

1.7 总结和深入阅读

第2章机器学习概述

2.1 基本概念

2.2 机器学习的三个基本要素

2.2.1 模型

2.2.2 学习准则

2.2.3 优化算法

2.3 机器学习的简单示例：线性回归

2.3.1 参数学习

2.4 偏差-方差分解

2.5 机器学习算法的类型

2.6 数据的特征表示

2.6.1 传统的特征学习

2.6.2 深度学习方法

2.7 评价指标

2.8 理论和定理

2.8.1 PAC学习理论

2.8.2 没有免费午餐定理

2.8.3 丑小鸭定理

2.8.4 奥卡姆剃刀

2.8.5 归纳偏置

2.9 总结和深入阅读

第3章线性模型

3.1 线性判别函数和决策边界

3.1.1 两类分类

3.1.2 多类分类

3.2 Logistic回归

3.2.1 参数学习

3.3 Softmax回归

3.3.1 参数学习

3.4 感知器

3.4.1 参数学习

3.4.2 感知器的收敛性

3.4.3 参数平均感知器

3.4.4 扩展到多类分类

3.5 支持向量机

3.5.1 参数学习

3.5.2 核函数

3.5.3 软间隔

3.6 损失函数对比

3.7 总结和深入阅读

第二部分基础模型

第4章前馈神经网络

4.1 神经元

4.1.1 Sigmoid型激活函数

4.1.2 修正线性单元

4.1.3 Swish函数

4.1.4 Maxout单元

4.2 网络结构

4.2.1 前馈网络

4.2.2 反馈网络

4.2.3 图网络

4.3 前馈神经网络

4.3.1 通用近似定理

4.3.2 应用到机器学习

4.3.3 参数学习

4.4 反向传播算法

4.5 自动梯度计算

4.5.1 数值微分

4.5.2 符号微分

4.5.3 自动微分

4.6 优化问题

4.6.1 非凸优化问题

4.6.2 梯度消失问题

4.7 总结和深入阅读

第5章卷积神经网络

5.1 卷积

5.1.1 互相关

5.1.2 卷积的变种

5.1.3 卷积的数学性质

5.2 卷积神经网络

5.2.1 用卷积来代替全连接

5.2.2 卷积层

5.2.3 汇聚层

5.2.4 典型的卷积网络结构

5.3 参数学习

5.3.1 误差项的计算

5.4 几种典型的卷积神经网络

5.4.1 LeNet-5

5.4.2 AlexNet

5.4.3 Inception网络

5.4.4 残差网络

5.5 其它卷积方式

5.5.1 转置卷积

5.5.2 空洞卷积

5.6 总结和深入阅读

第6章循环神经网络

6.1 给网络增加记忆能力

6.1.1 延时神经网络

6.1.2 有外部输入的非线性自回归模型

6.1.3 循环神经网络

6.2 简单循环网络

6.2.1 循环神经网络的计算能力

6.3 应用到机器学习

6.3.1 序列到类别模式

6.3.2 同步的序列到序列模式

6.3.3 异步的序列到序列模式

6.4 参数学习

6.4.1 随时间反向传播算法

6.4.2 实时循环学习算法

6.5 长期依赖问题

6.5.1 改进方案

6.6 基于门控的循环神经网络

6.6.1 长短期记忆网络

6.6.2 LSTM网络的各种变体

6.6.3 门控循环单元网络

6.7 深层循环神经网络

6.7.1 堆叠循环神经网络

6.7.2 双向循环神经网络

6.8 扩展到图结构

6.8.1 递归神经网络

6.8.2 图网络

6.9 总结和深入阅读

第7章网络优化与正则化

7.1 网络优化

7.1.1 网络优化的难点

7.2 优化算法

7.2.1 小批量梯度下降

7.2.2 学习率衰减

7.2.3 梯度方向优化

7.2.4 优化算法小结

7.3 参数初始化

7.4 数据预处理

7.5 逐层归一化

7.5.1 批量归一化

7.5.2 层归一化

7.5.3 其它归一化方法

7.6 超参数优化

7.6.1 网格搜索

7.6.2 随机搜索

7.6.3 贝叶斯优化

7.6.4 动态资源分配

7.7 网络正则化

7.7.1 _1和_2正则化

7.7.2 权重衰减

7.7.3 提前停止

7.7.4 丢弃法

7.7.5 数据增强

7.7.6 标签平滑

7.8 总结和深入阅读

第8章注意力机制与外部记忆

8.1 注意力

8.1.1 认知神经学中的注意力

8.1.2 人工神经网络中的注意力机制

8.1.3 注意力机制的变体

8.2 注意力机制的应用

8.2.1 指针网络

8.2.2 自注意力模型

8.3 外部记忆

8.3.1 人脑中的记忆

8.3.2 结构化的外部记忆

8.3.3 典型的记忆网络

8.3.4 基于神经动力学的联想记忆

8.4 总结和深入阅读

第9章无监督学习

9.1 无监督特征学习

9.1.1 主成分分析

9.1.2 稀疏编码

9.1.3 自编码器

9.1.4 稀疏自编码器

9.1.5 堆叠自编码器

9.1.6 降噪自编码器

9.2 概率密度估计

9.2.1 参数密度估计

9.2.2 非参数密度估计

9.3 总结和深入阅读

第10章模型独立的学习方式

10.1 集成学习

10.1.1 AdaBoost算法

10.2 自训练和协同训练

10.2.1 自训练

10.2.2 协同训练

10.3 多任务学习

10.4 迁移学习

10.4.1 归纳迁移学习

10.4.2 转导迁移学习

10.5 终生学习

10.6 元学习

10.6.1 基于优化器的元学习

10.6.2 模型无关的元学习

10.7 总结和深入阅读

第三部分进阶模型

第11章概率图模型

11.1 模型表示

11.1.1 有向图模型

11.1.2 常见的有向图模型

11.1.3 无向图模型

11.1.4 无向图模型的概率分解

11.1.5 常见的无向图模型

11.1.6 有向图和无向图之间的转换

11.2 推断

11.2.1 变量消除法

11.2.2 信念传播算法

11.3 近似推断

11.3.1 蒙特卡罗方法

11.3.2 拒绝采样

11.3.3 重要性采样

11.3.4 马尔可夫链蒙特卡罗方法

11.4 学习

11.4.1 不含隐变量的参数估计

11.4.2 含隐变量的参数估计

11.5 总结和深入阅读

第12章深度信念网络

12.1 玻尔兹曼机

12.1.1 生成模型

12.1.2 能量最小化与模拟退火

12.1.3 参数学习

12.2 受限玻尔兹曼机

12.2.1 生成模型

12.2.2 参数学习

12.2.3 受限玻尔兹曼机的类型

12.3 深度信念网络

12.3.1 生成模型

12.3.2 参数学习

12.4 总结和深入阅读

第13章深度生成模型

13.1 概率生成模型

13.1.1 密度估计

13.1.2 生成样本

13.2 变分自编码器

13.2.1 含隐变量的生成模型

13.2.2 推断网络

13.2.3 生成网络

13.2.4 模型汇总

13.2.5 训练

13.3 生成对抗网络

13.3.1 显式密度模型和隐式密度模型

13.3.2 网络分解

13.3.3 训练

13.3.4 一个生成对抗网络的具体实现：DCGAN

13.3.5 模型分析

13.3.6 改进模型

13.4 总结和深入阅读

第14章深度强化学习

14.1 强化学习问题

14.1.1 典型例子

14.1.2 强化学习定义

14.1.3 马尔可夫决策过程

14.1.4 强化学习的目标函数

14.1.5 值函数

14.1.6 深度强化学习

14.2 基于值函数的学习方法

14.2.1 动态规划算法

14.2.2 蒙特卡罗方法

14.2.3 时序差分学习方法

14.2.4 深度Q网络

14.3 基于策略函数的学习方法

14.3.1 REINFORCE算法

14.3.2 带基准线的REINFORCE算法

14.4 Actor-Critic算法

14.5 总结和深入阅读

第15章序列生成模型

15.1 序列概率模型

15.1.1 序列生成

15.2 N元统计模型

15.3 深度序列模型

15.3.1 参数学习

15.4 评价方法

15.4.1 困惑度

15.4.2 BLEU

15.4.3 ROUGE

15.5 序列生成模型中的学习问题

15.5.1 曝光偏差问题

15.5.2 训练目标不一致问题

15.5.3 计算效率问题

15.6 序列到序列模型

15.6.1 基于循环神经网络的序列到序列模型

15.6.2 基于注意力的序列到序列模型

15.6.3 基于自注意力的序列到序列模型

15.7 总结和深入阅读

附录 A 线性代数

A.1 向量和向量空间

A.1.1 向量

A.1.2 向量空间

A.1.3 范数

A.1.4 常见的向量

A.2 矩阵

A.2.1 线性映射

A.2.2 矩阵操作

A.2.3 矩阵类型

A.2.4 特征值与特征矢量

A.2.5 矩阵分解

附录 B 微积分

B.1 导数

B.1.1 矩阵微积分

B.1.2 导数法则

B.2 常见函数的导数

B.2.1 向量函数及其导数

B.2.2 按位计算的向量函数及其导数

B.2.3 Logistic函数

B.2.4 softmax函数

附录 C 数学优化

C.1 数学优化的类型

C.1.1 离散优化和连续优化

C.1.2 无约束优化和约束优化

C.1.3 线性优化和非线性优化

C.2 优化算法

C.3 拉格朗日乘数法与KKT条件

C.3.1 等式约束优化问题

C.3.2 不等式约束优化问题

附录 D 概率论

D.1 样本空间

D.2 事件和概率

D.2.1 随机变量

D.2.2 随机向量

D.2.3 边际分布

D.2.4 条件概率分布

D.2.5 独立与条件独立

D.2.6 期望和方差

D.3 随机过程

D.3.1 马尔可夫过程

D.3.2 高斯过程

附录 E 信息论

E.1 熵

E.1.1 自信息和熵

E.1.2 联合熵和条件熵

E.2 互信息

E.3 交叉熵和散度

E.3.1 交叉熵

E.3.2 KL散度

E.3.3 JS散度

E.3.4 Wasserstein距离

《神经网络与深度学习》 Neural Networks and Deep Learning 邱锡鹏 xpqiu@fudan.edu.cn 2019 年 5 月 5 日

2 2019 年 5 月 5 日常用符号表标量 d 维列向量 d 维行向量 d 维列向量（d 维）全 0 向量（d 维）全 1 向量第 i 维为 1（或 x），其余为 0 的 one-hot 列向量向量 x 的转置大小为 k × d 的矩阵第 i 列为 1（或 x），其余为 0 的矩阵 k × d 维的向量对角矩阵，其对角线元素为 x （n × n 的）单位阵列向量，其元素为 A 的对角线元素张量集合数据集D = {(x(i), y(i))|i = 1,··· , N} 所有实数的集合定义符号（变量 x 服从）均值为 µ，方差为 Σ 的正态（高斯）分布期望方差指数函数，默认指以自然常数 e 为底的自然指数函数对数函数，默认指以自然常数 e 为底的自然对数函数指示函数。当 x 为真时，I(x) = 1；否则 I(x) = 0。 x x ∈ Rd [x1,··· , xd] [x1,··· , xd]T or [x1;··· ; xd] 0 or 0d 1 or 1d Ii or Ii(x) xT A ∈ Rk×d Mi or Mi(x) x ∈ Rkd diag(x) In or I diag(A) A C or {···} D R , N (µ, Σ) or N (x|µ, Σ) Ex∼p(x)[f(x)] varx∼p(x)[f(x)] exp(x) log(x) I(x) 邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

目录前言第一部分入门篇第 1 章绪论 1.1 人工智能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 人工智能的发展历史 . . . . . . . . . . . . . . . . . . . . 1.1.2 人工智能的流派 . . . . . . . . . . . . . . . . . . . . . . 1.2 神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 人脑神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 人工神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 神经网络的发展历史 . . . . . . . . . . . . . . . . . . . . 1.3 机器学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 表示学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 局部表示和分布式表示 . . . . . . . . . . . . . . . . . . . 1.4.2 表示学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 深度学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 端到端学习 . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2 常用的深度学习框架 . . . . . . . . . . . . . . . . . . . . 1.6 本书的组织结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 5 6 7 9 9 9 11 12 14 15 15 17 17 18 19 20 21

II 2019 年 5 月 5 日目录第 2 章机器学习概述 2.1 基本概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 机器学习的三个基本要素 . . . . . . . . . . . . . . . . . . . . . 2.2.1 模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 学习准则 . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 机器学习的简单示例：线性回归 . . . . . . . . . . . . . . . . . . 2.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 偏差-方差分解 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 机器学习算法的类型 . . . . . . . . . . . . . . . . . . . . . . . . 2.6 数据的特征表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 传统的特征学习 . . . . . . . . . . . . . . . . . . . . . . 2.6.2 深度学习方法 . . . . . . . . . . . . . . . . . . . . . . . . 2.7 评价指标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 理论和定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.1 PAC 学习理论 . . . . . . . . . . . . . . . . . . . . . . . . 2.8.2 没有免费午餐定理 . . . . . . . . . . . . . . . . . . . . . 2.8.3 丑小鸭定理 . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.4 奥卡姆剃刀 . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.5 归纳偏置 . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 3 章线性模型 3.1 线性判别函数和决策边界 . . . . . . . . . . . . . . . . . . . . . 3.1.1 两类分类 . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 多类分类 . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Logistic 回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Softmax 回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 25 26 28 28 29 33 36 37 41 44 45 47 48 48 51 51 52 53 53 53 54 57 58 58 60 61 62 63 64 邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

目录 2019 年 5 月 5 日 III 3.4 感知器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 感知器的收敛性 . . . . . . . . . . . . . . . . . . . . . . 3.4.3 参数平均感知器 . . . . . . . . . . . . . . . . . . . . . . 3.4.4 扩展到多类分类 . . . . . . . . . . . . . . . . . . . . . . 3.5 支持向量机 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.1 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.2 核函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5.3 软间隔 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 损失函数对比 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第二部分基础模型第 4 章前馈神经网络 4.1 神经元 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Sigmoid 型激活函数 . . . . . . . . . . . . . . . . . . . . 4.1.2 修正线性单元 . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Swish 函数 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Maxout 单元 . . . . . . . . . . . . . . . . . . . . . . . . 4.2 网络结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 前馈网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 反馈网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 图网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 前馈神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 通用近似定理 . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 应用到机器学习 . . . . . . . . . . . . . . . . . . . . . . 4.3.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 反向传播算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 自动梯度计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 66 67 69 70 73 74 76 76 77 78 83 85 86 87 90 93 93 94 94 94 95 95 97 98 99 100 102 邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

IV 2019 年 5 月 5 日 4.5.1 数值微分 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 符号微分 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.3 自动微分 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 优化问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6.1 非凸优化问题 . . . . . . . . . . . . . . . . . . . . . . . . 4.6.2 梯度消失问题 . . . . . . . . . . . . . . . . . . . . . . . . 4.7 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 第 5 章卷积神经网络 5.1 卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 互相关 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 卷积的变种 . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.3 卷积的数学性质 . . . . . . . . . . . . . . . . . . . . . . 5.2 卷积神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 用卷积来代替全连接 . . . . . . . . . . . . . . . . . . . . 5.2.2 卷积层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.3 汇聚层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 典型的卷积网络结构 . . . . . . . . . . . . . . . . . . . . 5.3 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 误差项的计算 . . . . . . . . . . . . . . . . . . . . . . . . 5.4 几种典型的卷积神经网络 . . . . . . . . . . . . . . . . . . . . . 5.4.1 LeNet-5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.2 AlexNet . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.3 Inception 网络 . . . . . . . . . . . . . . . . . . . . . . . 5.4.4 残差网络 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 其它卷积方式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 转置卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.2 空洞卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 目录 103 103 104 107 107 107 109 113 114 116 117 118 119 119 120 122 123 124 125 126 126 128 129 130 131 131 134 135 邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

目录第 6 章循环神经网络 2019 年 5 月 5 日 V 6.1 给网络增加记忆能力 . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 延时神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 6.1.2 有外部输入的非线性自回归模型 . . . . . . . . . . . . . 6.1.3 循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 6.2 简单循环网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 循环神经网络的计算能力 . . . . . . . . . . . . . . . . . 6.3 应用到机器学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 序列到类别模式 . . . . . . . . . . . . . . . . . . . . . . 6.3.2 同步的序列到序列模式 . . . . . . . . . . . . . . . . . . . 6.3.3 异步的序列到序列模式 . . . . . . . . . . . . . . . . . . . 6.4 参数学习 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1 随时间反向传播算法 . . . . . . . . . . . . . . . . . . . . 6.4.2 实时循环学习算法 . . . . . . . . . . . . . . . . . . . . . 6.5 长期依赖问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5.1 改进方案 . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6 基于门控的循环神经网络 . . . . . . . . . . . . . . . . . . . . . 6.6.1 长短期记忆网络 . . . . . . . . . . . . . . . . . . . . . . 6.6.2 LSTM 网络的各种变体 . . . . . . . . . . . . . . . . . . . 6.6.3 门控循环单元网络 . . . . . . . . . . . . . . . . . . . . . 6.7 深层循环神经网络 . . . . . . . . . . . . . . . . . . . . . . . . . 6.7.1 堆叠循环神经网络 . . . . . . . . . . . . . . . . . . . . . 6.7.2 双向循环神经网络 . . . . . . . . . . . . . . . . . . . . . 6.8 扩展到图结构 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8.1 递归神经网络 . . . . . . . . . . . . . . . . . . . . . . . . 6.8.2 图网络 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.9 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 140 140 140 141 141 142 144 144 145 145 146 147 148 149 150 151 151 153 154 155 156 156 157 157 159 159 邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

VI 2019 年 5 月 5 日第 7 章网络优化与正则化 7.1 网络优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 网络优化的难点 . . . . . . . . . . . . . . . . . . . . . . 7.2 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 小批量梯度下降 . . . . . . . . . . . . . . . . . . . . . . 7.2.2 学习率衰减 . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.3 梯度方向优化 . . . . . . . . . . . . . . . . . . . . . . . . 7.2.4 优化算法小结 . . . . . . . . . . . . . . . . . . . . . . . . 7.3 参数初始化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5 逐层归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.1 批量归一化 . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2 层归一化 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.3 其它归一化方法 . . . . . . . . . . . . . . . . . . . . . . 7.6 超参数优化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1 网格搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.2 随机搜索 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.3 贝叶斯优化 . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.4 动态资源分配 . . . . . . . . . . . . . . . . . . . . . . . . 7.7 网络正则化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.1 ℓ1 和 ℓ2 正则化 . . . . . . . . . . . . . . . . . . . . . . . . 7.7.2 权重衰减 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.3 提前停止 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.4 丢弃法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.5 数据增强 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.6 标签平滑 . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8 总结和深入阅读 . . . . . . . . . . . . . . . . . . . . . . . . . . . 目录 165 165 165 167 167 169 171 174 175 178 180 180 182 183 184 185 185 185 186 188 188 189 190 190 192 193 193 邱锡鹏：《神经网络与深度学习》 https://nndl.github.io/

分享到：

赞收藏

资料库

nndl-book邱锡鹏.pdf

相关推荐

课程资源

热门标签

最新资料