logo资料库

深度学习手稿-机器学习算法与Python学习.pdf

第1页 / 共23页
第2页 / 共23页
第3页 / 共23页
第4页 / 共23页
第5页 / 共23页
第6页 / 共23页
第7页 / 共23页
第8页 / 共23页
资料共23页,剩余部分请下载后查看
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 1/23 下 载 | 连 『 吴 恩 达 』 都 点 赞 的 深 度 学 习 笔 记 吴 恩 达 在 推 特 上 展 示 了 ⼀ 份 由 T e s s F e r r a n d e z 完 成 的 深 度 学 习 专 项 课 程 信 息 图 , 这 套 信 息 图 优 美 地 记 录 了 深 度 学 习 课 程 的 知 识 与 亮 点 。 因 此 它 不 仅 仅 适 合 初 学 者 了 解 深 度 学 习 , 还 适 合 机 器 学 习 从 业 者 和 研 究 者 复 习 基 本 概 念 。 机 器 之 ⼼ 认 为 这 不 仅 仅 是 ⼀ 份 课 程 笔 记 , 同 时 还 是 ⼀ 套 信 息 图 与 备 忘 录 。 下 ⾯ , 我 们 将 从 深 度 学 习 基 础 、 卷 积 ⽹ 络 和 循 环 ⽹ 络 三 个 ⽅ ⾯ 介 绍 该 笔 记 , 并 提 供 信 息 图 下 载 地 址 。 深 度 学 习 基 础 1 . 深 度 学 习 基 本 概 念 监 督 学 习 : 所 有 输 ⼊ 数 据 都 有 确 定 的 对 应 输 出 数 据 , 在 各 种 ⽹ 络 架 构 中 , 输 ⼊ 数 据 和 输 出 数 据 的 节 点 层 都 位 于 ⽹ 络 的 两 端 , 训 练 过 程 就 是 不 断 地 调 整 它 们 之 间 的 ⽹ 络 连 接 权 重 。 左 上 : 列 出 了 各 种 不 同 ⽹ 络 架 构 的 监 督 学 习 , ⽐ 如 标 准 的 神 经 ⽹ 络 ( N N ) 可 ⽤ 于 训 练 房 ⼦ 特 征 和 房 价 之 间 的 函 数 , 卷 积 神 经 ⽹ 络 ( C N N ) 可 ⽤ 于 训 练 图 像 和 类 别 之 间 的 函 数 , 循 环 神 经 ⽹ 络 ( R N N ) 可 ⽤ 于 训 练 语 ⾳ 和 ⽂ 本 之 间 的 函 数 。 左 下 : 分 别 展 示 了 N N 、 C N N 和 R N N 的 简 化 架 构 。 这 三 种 架 构 的 前 向 过 程 各 不 相 同 , N N 使 ⽤ 的 是 权 重 矩 阵 ( 连 接 ) 和 节 点 值 相 乘 并 陆 续 传 播 ⾄ 下 ⼀ 层 节 点 的 ⽅ 式 ; C N N 使 ⽤ 矩 形 卷 积 核 在 图 像 输 ⼊ 上 依 次 进 ⾏ 卷 积 操 作 、 滑 动 , 得 到 下 ⼀ 层 输 ⼊ 的 ⽅ 式 ; R N N 记 忆 或 遗 忘 先 前 时 间 步 的 信 息 以 为 当 前 计 算 过 程 提 供 ⻓ 期 记 忆 。 章 数 据 。 2 0 2 0 - 0 4 - 3 0 1 8 : 2 7 : 1 3 机 器 学 习 算 法 与 P y t h o n 学 习 ⼿ 机 阅 读 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 壹 伴 图 ⽂ 章 ⼯ 具 采 集 图 ⽂ 合 成 多 采 集 样 式 查 看 封 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 2/23 右 上 : N N 可 以 处 理 结 构 化 数 据 ( 表 格 、 数 据 库 等 ) 和 ⾮ 结 构 化 数 据 ( 图 像 、 ⾳ 频 等 ) 。 右 下 : 深 度 学 习 能 发 展 起 来 主 要 是 由 于 ⼤ 数 据 的 出 现 , 神 经 ⽹ 络 的 训 练 需 要 ⼤ 量 的 数 据 ; ⽽ ⼤ 数 据 本 身 也 反 过 来 促 进 了 更 ⼤ 型 ⽹ 络 的 出 现 。 深 度 学 习 研 究 的 ⼀ ⼤ 突 破 是 新 型 激 活 函 数 的 出 现 , ⽤ R e L U 函 数 替 换 s i g m o i d 函 数 可 以 在 反 向 传 播 中 保 持 快 速 的 梯 度 下 降 过 程 , s i g m o i d 函 数 在 正 ⽆ 穷 处 和 负 ⽆ 穷 处 会 出 现 趋 于 零 的 导 数 , 这 正 是 梯 度 消 失 导 致 训 练 缓 慢 甚 ⾄ 失 败 的 主 要 原 因 。 要 研 究 深 度 学 习 , 需 要 学 会 「 i d e a — 代 码 — 实 验 — i d e a 」 的 良 性 循 环 。 2 . l o g i s t i c 回 归 左 上 : l o g i s t i c 回 归 主 要 ⽤ 于 ⼆ 分 类 问 题 , 如 图 中 所 示 , l o g i s t i c 回 归 可 以 求 解 ⼀ 张 图 像 是 不 是 猫 的 问 题 , 其 中 图 像 是 输 ⼊ ( x ) , 猫 ( 1 ) 或 ⾮ 猫 ( 0 ) 是 输 出 。 我 们 可 以 将 l o g i s t i c 回 归 看 成 将 两 组 数 据 点 分 离 的 问 题 , 如 果 仅 有 线 性 回 归 ( 激 活 函 数 为 线 性 ) , 则 对 于 ⾮ 线 性 边 界 的 数 据 点 ( 例 如 , ⼀ 组 数 据 点 被 另 ⼀ 组 包 围 ) 是 ⽆ 法 有 效 分 离 的 , 因 此 在 这 ⾥ 需 要 ⽤ ⾮ 线 性 激 活 函 数 替 换 线 性 激 活 函 数 。 在 这 个 案 例 中 , 我 们 使 ⽤ 的 是 s i g m o i d 激 活 函 数 , 它 是 值 域 为 ( 0 , 1 ) 的 平 滑 函 数 , 可 以 使 神 经 ⽹ 络 的 输 出 得 到 连 续 、 归 ⼀ ( 概 率 值 ) 的 结 果 , 例 如 当 输 出 节 点 为 ( 0 . 2 , 0 . 8 ) 时 , 判 定 该 图 像 是 ⾮ 猫 ( 0 ) 。 左 下 : 神 经 ⽹ 络 的 训 练 ⽬ 标 是 确 定 最 合 适 的 权 重 w 和 偏 置 项 b , 那 这 个 过 程 是 怎 么 样 的 呢 ? 这 个 分 类 其 实 就 是 ⼀ 个 优 化 问 题 , 优 化 过 程 的 ⽬ 的 是 使 预 测 值 y h a t 和 真 实 值 y 之 间 的 差 距 最 ⼩ , 形 式 上 可 以 通 过 寻 找 ⽬ 标 函 数 的 最 ⼩ 值 来 实 现 。 所 以 我 们 ⾸ 先 确 定 ⽬ 标 函 数 ( 损 失 函 数 、 代 价 函 数 ) 的 形 式 , 然 后 ⽤ 梯 度 下 降 逐 步 更 新 w 、 b , 当 损 失 函 数 达 到 最 ⼩ 值 或 者 ⾜ 够 ⼩ 时 , 我 们 就 能 获 得 很 好 的 预 测 结 果 。 右 上 : 损 失 函 数 值 在 参 数 曲 ⾯ 上 变 化 的 简 图 , 使 ⽤ 梯 度 可 以 找 到 最 快 的 下 降 路 径 , 学 习 率 的 ⼤ ⼩ 可 以 决 定 收 敛 的 速 度 和 最 终 结 果 。 学 习 率 较 ⼤ 时 , 初 期 收 敛 很 快 , 不 易 停 留 在 局 部 极 ⼩ 值 , 但 后 期 难 以 收 敛 到 稳 定 的 值 ; 学 习 率 较 ⼩ 时 , 情 况 刚 好 相 反 。 ⼀ 般 ⽽ ⾔ , 我 们 希 望 训 练 初 期 学 习 率 较 ⼤ , 后 期 学 习 率 较 ⼩ , 之 后 会 介 绍 变 化 学 习 率 的 训 练 ⽅ 法 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 3/23 右 下 : 总 结 整 个 训 练 过 程 , 从 输 ⼊ 节 点 x 开 始 , 通 过 前 向 传 播 得 到 预 测 输 出 y h a t , ⽤ y h a t 和 y 得 到 损 失 函 数 值 , 开 始 执 ⾏ 反 向 传 播 , 更 新 w 和 b , 重 复 迭 代 该 过 程 , 直 到 收 敛 。 3 . 浅 层 ⽹ 络 的 特 点 左 上 : 浅 层 ⽹ 络 即 隐 藏 层 数 较 少 , 如 图 所 示 , 这 ⾥ 仅 有 ⼀ 个 隐 藏 层 。 左 下 : 这 ⾥ 介 绍 了 不 同 激 活 函 数 的 特 点 : s i g m o i d : s i g m o i d 函 数 常 ⽤ 于 ⼆ 分 分 类 问 题 , 或 者 多 分 类 问 题 的 最 后 ⼀ 层 , 主 要 是 由 于 其 归 ⼀ 化 特 性 。 s i g m o i d 函 数 在 两 侧 会 出 现 梯 度 趋 于 零 的 情 况 , 会 导 致 训 练 缓 慢 。 t a n h : 相 对 于 s i g m o i d , t a n h 函 数 的 优 点 是 梯 度 值 更 ⼤ , 可 以 使 训 练 速 度 变 快 。 R e L U : 可 以 理 解 为 阈 值 激 活 ( s p i k i n g m o d e l 的 特 例 , 类 似 ⽣ 物 神 经 的 ⼯ 作 ⽅ 式 ) , 该 函 数 很 常 ⽤ , 基 本 是 默 认 选 择 的 激 活 函 数 , 优 点 是 不 会 导 致 训 练 缓 慢 的 问 题 , 并 且 由 于 激 活 值 为 零 的 节 点 不 会 参 与 反 向 传 播 , 该 函 数 还 有 稀 疏 化 ⽹ 络 的 效 果 。 L e a k y R e L U : 避 免 了 零 激 活 值 的 结 果 , 使 得 反 向 传 播 过 程 始 终 执 ⾏ , 但 在 实 践 中 很 少 ⽤ 。 右 上 : 为 什 么 要 使 ⽤ 激 活 函 数 呢 ? 更 准 确 地 说 是 , 为 什 么 要 使 ⽤ ⾮ 线 性 激 活 函 数 呢 ? 上 图 中 的 实 例 可 以 看 出 , 没 有 激 活 函 数 的 神 经 ⽹ 络 经 过 两 层 的 传 播 , 最 终 得 到 的 结 果 和 单 层 的 线 性 运 算 是 ⼀ 样 的 , 也 就 是 说 , 没 有 使 ⽤ ⾮ 线 性 激 活 函 数 的 话 , ⽆ 论 多 少 层 的 神 经 ⽹ 络 都 等 价 于 单 层 神 经 ⽹ 络 ( 不 包 含 输 ⼊ 层 ) 。 右 下 : 如 何 初 始 化 参 数 w 、 b 的 值 ? 当 将 所 有 参 数 初 始 化 为 零 的 时 候 , 会 使 所 有 的 节 点 变 得 相 同 , 在 训 练 过 程 中 只 能 学 到 相 同 的 特 征 , ⽽ ⽆ 法 学 到 多 层 级 、 多 样 化 的 特 征 。 解 决 办 法 是 随 机 初 始 化 所 有 参 数 , 但 仅 需 少 量 的 ⽅ 差 就 ⾏ , 因 此 使 ⽤ R a n d ( 0 . 0 1 ) 进 ⾏ 初 始 化 , 其 中 0 . 0 1 也 是 超 参 数 之 ⼀ 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 4/23 4 . 深 度 神 经 ⽹ 络 的 特 点 左 上 : 神 经 ⽹ 络 的 参 数 化 容 量 随 层 数 增 加 ⽽ 指 数 式 地 增 ⻓ , 即 某 些 深 度 神 经 ⽹ 络 能 解 决 的 问 题 , 浅 层 神 经 ⽹ 络 需 要 相 对 的 指 数 量 级 的 计 算 才 能 解 决 。 左 下 : C N N 的 深 度 ⽹ 络 可 以 将 底 层 的 简 单 特 征 逐 层 组 合 成 越 来 越 复 杂 的 特 征 , 深 度 越 ⼤ , 其 能 分 类 的 图 像 的 复 杂 度 和 多 样 性 就 越 ⼤ 。 R N N 的 深 度 ⽹ 络 也 是 同 样 的 道 理 , 可 以 将 语 ⾳ 分 解 为 ⾳ 素 , 再 逐 渐 组 合 成 字 ⺟ 、 单 词 、 句 ⼦ , 执 ⾏ 复 杂 的 语 ⾳ 到 ⽂ 本 任 务 。 右 边 : 深 度 ⽹ 络 的 特 点 是 需 要 ⼤ 量 的 训 练 数 据 和 计 算 资 源 , 其 中 涉 及 ⼤ 量 的 矩 阵 运 算 , 可 以 在 G P U 上 并 ⾏ 执 ⾏ , 还 包 含 了 ⼤ 量 的 超 参 数 , 例 如 学 习 率 、 迭 代 次 数 、 隐 藏 层 数 、 激 活 函 数 选 择 、 学 习 率 调 整 ⽅ 案 、 批 尺 ⼨ ⼤ ⼩ 、 正 则 化 ⽅ 法 等 。 5 . 偏 差 与 ⽅ 差 那 么 部 署 你 的 机 器 学 习 模 型 需 要 注 意 些 什 么 ? 下 图 展 示 了 构 建 M L 应 ⽤ 所 需 要 的 数 据 集 分 割 、 偏 差 与 ⽅ 差 等 问 题 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 5/23 如 上 所 示 , 经 典 机 器 学 习 和 深 度 学 习 模 型 所 需 要 的 样 本 数 有 ⾮ 常 ⼤ 的 差 别 , 深 度 学 习 的 样 本 数 是 经 典 M L 的 成 千 上 万 倍 。 因 此 训 练 集 、 开 发 集 和 测 试 集 的 分 配 也 有 很 ⼤ 的 区 别 , 当 然 我 们 假 设 这 些 不 同 的 数 据 集 都 服 从 同 分 布 。 偏 差 与 ⽅ 差 问 题 同 样 是 机 器 学 习 模 型 中 常 ⻅ 的 挑 战 , 上 图 依 次 展 示 了 由 ⾼ 偏 差 带 来 的 ⽋ 拟 合 和 由 ⾼ ⽅ 差 带 来 的 过 拟 合 。 ⼀ 般 ⽽ ⾔ , 解 决 ⾼ 偏 差 的 问 题 是 选 择 更 复 杂 的 ⽹ 络 或 不 同 的 神 经 ⽹ 络 架 构 , ⽽ 解 决 ⾼ ⽅ 差 的 问 题 可 以 添 加 正 则 化 、 减 少 模 型 冗 余 或 使 ⽤ 更 多 的 数 据 进 ⾏ 训 练 。 当 然 , 机 器 学 习 模 型 需 要 注 意 的 问 题 远 不 ⽌ 这 些 , 但 在 配 置 我 们 的 M L 应 ⽤ 中 , 它 们 是 最 基 础 和 最 重 要 的 部 分 。 其 它 如 数 据 预 处 理 、 数 据 归 ⼀ 化 、 超 参 数 的 选 择 等 都 在 后 ⾯ 的 信 息 图 中 有 所 体 现 。 6 . 正 则 化 正 则 化 是 解 决 ⾼ ⽅ 差 或 模 型 过 拟 合 的 主 要 ⼿ 段 , 过 去 数 年 , 研 究 者 提 出 和 开 发 了 多 种 适 合 机 器 学 习 算 法 的 正 则 化 ⽅ 法 , 如 数 据 增 强 、 L 2 正 则 化 ( 权 重 衰 减 ) 、 L 1 正 则 化 、 D r o p o u t 、 D r o p C o n n e c t 、 随 机 池 化 和 提 前 终 ⽌ 等 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 6/23 如 上 图 左 列 所 示 , L 1 和 L 2 正 则 化 也 是 是 机 器 学 习 中 使 ⽤ 最 ⼴ 泛 的 正 则 化 ⽅ 法 。 L 1 正 则 化 向 ⽬ 标 函 数 添 加 正 则 化 项 , 以 减 少 参 数 的 绝 对 值 总 和 ; ⽽ L 2 正 则 化 中 , 添 加 正 则 化 项 的 ⽬ 的 在 于 减 少 参 数 平 ⽅ 的 总 和 。 根 据 之 前 的 研 究 , L 1 正 则 化 中 的 很 多 参 数 向 量 是 稀 疏 向 量 , 因 为 很 多 模 型 导 致 参 数 趋 近 于 0 , 因 此 它 常 ⽤ 于 特 征 选 择 设 置 中 。 此 外 , 参 数 范 数 惩 罚 L 2 正 则 化 能 让 深 度 学 习 算 法 「 感 知 」 到 具 有 较 ⾼ ⽅ 差 的 输 ⼊ x , 因 此 与 输 出 ⽬ 标 的 协 ⽅ 差 较 ⼩ ( 相 对 增 加 ⽅ 差 ) 的 特 征 权 重 将 会 收 缩 。 在 中 间 列 中 , 上 图 展 示 了 D r o p o u t 技 术 , 即 暂 时 丢 弃 ⼀ 部 分 神 经 元 及 其 连 接 的 ⽅ 法 。 随 机 丢 弃 神 经 元 可 以 防 ⽌ 过 拟 合 , 同 时 指 数 级 、 ⾼ 效 地 连 接 不 同 ⽹ 络 架 构 。 ⼀ 般 使 ⽤ 了 D r o p o u t 技 术 的 神 经 ⽹ 络 会 设 定 ⼀ 个 保 留 率 p , 然 后 每 ⼀ 个 神 经 元 在 ⼀ 个 批 量 的 训 练 中 以 概 率 1 - p 随 机 选 择 是 否 去 掉 。 在 最 后 进 ⾏ 推 断 时 所 有 神 经 元 都 需 要 保 留 , 因 ⽽ 有 更 ⾼ 的 准 确 度 。 B a g g i n g 是 通 过 结 合 多 个 模 型 降 低 泛 化 误 差 的 技 术 , 主 要 的 做 法 是 分 别 训 练 ⼏ 个 不 同 的 模 型 , 然 后 让 所 有 模 型 表 决 测 试 样 例 的 输 出 。 ⽽ D r o p o u t 可 以 被 认 为 是 集 成 了 ⼤ 量 深 层 神 经 ⽹ 络 的 B a g g i n g ⽅ 法 , 因 此 它 提 供 了 ⼀ 种 廉 价 的 B a g g i n g 集 成 近 似 ⽅ 法 , 能 够 训 练 和 评 估 值 数 据 数 量 的 神 经 ⽹ 络 。 最 后 , 上 图 还 描 述 了 数 据 增 强 与 提 前 终 ⽌ 等 正 则 化 ⽅ 法 。 数 据 增 强 通 过 向 训 练 数 据 添 加 转 换 或 扰 动 来 ⼈ ⼯ 增 加 训 练 数 据 集 。 数 据 增 强 技 术 如 ⽔ 平 或 垂 直 翻 转 图 像 、 裁 剪 、 ⾊ 彩 变 换 、 扩 展 和 旋 转 通 常 应 ⽤ 在 视 觉 表 象 和 图 像 分 类 中 。 ⽽ 提 前 终 ⽌ 通 常 ⽤ 于 防 ⽌ 训 练 中 过 度 表 达 的 模 型 泛 化 性 能 差 。 如 果 迭 代 次 数 太 少 , 算 法 容 易 ⽋ 拟 合 ( ⽅ 差 较 ⼩ , 偏 差 较 ⼤ ) , ⽽ 迭 代 次 数 太 多 , 算 法 容 易 过 拟 合 ( ⽅ 差 较 ⼤ , 偏 差 较 ⼩ ) 。 因 此 , 提 前 终 ⽌ 通 过 确 定 迭 代 次 数 解 决 这 个 问 题 。 7 . 最 优 化 最 优 化 是 机 器 学 习 模 型 中 ⾮ 常 ⾮ 常 重 要 的 模 块 , 它 不 仅 主 导 了 整 个 训 练 过 程 , 同 时 还 决 定 了 最 后 模 型 性 能 的 好 坏 和 收 敛 需 要 的 时 ⻓ 。 以 下 两 张 信 息 图 都 展 示 了 最 优 化 ⽅ 法 需 要 关 注 的 知 识 点 , 包 括 最 优 化 的 预 备 和 具 体 的 最 优 化 ⽅ 法 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 7/23 以 上 展 示 了 最 优 化 常 常 出 现 的 问 题 和 所 需 要 的 操 作 。 ⾸ 先 在 执 ⾏ 最 优 化 前 , 我 们 需 要 归 ⼀ 化 输 ⼊ 数 据 , ⽽ 且 开 发 集 与 测 试 集 归 ⼀ 化 的 常 数 ( 均 值 与 ⽅ 差 ) 与 训 练 集 是 相 同 的 。 上 图 也 展 示 了 归 ⼀ 化 的 原 因 , 因 为 如 果 特 征 之 间 的 量 级 相 差 太 ⼤ , 那 么 损 失 函 数 的 表 ⾯ 就 是 ⼀ 张 狭 ⻓ 的 椭 圆 形 , ⽽ 梯 度 下 降 或 最 速 下 降 法 会 因 为 「 锯 ⻮ 」 现 象 ⽽ 很 难 收 敛 , 因 此 归 ⼀ 化 为 圆 形 有 助 于 减 少 下 降 ⽅ 向 的 震 荡 。 后 ⾯ 的 梯 度 消 失 与 梯 度 爆 炸 问 题 也 是 ⼗ 分 常 ⻅ 的 现 象 。 「 梯 度 消 失 」 指 的 是 随 着 ⽹ 络 深 度 增 加 , 参 数 的 梯 度 范 数 指 数 式 减 ⼩ 的 现 象 。 梯 度 很 ⼩ , 意 味 着 参 数 的 变 化 很 缓 慢 , 从 ⽽ 使 得 学 习 过 程 停 滞 。 梯 度 爆 炸 指 神 经 ⽹ 络 训 练 过 程 中 ⼤ 的 误 差 梯 度 不 断 累 积 , 导 致 模 型 权 重 出 现 很 ⼤ 的 更 新 , 在 极 端 情 况 下 , 权 重 的 值 变 得 ⾮ 常 ⼤ 以 ⾄ 于 出 现 N a N 值 。 梯 度 检 验 现 在 可 能 ⽤ 的 ⽐ 较 少 , 因 为 我 们 在 T e n s o r F l o w 或 其 它 框 架 上 执 ⾏ 最 优 化 算 法 只 需 要 调 ⽤ 优 化 器 就 ⾏ 。 梯 度 检 验 ⼀ 般 是 使 ⽤ 数 值 的 ⽅ 法 计 算 近 似 的 导 数 并 传 播 , 因 此 它 能 检 验 我 们 基 于 解 析 式 算 出 来 的 梯 度 是 否 正 确 。 下 ⾯ 就 是 具 体 的 最 优 化 算 法 了 , 包 括 最 基 本 的 ⼩ 批 量 随 机 梯 度 下 降 、 带 动 量 的 随 机 梯 度 下 降 和 R M S P r o p 等 适 应 性 学 习 率 算 法 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
2020/4/30 下载 | 连『吴恩达』都点赞的深度学习笔记 https://mp.weixin.qq.com/s?__biz=MzIxODM4MjA5MA==&tempkey=MTA1OV9QL2FOekdvZ0crbHZKZzRQRXg3SlpzcEtnV1ItMGlLZjZsbVl4aFJCcTIx… 8/23 ⼩ 批 量 随 机 梯 度 下 降 ( 通 常 S G D 指 的 就 是 这 种 ) 使 ⽤ ⼀ 个 批 量 的 数 据 更 新 参 数 , 因 此 ⼤ ⼤ 降 低 了 ⼀ 次 迭 代 所 需 的 计 算 量 。 这 种 ⽅ 法 降 低 了 更 新 参 数 的 ⽅ 差 , 使 得 收 敛 过 程 更 为 稳 定 ; 它 也 能 利 ⽤ 流 ⾏ 深 度 学 习 框 架 中 ⾼ 度 优 化 的 矩 阵 运 算 器 , 从 ⽽ ⾼ 效 地 求 出 每 个 ⼩ 批 数 据 的 梯 度 。 通 常 ⼀ 个 ⼩ 批 数 据 含 有 的 样 本 数 量 在 5 0 ⾄ 2 5 6 之 间 , 但 对 于 不 同 的 ⽤ 途 也 会 有 所 变 化 。 动 量 策 略 旨 在 加 速 S G D 的 学 习 过 程 , 特 别 是 在 具 有 较 ⾼ 曲 率 的 情 况 下 。 ⼀ 般 ⽽ ⾔ , 动 量 算 法 利 ⽤ 先 前 梯 度 的 指 数 衰 减 滑 动 平 均 值 在 该 ⽅ 向 上 进 ⾏ 修 正 , 从 ⽽ 更 好 地 利 ⽤ 历 史 梯 度 的 信 息 。 该 算 法 引 ⼊ 了 变 量 v 作 为 参 数 在 参 数 空 间 中 持 续 移 动 的 速 度 向 量 , 速 度 ⼀ 般 可 以 设 置 为 负 梯 度 的 指 数 衰 减 滑 动 平 均 值 。 上 图 后 ⾯ 所 述 的 R M S P r o p 和 A d a m 等 适 应 性 学 习 率 算 法 是 ⽬ 前 我 们 最 常 ⽤ 的 最 优 化 ⽅ 法 。 R M S P r o p 算 法 ( H i n t o n , 2 0 1 2 ) 修 改 A d a G r a d 以 在 ⾮ 凸 情 况 下 表 现 更 好 , 它 改 变 梯 度 累 积 为 指 数 加 权 的 移 动 平 均 值 , 从 ⽽ 丢 弃 距 离 较 远 的 历 史 梯 度 信 息 。 R M S P r o p 是 H i n t o n 在 公 开 课 上 提 出 的 最 优 化 算 法 , 其 实 它 可 以 视 为 A d a D e l t a 的 特 例 。 但 实 践 证 明 R M S P r o p 有 ⾮ 常 好 的 性 能 , 它 ⽬ 前 在 深 度 学 习 中 有 ⾮ 常 ⼴ 泛 的 应 ⽤ 。 A d a m 算 法 同 时 获 得 了 A d a G r a d 和 R M S P r o p 算 法 的 优 点 。 A d a m 不 仅 如 R M S P r o p 算 法 那 样 基 于 ⼀ 阶 矩 均 值 计 算 适 应 性 参 数 学 习 率 , 它 同 时 还 充 分 利 ⽤ 了 梯 度 的 ⼆ 阶 矩 均 值 ( 即 有 偏 ⽅ 差 / u n c e n t e r e d v a r i a n c e ) 。 8 . 超 参 数 以 下 是 介 绍 超 参 数 的 信 息 图 , 它 在 神 经 ⽹ 络 中 占 据 了 重 要 的 作 ⽤ , 因 为 它 们 可 以 直 接 提 升 模 型 的 性 能 。 章 数 据 。 此 为 临 时 链 接 , 仅 ⽤ 于 预 览 , 将 在 短 期 内 失 效 。 ⽣ 成 永 久 预 览 预 估 粉 丝 数 头 条 订 阅 公 众 号 历 史 推 ⽂ 号 采 集 ⽂ 机 器 学 习 算 g u o d o n g w 9 9 1
分享到:
收藏