logo资料库

量子机器学习算法综述.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
综述 综述 大数据时代机器学习的新趋势 陈 康 1,向 勇 1,喻 超 2 (1.中国电信股份有限公司广东研究院 广州 510630;2.广州优亿信息科技有限公司 广州 510630) 摘 要 当 前 ,大 数 据 技 术 和 应 用 吸 引 了 众 多 的 关 注 ,对 大 量 结 构 繁 多 的 数 据 进 行 分 析 并 获得 知 识 ,需 要 充 分 利 用 机 器 学 习 的 相 关 技 术 和 成 果 。 本 文 主 要 讨 论 了 大 数 据时 代 机 器 学 习 的 发 展 新 趋 势 和 研 究 重 点 ,并 对 与 大 数 据 相 关 性 大 的 几 个 关 键 技 术 进 行 了 分 析 介 绍 。 关键词 大 数 据 ;机 器 学 习 ;半 监 督 学 习 ;集 成 学 习 ;概 率 图 模 型 ;迁 移 学 习 文献标识码 A doi: 10.3969/j.issn.1000-0801.2012.12.014 1 引言 机 器 学 习 是 人 工 智 能 的 一个 核 心 研 究 领 域 。 1997 年 Mitchell T M 在 “Machine Learning”一书中给出了机器学习 的经典定义“计算机利用经验改善系统自身性能的行为 ”[1]。 人类具有学习能力 ,其学习行为背后具有非常复杂的处理 机制,这种处理机制就是机器学习理论 。 机器学习主要研 究如何使用计算机模拟和实现人类获取知识 (学习 )过程 , 创新、重构已有的知识,从而提升自身处理问题的能力 。 机 器学习的最终目的是从数据中获取知识 。 近年来 ,大数据吸引了越来越多的关注 。 从各种各样 的数据(包括结构化、半结构化和非结构化数据 )中快速获 得有价值信息的能力 ,就是大数据技术 。 传统数据分析技 术着重于用预先设定的适当统计方法对数据进行分析 ,以 求 发 现 数 据 的 功 能和 价 值 ;与 传 统 数 据 分 析 相 比 ,大 数 据 技术的其中一个核心目标是要从体量巨大 、结构繁多的数 据中挖掘出隐藏在背后的规律 ,从而使数据发挥最大化的 价值。 从大量结构繁多的数据中挖掘隐藏规律 ,对人工操 作而言,几乎无能为力 ,必须与机器学习相结合 ,由计算机 代替人去挖掘信息 ,获取知识 。 大数据技术的目标实现与 88 机器学习的发展必然密不可分 。 业界对大数据的特征也进行了归纳,主要包括以下 4 点 (“4 个 V”): 数 据 体 量 巨 大 (volume)、 数 据 类 型 繁 多 (variety)、数据价值密度低(value)、有很多实时数据要求快 速处理 (velocity)。 由于这几大特征 ,大数 据 的 发 展 从 研 究 方向、评测指标以及关键技术等方面对机器学习都提出了 新的需求和挑战。 2 研究方向 在 整 个 机 器 学 习 的 发 展 历 程 中 , 一 直 有 两 大 研 究 方 向。 一是研究学习机制 ,注重探索 、模拟人的学习机制 ;二 是 研 究 如 何 有 效 利 用 信 息 , 注 重 从 巨 量 数 据 中 获 取 隐 藏 的、有效的、可理解的知识。 学习机制的研究是机器学习产 生的源泉,但随着大数据时代各行业对数据分析需求的持 续 增 加 ,通 过 机 器 学 习 高 效 地 获 取 知 识 ,已 逐 渐 成 为 当 今 机器学习技术发展的主要推动力 。 大数据时代的机器学习更强调 “学习本身是手段 ”,机 器学习成为一种支持技术和服务技术 ,如何基于机器学习 对复杂多样的数据进行深层次的分析 ,更高效地利用信息 成为当前机器学习研究的主要方向 。 机器学习越来越朝着
智能数据分析的方向发展 ,并已成为智能数据分析技术的 一个重要源泉。 另外,在大数据时代,随着数据产生速度的 持续 加 快 ,数 据 的 体 量 有 了 前 所 未 有 的 增 长 ,而 需 要 分 析 的 新 的 数 据 种 类 也 在不 断 涌 现 ,如 文 本 的 理 解 、文 本 情 感 的分析、图像的检索和理解 、图形和网络数据的分析等 ,机 器学习研究领域涌现了很多新的研究方向 ,很多新的机器 学习方法被提出并得到了广泛应用 。 比如 ,考虑如何利用 未标识数据的半监督学习 (semi-supervised learning)[2,3],有 效解决训练数据质量问题 ;提高学习结果的泛化能力的集 成 学 习 (integrated learning) [4]; 在 不 同 的 领 域 进 行 知 识 迁 移 的 迁 移 学 习 (transfer learning)等 ,吸 引 了 广 泛 的 研 究 和 兴趣。 机器学习要成为大数据时代的有效分析方法,还应特别 解决可扩展性问题 ,即如何处理大规模数据的问题,这时需 要考虑采用并行化的方法。 大数据时代的特点及要求如下。 (1)大量的数据实例 在 很 多 领 域 ,如 互 联 网 和 金 融 领 域 ,训 练 实 例 的 数 量 是非常大的, 每天汇合几十亿事件的数据集是很常见的 。 另 外 ,越 来 越 多 的 设备 包 括 传 感 器 ,持 续 记 录 观 察 的 数 据 可 以 作 为 训 练 数 据 , 这 样 的 数 据 集 可 以 轻 易 地 达 到 几 百 TB。有效处理大数据集的比较好的方式是组合服务器群的 存储 和 带 宽 。 最 近 提 出 的 几 个 计 算 框 架 如 MapReduce 和 DryadLINQ,让大数据集的计算变得更加容易 。 这些框架通 过简单的、天然可并行化的语言原语将编程框架和使用高 容量存储及执行平台的能力有效地组合在一起 。 (2)输入数据的高维度 机 器 学 习 的 应 用 包 括 自 然 语 言 、图 形 或 者 视 频 ,这 些 应用中的数据实例是由很多数量的特征来表示的 ,远远超 过了目前常见的能够轻松处理的特征量级别 。 在特征空间 进行并行计算是可以将计算扩展得更丰富的表示方法 ,还 可以加入一些在特征空间进行迭代运算的算法 。 (3)模型和算法的复杂性 一些高准确性的学习算法 ,基于复杂的非线性模型或 者采用昂贵的计算子程序 。 在这两种情况下 ,将计算分配 到多个处理单元是大数据学习算法的关键点 。 某些领域的 数据在一些基本的特征上是非线性结构 ,在这些应用中采 用 高 度 非 线 性表 示 方 法 比 采 用 简 单 的 算 法 在 性 能 上 要 好 很多。 这类算法的一个共同特征是计算复杂性 ,单台机器 的 学 习 过 程 可 能 会 非 常 慢 。 采 用 并 行 多 节 点 或 者 多 核 处 理,可提高在大数据中使用复杂算法和模型的计算速度 。 电信科学 2012 年第 12 期 (4)计算时间的限制 很 多 应 用 ,如 自 动 导 航 或 智 能 推 荐 等 ,都 需 要 进 行 实 时预测。 在这些情形下由于推理速度的限制 ,需要推理算 法的并行化。 决定系统计算时间的因素一般有两个 :一是 单任务的处理时间 ,该情况下计算时间的缩短可以通过提 高系统单机的处理能力和吞吐量来解决 ;另一个因素是时 延 ,在 绝 大 多 数 应用 场 合 ,任 务 由 多 个 相 互 关 联 的 进 程 组 成 ,不 同 进 程 的 处理 时 间 长 短 不 一 ,任 务 整 体 的 处 理 实 际 有待于各个进程的结果 ,如某一进程处理时间延长会造成 时延,整个任务的处理速度会随着时延的增加快速下降。 例 如,自动导航需要基于多个传感器做出路径规划的决策;智 能推荐需要综合用户的特征分析、历史记录等。 处理能力、 吞吐量和时延的限制并不总是兼容,但对于两者来说,采用 高度并行化的硬件(如 GPU 或者 FPGA 等)十分有效。 (5)预测级联 有些应用要求顺序、互相依赖的预测,这些应用具有高 度复杂的联合输出空间,并行化在这种情形下可以大大提高 推理的速度。 很多现实中的问题如物体追踪、话音识别以及 机器翻译,都要求执行一系列互相依赖的预测,形成预测级 联。 如果一个级联作为一个推理任务,就会有一个很大的联 合输出空间,因为计算复杂性的增加,通常会导致非常高的 计算成本。 在预测任务之间的互相依赖性通常是通过对单个 任务进行阶梯式的并行化以及自适应的任务管理来实现的。 (6)模型选择和参数扫描 调 整 学 习 算 法 的 超 参 数 以 及 统 计 重要 性 评 估 要 求 多 次执行学习和推理 , 这些过程属于所谓的可并行化应用 , 本身就非常适合并发执行 。 在参数扫描中 ,学习算法在配 置不同的同一个数据集上运行多次 ,然后在一个验证集上 进 行 评 估 ; 在 统 计 重 要 性 测 试 过 程中 如 交 叉 验 证 或 者 bootstraping 中 , 训 练 和 测 试 在 不 同 的 数 据 子 集 上重 复 执 行,执行的结果汇合在一起以进行接下来的统计重要性测 试。 在这些任务中,并行平台的用途是非常明显的 。 3 主要评测指标 大数据的价值发现好比大海捞针 ,从数据中挖掘出价 值,而不是被大量数据所淹没 。 这要求服务于大数据的机 器学习技术在以下各个方面能有较好的适应能力 。 (1)泛化能力 通 常 期 望 经 训 练 样 本 训 练 的 机 器 学 习算 法 具 有 较 强 的泛化能力, 也就是能对新输入给出合理响应的能力 ,这 89
综述 是评估机器学习算法性能的最重要指标 。 机器学习最基本 的目标是对训练数据中的实例进行泛化推广 。 不管有多少 数据,在测试时要再次看到那些同样的实例是非常不可能 的。 在训练数据上表现好是很容易的 ,只需要记住那些实 例。 在机器学习中最一般的错误是在训练数据上进行测试, 然后错误地认为成功了。 这样选择的分类器如果在新数据 上进行测试,输出的结果可能不会比随机的猜测更好。 (2)速度 在机器学习中, 和速度有关的参数有训练速度和测试 速度,这两者是互相关联的。 有的算法能够取得很好的训练 速度,但测试速度却很慢;而有的算法恰恰相反。 所以一个 很重要的研究方向是如何协调这两者之间的关系, 开发出 在训练速度和测试速度方面表现都很好的机器学习算法。 (3)可理解性 很多功能强大的机器学习算法基本上都是 “黑盒子 ”, 对 用 户 而 言 ,只 能 看 到 输 出 结 果 ,却 不 知 道 为 什 么 是 这 样 的结果。 随着数据量的增加、问题复杂度的提高,人们在得 到结果的同时更加希望了解为什么得到这样的结果 。 (4)数据利用能力 人们收集数据的能力越来越强 ,收集的数据类型也越 来 越 多 ,不 仅 包 括 有 标 识 的 数 据 ,还 有 大 量 未 标 识 的 数 据 以及那些含有大量噪声 、不一致 、不完整的脏数据 、平衡数 据。 如果还是像以前一样简单地丢弃脏数据 ,在信息过程 中 只 使 用 已 标 识 数 据 ,不 使 用 未 标 识 数 据 ,那 么 就 会 造 成 数据的很大浪费,而且学习到的模型的泛化能力会面临很 大的问题。 所以研究并开发能够有效利用所有这些数据的 机器学习方法具有非常重要的实际意义 。 (5)代价敏感 面向算法研究的机器学习原型系统在向实际可用的机 器学习系统转换时 ,会面临更多、更复杂的内外部因素的影 响。 这其中一个重要的因素就是在现实世界中,不同的领域 中不同误判结果间代价的平衡性, 有的误判结果可能会导 致很严重的后果,而有的则影响很小。 大数据分析的精髓就 在于综合各种内部、 外部数据对一个事物进行 360°的刻画 和解读,涉及的因素更多。 近年来,代价敏感的学习算法就 是这方面的一个有效的解决方案。 在这类算法中,通过引入 代价信息来度量误判的严重性, 不同的代价参数代表不同 的损失,最终的目标是最小化总的代价而不是总的错误。 (6)知识的迁移性 如 何 将 从 一 个 任 务 中 学 习 到 的 知 识 迁移 到 其 他 任 务 90 中,以提高其他相关任务的学习性能 。 比如,监督学习的公 式 化 中 包 括 学 习 函 数 ,在 很 多 大 数 据 场 景 中 ,可 能 会 需 要 学习一系列相关的函数 ,比如用户互联网社交关系判断函 数以及用户实际生活社交关系判断函数 。 虽然在这两种情 况下判断函数会有所不同 ,但它们还是有很多共同点的 。 (7)数据隐私性 如何在获得数据分析成果的同时 ,保护数据的隐私。 4 关键技术 当前, 机器学习研究与应用中最常用的关键技术有 : 半监督学习 、集成学习 (含 Boosting、Bagging 等算法 )、迁 移 学 习 、贝 叶 斯 网 络 、决 策 树 、统 计 学 习 理 论 与 支 持 向 量 机 、 隐马尔可夫模型 、神经网络 、k 近邻方 法 、序 列 分 析 、聚 类 、 粗糙集理论、回归模型等。 其中在大数据分析中,半监督学 习 、 集 成 学 习 、 迁 移 学 习 和 概 率 图 模 型 (probabilistic graphical model,PGM)等技术尤为重要。 4.1 半监督学习 按照传统的机器学习理论框架 ,机器学习可以分为有 监督学习和无监督学习两类 。 在有监督学习中 ,利用的是 已标识数据,而无监督学习中只利用未标识数据 。 在大数 据 时 代 ,随 着 数 据 采 集技 术 和 存 储 技 术 的 发 展 ,获 取 大 量 未 标 识 数 据 是 很 容 易 的 。 但 如 果 要 获 得 大 量 的 已 标 识 数 据,因为需要领域人才的参与 ,非常耗时耗力 ,而且也是一 个很容易出错的过程。 所以,在现实世界中,未标识数据的 数量远大于已标识数据的数量 ,如果这些未标识数据不能 得到很好的利用, 学到的模型的泛化能力可能会很差 ,还 会造成数据的浪费;而如果像无监督学习一样只使用未标 识数据,就会忽视已标识数据的价值 。 半监督学习就是研 究如何综合利用少量已标识数据和大量未标识数据 ,获得 具有良好性能和泛化能力的学习机器 。 的类别标识 yi 半监督学习利用的数据集 X={x1,x2,…,xn}(n=l+u)可 以 分 为 两 部 分 :一 部 分 是 有 标 识的 数 据 集 Xl={x1,…,xl},这 部 已经给出;另一部分 分数据集中的样本点 xi 是 无 标 识 数 据 集 Xu={xl+1,… ,xl+u},这 部 分 数 据 集 中样 本 点 的类别标识未知。与实际情况相符,一般假设 u>>l,即无标 识数据远远多于有标识数据 。 半监督学习的工作原理主要 基于 3 个假设:半监督光滑假设、聚类假设以及流型假设[5]。 半 监 督 光 滑 假 设 是 指 如 果 在 高 密 度 区的 两 个 点 是 相 近 的 ,即 由 一 个 高 密 度路 径 相 连 ,那 么 它 们 对 应 的 输 出 也 是 相 近 的 ;如 果 两 个 点 被 一 个 低 密 度 区 域 分 隔 ,那 么 对 应
的输出不一定是相近的,适用于分类和回归学习任务 。 聚 类假设是指属于同一个聚类的数据实例 ,很有可能具有相 同的分类标识。 根据这个假设,可以利用未标识数据更准 确地找到每个聚类的边界 。 聚类假设并不是指每个分类都 形成 一 个 单 一 的 、紧 凑 的 聚 类 ,只 表 示 不 太 可 能 在 同 一 个 聚类中观察到属于两个不同分类的数据 。 流型假设是指高 维的数据大致上分布在一个低维的流型上 。 很多统计方法 和机 器 学 习 算 法 中 的 一 个 主 要 问题 是 所 谓 的 维 数 灾 难 问 题, 这个问题对生成式模型的半监督学习有很大影响 ,而 流型假设为这个问题的解决提供了一个很好的基础 。 如果 数据正好分布在低维的流型中 ,那么机器学习算法就可以 在这个低维的空间中进行 ,从而避免维数灾难的问题 。 半监督学习方法包括基于生成式模型的半监督学习 、 基于低密度划分的半监督学习 、基于图的半监督学习以及 基于不一致性的半监督学习 。 基于生成式模型的半监督学 习方法利用了聚类假设,未标识数据所属类别的概率被看 成一组缺失参数,采用最大期望算法对生成式模型的参数 进行极大似然估计。 基于生成式模型的半监督学习方法具 有简 单 、直 观 的 特 点 ,在 训 练 数 据 特 别是 有 标 识 数 据 很 少 时,可以获得比判别式模型更好的性能 。 但在模型假设与 数据分布不一致时,使用大量的未标识数据来估计模型参 数会降低学到模型的泛化能力 。 所以需要寻找合适的生成 式模型,这需要大量的相关领域的知识 。 基于低密度划分 的半监督学习方法也基于聚类假设 ,要求决策边界尽量通 过数据较为稀疏的区域,以免把聚类中稠密的数据点分到 决策边界两侧。 基于图的半监督学习方法基于流型假设 , 假 设 所 有 的 样 本 点 (包 括 已 标 识 与 未 标 识 )以 及 之 间 的 关 系 可 以 表 示 为 一 个 无 向 图 的形 式 , 图 的 节 点 为 数 据 样 本 点,而边则体现了两个样本点之间的相似度关系 。 基于图 的 半 监 督 算 法 的 优 化 目 标 就 是 要 保证 在 已 标 识 点 上 的 结 果尽量符合而且要满足流型假设要求 。 基于不一致性的半 监督学习方法利用了聚类假设和流型假设 ,使用两个或多 个学习机器,通过在不同视图下的数据集进行学习的两个 分类器之间的交互来提高分类器的精度 ,未标识样例被分 类 器 逐 步 标 识 ,选 出 确 信 度 最 高 的 样 例 加入 训 练 集 ,不 断 重复,直到未标识集全部标识为止 ,更新模型。 根据以上的讨论,半监督学习可以利用未标识数据来 提高学习的性能。 但在实际应用中,很难测试到底哪些假 设(光滑假设、聚类假设、流型假设)是成立的 ,如果选择了 错误的算法,那么学习算法的性能有可能很差 。 在这种情 电信科学 2012 年第 12 期 况下 ,安全的半监督学习算法具有很大的应用前景 ,在任 何情况下,至少能够获得和监督学习同样的性能 。 通过维 护多种类型学习器的一个后验分布 ,贝叶斯建模提供了一 个可行的方案。 这种方案面临的挑战是需要在假设和学习 器中定义一个智能的先验分布 ,并为不同类型的半监督学 习 器 定 义 贝 叶 斯 公 式 , 以 便 可 以 定 义 一 个 合 适 的 似 然 函 数。 其他的安全的半监督学习算法还可以通过开发顽健的 基 于 图 的 方 法 来 获 得 ,或 者 不 做 那 么 严格 的 假 设 ,使 得 这 些假设在更多、更复杂的数据集中都可以被满足 。 另外,以上讨论的半监督学习算法只是利用了已标识 数据和未标识数据之间的关系 ,还有很多其他类型的关系 并没有得到很好的利用,这在大数据时代尤为突出 。 比如, 假 设 希 望 为 社 交 网 络 中 的 人 预 测分 类 标 识 或 者 数 字 型 数 值等,那么社交网络中人与人之间的朋友关系或者共同的 兴趣爱好、相近的地理位置、点击了同一个广告等关系 ,都 可以用来提高半监督学习的性能 。 将这些信息集成到半监 督学习的算法中具有非常重要的实际意义 。 4.2 集成学习 在现实生活中,一群人经常能比一个人做出更好的决 策,特别是当群体中的每个人都有不同见解时 。 对于机器 学习来说,这个道理同样适用。 集成学习就是这样的机器 学习方法, 通过将多个不同的学习系统的结果进行整合 , 可以获得比单个学习系统更好的性能 。 在集成学习中 ,即 便是采用更简单的学习系统 ,也可以获得更好的性能 。 另 外 ,集 成 学 习 的 架 构 本 质 上 就 具 有 易 于并 行 的 特 性 ,为 在 处理大数据时提高训练和测试效率提供了很好的基础 。 自 集成学习的概念提出,集成学习在很多领域得到了快速的 发展和广泛的应用。 传统的机器学习的原理是搜索 ,通过搜索所有可能函 数构成的假设空间集合,找出一个最逼近未知函数的近似 函数。 一般来说,传统机器学习的输出结果都会面临 3 个 方面的问题:统计、计算和表示上的问题。 在搜索一个由巨 大的训练数据集构成的假设空间时 ,就会面临统计上的问 题。 由于可用的训练数据很多 ,就会存在多个具有相同准 确度的不同假设,但传统的机器学习算法必须在这些不同 的假设中挑选一个。 选择哪一个都面临着很大的风险 ,虽 然这些输出在训练数据上的表现相同 ,但在新的数据上的 表现可能有很大的差距。 如果采用集成学习中那种简单 、 平等的投票机制进行选择 ,就可以降低这样的风险 。 在学 习 算 法 不 能 保 证 在 假 设 空 间 中 找到 一 个 最 好 的 输 出 结 果 91
综述 时 ,就 面 临 计 算 上 的问 题 ,常 出 现 在 因 为 计 算 的 复 杂 性 而 不得不采用启发式方法时 ,找到的结果有可能是局部最优 的 ,如 果 利 用 加 权 方 法 ,将 各 种 局 部 最 优 的 结 果 整 合 起 来 作为输出,可以有效降低这种局部最优的风险 。 最后,当假 设空间没有包含可以逼近未知函数的假设时 ,就面临表示 上的问题。 如果可以给每个假设赋予不同的权重 ,并进行 简单的投票方式,就有可能找到一个非常逼近未知函数的 近似函数。 通过以上的分析, 可以看到集成学习可以解决传统机 器学习中的很多问题。 在大数据时代,由于数据体量大、数 据结构复杂、数据的质量参差不齐,以上这些问题可能更加 突出,所以集成学习必定会成为大数据分析强有力的工具。 一个集成学习算法包括多个基本学习器 (经常称作弱 学习器), 基本学习器通常在训练数据上运用传统的机器 学习算法(如决策树、神经网络或其他的学习算法 )而生成 的。 同构集成学习采用单个基本学习算法生成相同类型的 基本学习器,异构集成学习则采用多个不同的学习算法生 成不同类型的基本学习器 。 在异构集成学习中 ,因为没有 单个相同的基本学习算法 ,所以有很多学者更倾向于称这 些学习器为组件学习器。 集成学习的泛化能力远远超过了 基本 学 习 器 的 泛 化 能 力 ,这 恰 恰 是 集 成 学 习 的 优 势 ,即 可 以提高那些仅仅比随机猜测好一点的弱学习器的性能 ,将 其变成可以做出准确预测的强学习器 。 根据基本学习器生 成的 方 法 ,可 以 将 集 成 学 习 分 为 两 类 :一 类 是 顺 序 的 集 成 学 习 方 法 ,基 本 学 习 器 是 按 次 序 生 成 的 ,这 类 算 法 利 用 基 本学习器之间的相关性, 整体的性能通过减小残余错误的 方式来提高 ,一个典型的例子是 Boosting;另一类是并行集 成学习方法,基本学习器是并行生成的,这类算法利用基本 学习器之间的独立性 ,通过综合多个独立的基本学习器,可 以大大减小学习的错误,一个典型的例子是 Bagging。 Boosting 算法的核心是弱学习假设 [6],即假设基本学习 器 在 基 于 给 定的 训 练 数 据 上 只 产 生 一 个 比 随 机 猜 测 好 一 点的弱结果 。 Boosting 算法只能通过不断地调用基本学习 算法从训练数据中学习 ,如果基本学习器只是简单地重复 调 用 ,并 利 用 相 同 的训 练 数 据 集 ,这 种 方 式 不 可 能 产 生 好 的结果。 Boosting 的基本思路是为基本学习器选择合适的 训练数据集,使得每次调用基本学习器都可以从数据中得 到一些新的信息。 这可以通过选择以前的基本学习器表现 差的 数 据 集 ,对 这 些 数 据 集 进 行 加 强 学 习 ,这 样 基 本 学 习 器可以输出比之前更好的结果 。 92 Bagging 由 Breiman 提出[7],其两个主要的组件是 bootstrap 和 aggregation。 Bagging 的最关键环节是如何获得尽可能独 立的基本学习器 。 在给定一个训练数据集时 ,一个可行的 方案是将训练数据分成多个不重叠的训练数据子集 ,并对 这些子集进行抽样 ,然后在每个抽样的数据集上训练出一 个基本学习器。 最终的学习结果是对多个学习器的学习结 果 进 行 多 数 投 票 而 产 生 的 。 Bagging 采 用 bootstrap 分 布 来 生成不同的基本学习器。 具体地,在给定一个包含 m 个训 练实 例 的 训 练 数 据 集 时 ,抽 样 生 成 m 个 训 练 实 例 ,有 些 原 始的训练实例可能会出现不止一次 ,而有些可能在抽样中 根本就不出现。 重复这样的过程 T 次 ,就可以得到 T 个含 m 个数据实例的抽样 。 然后 ,针对每个抽样数据集运用基 本的学习算法 ,就可以训练得到一个基本学习器 。 在基本 学习器输出结 果 的 聚 集 时 ,Bagging 采 用 最 常 用 的 策 略 (即 投票)来聚集分类结果,利用求平均值来聚集回归结果 。 在生成一系列的基本学习器后 ,集成学习通过组合这 些基本学习器的方式来获得更强的泛化能力 ,而不是从中 选择一个最佳的基本学习器 。 所以这种组合的方法是直观 重要的,会直接影响集成学习的性能 。 目前提出的组合方 法有很多,主要介绍平均法和投票法 。 平均法对于数值型输出结果是常用的组合方法 ,包括 简单平均法、加权平均法 。 简单平均法又称算术平均法 [8], 因为简单易用在现实应用中得到了广泛的使用 。 但其有效 性是基于假设单个学习器的错误是不相关的 ,而在集成学 习中因为单个学习器在相同的问题上进行训练 ,所以这个 假设在集成学习中常常是不成立的 。 加权平均法给每个基 本 学 习 器 赋 予 不 同的 权 重 ,然 后 进 行 平 均 ,不 同 的 权 重 意 味 着 不 同 的 重 要 性 。 简 单 平 均 法 是 加 权 平 均 法 的 一 个 特 例,但加权平均法的性能并不是明显优于简单平均法的性 能。 这是因为在现实世界中,数据通常有很大的噪声,所以 估计的权重经常是不可靠的 。 特别是在一个大的集成学习 中 ,有 很 多 权 重 系数 需 要 估 计 ,这 很 容 易 导 致 过 度 拟 合 问 题 ;而 简 单 平 均 法不 要 估 计 任 何 的 权 重 系 数 ,所 以 不 太 可 能存在这方面的问题 。 一般来说 ,对有近似性能的基本学 习 器 使 用 简 单 平 均 法 是 适 合 的 ; 基 本 学 习 器 各 有 优 劣 势 时,采用加权平均法可以获得更好的性能 。 投票法是对于非数值型输出结果的常用组合方法 ,包 括多数投票法 、最大投票法以及加权投票法 。 多数投票法 是最常用的一种投票法 ,每个基本学习器投票选出一个分 类标识,集成学习最终输出的分类标识是超过半数投票的
分类 标 识 ,如 果 没 有 分 类 标 识 的 得 票 数 超 过 半 数 ,集 成 学 习就不会有任何的输出结果 。 与多数投票法不同 ,最大投 票法选择获得最多票数的分类标识作为最终的输出结果 , 并不要求输出结果必须获得超过半数的选票 ,所以不可能 出现没有输出结果的情况 。 在出现得票数相同的分类标识 时,任意选择一个作为输出 。 考虑到每个基本学习器具有 不同的性能,加权投票法给那些性能好的基本学习器更多 的投票权。 以 上 讨 论 的 集 成 学 习 方 法 的 预 测 效 果显 著 优 于 单 个 基本学习机,但它们存在一些缺点 :与基本学习机相比 ,其 预 测 速 度 明 显 下 降 ,且 随 着 基 本 学 习 机 数 目 的 增 多 ,它 们 所需的存储空间也急剧增多 ,这对于在线学习更是一个严 重问题。 那么是否可以利用少量的基本学习机就可以达到 更好的性能呢? 国内的学者周志华等人提出 “选择性集成” 为这 个 问 题 给 出 了 肯 定 的 答 案 。 理 论 分 析 和 试 验 研 究 表 明,从已有的基本学习机中将作用不大和性能不好的基本学 习机剔除,只挑选一些基本学习机用于构建集成则可以得到 更好的预测效果。 限于篇幅,不对选择性集成展开讨论。 4.3 概率图模型 大数据给很多领域带来了很大的挑战 ,其中之一就是 如 何 处 理 大 量 的 不 确 定 性 数 据 , 这 些 数 据 普 遍 存 在 于 电 信、互联网、科学计算、经济 、金融等领域中 ,如何从这些不 确定性数据中获取知识是大数据分析的一个重要任务 。 概 率图模型是概率论与图论相结合的产物 ,是概率分布的图 形化表示,概率图模型为捕获随机变量之间复杂的依赖关 系、构建大规模多变量统计模型提供了一个统一的框架 [9]。 概率图模型在统计学 、计算学以及数学等很多领域都是研 究热点,如生物信息学、通信理论 、统计物理 、组合优化 、信 号和图像处理、信息检索和统计机器学习等 。 概 率 图 模 型 一 方 面 用 图 论 的 语 言 直 观揭 示 问 题 的 结 构 , 另 一 方 面 又 按 照 概 率 论 的 原 则 对 问 题 的 结 构 加 以 利 用,降低推理的计算复杂度 。 概率图模型中的一个核心概 念 是 因 子 分 解 ,根 据 一 个 底 层 图 的 结 构 ,一 个 概 率 图 模 型 由一组概率分布所构成。 概率图通过图形的方式来捕获并 展现所有随机变量的联合分布 ,通过分解成各因子乘积的 方式来实现,每个因子只和部分变量有关 。 概率图模型主 要包括贝叶斯网络 、马尔可夫网络和隐马尔可夫模型 。 限 于篇幅,以下只详细介绍贝叶斯网络的主要原理及特性 。 贝 叶 斯 网 络 又 称 为 信 念 网 、概 率 网 或 者 因 果 网 ,用 于 表示变量之间的依赖关系 ,并为任何全联合概率分布提供 电信科学 2012 年第 12 期 自然、有效、简明规范的一种有向无环图结构 [10]。 通过贝叶 斯网络,可以采用系统化以及本地化的方法将某种情形的 概率信息构建成一个有机的整体 。 贝叶斯网络还提供了一 系列的算法,通过这些算法可以自动地对这些信息推导出 更多隐含的意思 ,为在这些情形下进行决策提供基础 。 从 技 术 层 面 看 ,随 着 随 机 变 量 的 不 断 增 加 ,通 过 概 率 论 和 统 计 学 中 传 统 的 表 格 及 方 程 来 表 示 这 些 变 量 的 联 合 概 率 分 布是不可行的,贝叶斯网络则为这些联合概率分布提供了 一个非常紧凑的表示方法 。 贝叶斯网络的一个主要特征是 可保证数据的一致性和完整性 ,这是因为对于任意的贝叶 斯网络,有且只有一个概率分布满足这个贝叶斯网络的各 种限制条件。 贝叶斯网络的另一个特征是 ,在很多情况下 要明确地生成联合概率分布在计算上是不可行的 ,而在贝 叶斯网络中可以通过高效率的算法来计算这些概率 。 这些 算 法 的 效 率 以 及 准 确 性 与 贝 叶 斯 网 络 的 拓 扑 以 及 相 关 的 查询是十分相关的。 贝叶斯网络还具有非常灵活的学习机 制 ,可 以 模 拟 人 类的 学 习 方 式 和 认 知 过 程 ,灵 活 地 对 结 构 和参数进行相应的修正与更新 。 所以 ,贝叶斯网络是目前 最为常用的概率图模型。 4.4 迁移学习 在大数据环境下 ,大量新的数据在大量不同的新的领 域 (如 新 闻 、电 子 商 务 、图 片 、视 频 、博 客 、播 客 、微 博 、社 交 网 络 等 )呈 爆 炸 性 增 长 ,要 在 这 些 新 的 领 域 应 用 传 统 的 机 器学习方法,就需要大量有标识的训练数据 。 基于这些有 标 识 的 训 练 数 据 ,运 用 统 计 学 习 的 理 论 ,传 统 的 机 器 学 习 通常可以获得很好的性能 。 但是 ,如果对每个领域都标识 大量训练数据,会耗费大量的人力与物力 。 所以,如果有了 大量其他领域的不同分布下的有标识的训练数据 ,能否利 用 从 这 些 训 练 数 据 中 学 习 到 的 知 识 帮 助 在 新 环 境 中 的 学 习任务? 其实人类是具有这种学习能力的 ,即在多个任务 之 间 进 行 知 识 迁 移的 能 力 ,在 碰 到 新 的 学 习 任 务 时 ,人 类 会从以前学习的经验中认知并运用相关的知识 。 新的学习 任务和以前的经验相关性越大 , 就越容易掌握新的任务 。 知识在不同场景之间迁 移 转 化 的 能 力 被 称 作 迁 移 学 习 [11]。 这正是传统机器学习所缺乏的 ,其根本原因在于传统的机 器 学 习 一 般 假 设 训 练 数 据 与 测 试 数 据 服 从 相 同 的 数 据 分 布,即学习的知识和应用的问题具有相同的统计特征 。 当 学 习 和 应 用 的 场 景 发 生 迁 移 后 , 统 计 特 征 往 往 会 发 生 改 变,这将大大影响统计学习的效果 。 提高机器学习能力的 一个关键问题就在于 ,要让机器能够继承和发展过去学到 93
综述 的知识,这其中的关键就是让机器学会迁移学习 。 迁移学习可以通俗地解释为 ,一个会下象棋的人可以 更容易地学会下围棋;一个认识桌子的人可以更容易地认 识椅子;一个会骑自行车的人更容易学会骑摩托 。 迁移学 习一个有代表性的定义是 ,给定一个源领域和学习任务以 及一个目标领域和学习任务 ,迁移学习的任务是通过利用 源领域和学习任务的知识来提高在目标领域的学习性能 。 在 这 里 ,源 领 域 和 目 标 领 域 是不 同 的 ,或 者 源 学 习 任 务 和 目 标 学 习 任 务 是 不 同 的 ,当 两 者 都 一 样 时 ,就 是 传 统 意 义 上的机器学习问题。 迁 移 学 习 的 目 标 是 利 用 源 任 务 中 的 知 识 来 提 高目 标 任务中的学习性能,这可以通过 3 个方面来度量。 · 在目标任务中仅仅采用了迁移的知识 ,还没有进行 任何进一步的学习之前 ,与没有采用知识迁移的算 法相比所能获得的初始性能提升 。 · 在利用了迁移知识之后 ,对目标任务进行充分学习 所需要的时间。 · 与没有知识迁移的情况相比 ,在目标任务中能够获 得的最终的性能到底有多少提高 。 如果迁移方法降低了性能 ,称为负迁移 。 在迁移方法 研 究 中 的 一 个 主 要 挑 战是 在 适 当 相 关 的 任 务 中 生 成 正 迁 移,同时在不太相关的任务之间尽量避免负迁移 。 当一个 代理将从一个任务中的知识运用到另一个任务中时 ,经常 需要将一个任务中的特征映射到其他任务的特征中 ,以指 定任务之间的对应关系。 在迁移学习的很多工作中 ,通常 由人来提供这种映射,但可以设计一些方法自动地执行这 些映射。 根据迁移学习的定义 ,迁移学习分为 :归纳迁移学习 、 直推迁移学习以及无监督迁移学习[11]。 在归纳迁移学习中, 源领域和目标领域可以是相同的或者是不同的 ,但是目标 任务和源任务肯定是不同的 。 在这种情况下 ,需要利用目 标 领 域 的 部 分 已 标 识 数据 来 归 纳 用 于 目 标 领 域 中 的 目 标 预测模型。 另外,根据在源领域中已标识数据和未标识数 据 的 不 同 情 况 ,归 纳 学 习 可 以进 一 步 分 成 两 种 :第 一 种 是 在源领域中有很多可用的已标识数据 ;第二种情况是在源 领域中没有可用的已标识数据 。 这和自学习的情况有些类 似。 归纳迁移学习的一个例子是 Tradaboost 算法 , 其基本 思路是将源领域数据和目标领域数据混合在一起训练 ,然 后 通 过 类 似 AdaBoost 的 结 构 来 调 整 权 重 和 计 算 错 误 率 实 现 迁 移 学 习 。 已 经 有 很 多 研 究 对 归 纳 迁 移 学 习 进 行 了 探 94 讨,这些研究工作可以分为基于实例 、基于特征 、基于参数 以及基于关系的知识迁移 。 直 推 迁 移 学 习 研 究 的 是 不 同 领 域 中 相 同 的 学习 任 务 之间的知识迁移 [12],一般情况是原 始 领 域 中 有 大 量 标 识 数 据可供利用,而目标领域只有无标识数据可供利用 。 在这 里 ,源 领 域 和 目 标 领 域 的 不同 又 包 括 两 种 情 况 :一 种 是 源 领域的特征空间和目标领域是不同的 ;另一种是两个领域 的特征空间相同 , 但输入数据的边缘分布概率不同 。 “直 推”的意思和传统机器学习中是有区别的 。 在传统的机器 学 习 中 ,直 推 学 习 是 指 在 训练 阶 段 ,所 有 的 测 试 数 据 都 是 可 用 的 ,学 习 到 的 模 型 无 法重 用 到 新 的 数 据 中 ;而 在 这 里 是强调学习任务必须相同 ,目标领域中只需要有部分可用 的为标识数据。 在直推迁移学习中 ,只有基于实例的知识 迁移以及基于特征的知识迁移两种实现方案 。 在无监督迁 移 学 习 中 , 源 领 域 和 目 标 领 域 可 以 是 相 同 的 或 者 是 不 同 的,目标任务和源任务是不同的 ,只是相关的。 在这种迁移 方法中, 源领域和目标领域都没有可用的已标识数据 ,所 以迁移难度最大。 目前这方面的研究也很少 ,只有基于特 征的迁移实现方案。 给定一个目标任务 ,任何迁移方法的有效性依赖于源 任务以及源任务是如何与目标任务相关的 。 如果它们之间 有很强的关系并且能够被迁移方法很好地利用 ,目标任务 的性能可以通过迁移大大提高 。 但是 ,如果源任务和目标 任务没有足够的相关性,或者迁移方法并没有很好地利用 这 种 关 系 ,目 标 任 务 的 性 能不 仅 得 不 到 提 高 ,还 有 可 能 降 低,即产生负迁移。 从理论上来说,一个迁移方法在适当相 关的任务之间应该生成正迁移 ,而在任务不是很相关时则 应避免负迁移,但在实际中是很难同时达到这些目标 。 具 有防护措施避免负迁移的迁移方案 , 通常会因为这种措施 对正迁移产生一些小的影响。 相反,那些激进的迁移方案在 产生很大的正迁移效应时,通常对负迁移没有任何防护。 避免负迁移的一个方案是在学习目标任务时 ,尽量识 别并拒绝源任务中的有害知识 。 这种方案的目标是让有害 信息的影响最小化,这样迁移的性能至少可以不差于没有 迁 移 的 情 况 。 在 极 端 的 情 况 下 ,学 习 代 理 可 以 完 全 丢 弃 迁 移 的 知 识 ,另 外 一 些 方 法 则 可 以 有 选 择 地 拒 绝 部 分 知 识 并 选 择 部 分知 识 。 如 果 有 不 止 一 个 源 任 务 ,而 是 一 套 可 选 的 源 任 务 ,那 么 就 有 更 大 的 可 能 性 避 免 负 迁 移 。 在 这 种 情 况 下 ,避 免 负 迁 移 的 问 题 就 成 为 如 何 选 择 最 好 的 源 任 务 。 没 有 对 负 迁 移 进 行 较 多 防 护 的 迁 移 方 法 在 这 种
情 形 下 可 以 很 有 效 ,只 要 选 择 的 最 佳 源 任 务 是 一 个 很 好 的 选 择 。 人类具有天生的方法在多个任务之间进行知识迁移 , 即在碰到新的学习任务时 ,会从以前学习的经验中认知并 运 用 相 关 的 知 识 。 新 的 学 习 任 务 和 以 前 的 经 验 相 关 性 越 大,就越容易掌握新的任务。 传统的机器学习算法,通常只 是解决一些孤立的任务。 迁移学习试图通过将在一个或多 个源任务中学习到的知识进行迁移 ,将它们用在相关的目 标任务中以提高其学习性能 。 这些能够进行知识迁移的技 术,标志着机器学习向人类学习的道路上又前进了一步 。 5 结束语 大 数 据 时 代 的 数 据 绝 大 多 数 是 大 量 无 标识 的 数 据 和 少量有标识数据的组合 ,半监督学习方法是处理该类数据 的 有 效 方 法 ;随 着 数 据 量 的 激 增 ,单 一 学 习 器 的 学 习 成 果 和效率难以满足要求,通过多个学习器整合后的集成学习 方法能较有效地获取学习的结果 ;概率图模型通过图形可 视 化 的 方 式 为多 种 结 构 的 大 数 据 分 析 提 供 了 简 单 有 效 的 分 析 模 型 ;而 通 过 迁 移 学 习 ,已 有 的 学 习 成 果 能 不 断 积 累 并衍生引用到未知的领域 。 当然 ,与大数据相关的机器学 习研究领域还有很多, 如大规模机器学习的算法并行化 , 这也是未来机器学习的一个重点方向 ,有待在后续实际工 作中不断研究探索。 参考文献 1 Tom Mitchell. Machine Learning. McGraw Hill Higher Education, 1997 电信科学 2012 年第 12 期 2 Olivier C, Bernhard S, Alexander Z. Semi-Supervised Learning. The MIT Press, 2006 3 Zhu X J. Semi-Supervised Learning Literature Survey. Madison: University of Wisconsin, 2008 4 Zhou Z H. Ensemble Methods: Foundations and Algorithms. Boca Raton, FL: Chapman & Hall/CRC, 2012 5 梁 吉 业, 高 嘉 伟, 常 瑜. 半 监 督 学 习 研 究 进 展. 山 西 大 学 学 报, 2009, 32(4):528~534 6 Freund Y, Schapire R E. A decision theoretic generalization of online learning and application to boosting. Journal of Computer and System Sciences, 1997, 55(1): 119~139 7 Breiman L. Bagging predictors. Machine Learning, 1996, 24 (2): 123~140 8 张 春 霞, 张 讲 社. 选 择 性 集 成 算 法 综 述. 计 算 机 学 报, 2011(8) 9 Koller D, Friedman N. Probabilistic Graphical Models: Principles and Techniques. The MIT Press, 2009 10 Darwiche A. Modeling and Reasoning with Bayesian Networks. Cambridge University Press, 2009 11 Pan J L, Yang Q. A survey on transfer learning. IEEE Transactions on Knowledge and Data Engineering (IEEE TKDE), 2010, 22(10):1345~1359 12 Bahadori M T, Liu Y, Zhang D. Learning with minimum supervision: a general framework for transductive transfer learning. IEEE International Conference on Data Mining (ICDM), 2011 [作 者 简 介] 陈 康 ,中 国 电 信 股 份 有 限 公 司 广 东 研 究 院 IT 运 营 支 撑 部 数 据 应 用 室主 任 ,具 有 多 年 电 信 支撑 系 统 研 发 和 支 撑 工 作 经 验 ,曾 获 广 东 省 科 技 进 步 二等 奖 ,目 前 主 要 研 究 领 域 包 括 大 数 据 、移 动 互 联 网 等 相 关 技 术 ;向 勇 ,硕 士 ,工 程 师 ,长 期 从 事 电 信 数 据 应 用 及 IT 支 撑 系 统 研 发 ,近 几 年 专 攻 大 数 据 、移 动 互 联 网 等 相 关 技 术 ;喻 超 ,工 程 师 ,长 期 从 事 电 信 行 业 数据 分 析 技 术 解 决 方 案 的 制 定 和 研 究 ,专 攻 机 器 学 习 等 相 关 技 术 。 New Trend of Machine Learning in the Age of Big Data Chen Kang1, Xiang Yong1, Yu Chao2 (1.Guangdong Research Institute of China Telecom Co., Ltd., Guangzhou 510630, China; 2. Guangzhou Useease Information Technology Co., Ltd., Guangzhou 510630, China) Abstract Recently, big data techniques and applications have attracted more and more concentrates. It can be concluded that machine learning plays an important role in analyzing the huge volume and various data to get the underlying knowledge which is one of the core task of big data analysis. This paper focused on the machine learning development trends and the era of big data, and discussed the core techniques of machine learning as well. Key words learning big data, machine learning, semi-supervised learning, integrated learning, probabilistic graphical model, transfer (收 稿 日 期 :2012-11-20) 95
分享到:
收藏