logo资料库

联邦学习白皮书V1.0.pdf

第1页 / 共19页
第2页 / 共19页
第3页 / 共19页
第4页 / 共19页
第5页 / 共19页
第6页 / 共19页
第7页 / 共19页
第8页 / 共19页
资料共19页,剩余部分请下载后查看
联邦学习白皮书 V1.0 微众银行 AI 项目组 联邦学习 白皮书 V1.0 深圳前海微众银行股份有限公司 发布:微众银行 AI 项目组 编制:微众银行 AI 项目组 2018 年 9 月 1 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 2 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 目录 第一章 联邦学习背景和重要性 ........................................................................................................... 5 1.1 人工智能发展概况 ........................................................................................................................ 5 1.2 GDPR 与人工智能新挑战 ............................................................................................................ 6 1.3 联邦学习成为可行的解决方案 ................................................................................................. 6 第二章 联邦学习的定义和范围 ........................................................................................................... 7 2.1 联邦学习概述 ................................................................................................................................. 7 2.2 联邦学习的定义 ............................................................................................................................ 7 第三章 联邦学习的分类 ......................................................................................................................... 9 3.1 横向联邦学习 .................................................................................................................................. 9 3.2 纵向联邦学习 ............................................................................................................................... 10 3.3 联邦迁移学习 ............................................................................................................................... 10 3.4 联邦学习的系统架构 ................................................................................................................. 10 第四章 联邦学习与现有研究的区别 ................................................................................................ 12 4.1 联邦学习与差分隐私理论的区别 .......................................................................................... 12 4.2 联邦学习与分布式机器学习的区别...................................................................................... 12 4.3 联邦学习与联邦数据库的关系 ............................................................................................... 12 第五章 联邦学习的应用实例 .............................................................................................................. 14 5.1 智慧金融 ........................................................................................................................................ 14 5.2 智慧医疗 ........................................................................................................................................ 14 5.3 联邦学习和“企业数据联盟” ...................................................................................................... 15 第六章 联邦学习的发展路径 .............................................................................................................. 16 6.1 建立联邦学习国内外标准 ........................................................................................................ 16 6.2 建立行业垂直领域应用示例 ................................................................................................... 16 6.3 全面展开建立联邦数据联盟 ................................................................................................... 16 第七章 总结展望 ..................................................................................................................................... 18 参考文献 ..................................................................................................................................................... 19 3 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 4 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 第一章 联邦学习背景和重要性 1.1 人工智能发展概况 从 1955 年达特茅斯会议开始,人工智能经过两起两落的发展,迎来了第三个高峰期。 第一个高峰期的出现是因为人们看到了 AI 的希望,也就是自动化算法对提高效率的希望, 但是受算法能力的限制,机器不能完成大规模数据训练和复杂任务,AI 进入了第一个低谷。 第二个高峰来自于霍普菲尔特神经网络的提出,以及 BP 算法实现了神经网络训练的突破, 使得大规模神经网络训练成为可能。但是这时却发现算力和数据不够,专家系统的设计跟不 上工业的成长需求,引发了 AI 的第二个低谷。2006 年,深度学习神经网络被提出,加上近 年来算法和算力的巨大提升和大数据的出现,人工智能迎来了第三个高峰。2016 年的 AlphaGo,其总计使用了 30 万盘棋局作为训练数据并且接连战胜两位人类职业围棋选手,我 们真正看到了人工智能迸发出的巨大潜力,也更加憧憬人工智能技术可以在无人车、医疗、 金融等更多、更复杂、更前沿的领域施展拳脚。 AlphaGo 的巨大成功使得人们自然而然的希望像这种大数据驱动的人工智能会在各行各 业得以实现。但是真实的情况却让人非常失望:除了有限的几个行业,更多领域存在着数据 有限且质量较差的问题,不足以支撑人工智能技术的实现。更多的应用领域有的只是小数据, 或者质量很差的数据。 这种“人工智能到处可用”的错误的认知会导致很严重的商业后果。 一个案例是 IBM 的沃森,一个非常有名的问答(QA)系统,即给一个问题 Q,它能很精准找 到答案 A。沃森可以用一个高维的表示来表达这个问题 Q,这种表示可以比喻为成物理学里 的光谱,棱镜把一束光分解成不同频率的光,形成光谱。有了这个光谱以后,可以和答案库 里对应答案,概率相应高的就是可能的答案。整个流程应该说非常简单,但问题就是要有一 个很健全的答案库。IBM 在电视大赛上取得了成功之后,就把这个应用在一些听起来比较好 的垂直领域——医疗领域。然而,最近在一个美国的癌症治疗中心,发现这个应用非常不理 想,从而导致了这个项目的失败。我们可以看一看在医疗领域,这些领域里的问题和答案来 自哪里?比如输入有病症、基因序列、病理报告、各种各样的检测、各种论文,沃森的任务 是利用这些数据来做诊断,帮助医生。但是,经过一段时间的实践发现,这些数据的来源远 远不够,导致了系统效果很差。医疗领域需要非常多的标注数据,而医生的时间却非常宝贵, 不能像其他的一些计算机视觉应用一样,可以由大众普通人来完成数据标注。所以在医疗这 样的专业领域,这种标注的数据非常有限。有人估计,把医疗数据放在第三方公司标注,需 要动用 1 万人用长达 10 年的时间才能收集到有效的数据。这就说明,在这些领域,即使 动用很多人来做标注,数据也不够。这就是我们面临的现实。 同时数据源之间存在着难以打破的壁垒,一般情况下人工智能的所需要的数据会涉及多 个领域,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商 品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形 式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部 门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行 整合几乎是不可能的,或者说所需的成本是巨大的。 5 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 1.2 GDPR 与人工智能新挑战 另一方面,随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。 每一次公众数据的泄露都会引起媒体和公众的极大关注,例如最近 Facebook 的数据泄露事 件就引起了大范围的抗议行动。同时各国都在加强对数据安全和隐私的保护,欧盟最近引入 的新法案《通用数据保护条例》(General Data Protection Regulation, GDPR)[11]表明, 对用户数据隐私和安全管理的日趋严格将是世界趋势。这给人工智能领域带来了前所未有的 挑战,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方,如 A 方收集 数据,转移到 B 方清洗,再转移到 C 方建模,最后将模型卖给 D 方使用。这种数据在实体间 转移,交换和交易的形式违反了 GDPR,并可能遭到法案严厉的惩罚。同样,中国在 2017 年 起实施的《中华人民共和国网络安全法》[12]和《中华人民共和国民法总则》[13]中也指出网络 运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定 的合同明确约定拟交易数据的范围和数据保护义务。这些法规的建立在不同程度上对人工智 能传统的数据处理模式提出了新的挑战。在这个问题上,人工智能的学界和企业界,目前并 无较好的解决方案来应对这些挑战。 1.3 联邦学习成为可行的解决方案 要解决大数据的困境,仅仅靠传统的方法已经出现瓶颈。 两个公司简单的交换数据在 很多法规包括 GDPR 是不允许的。用户是原始数据的拥有者,在用户没有批准的情况下,公 司间是不能交换数据的。 其次,数据建模使用的目的,在用户认可前也不可以改变。所以, 过去的许多数据交换的尝试,例如数据交易所,也需要巨大的改变才能合规。 同时,商业 公司所拥有的数据往往都有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交 换,在这个前提下,往往这些部门不会把数据与其他部门做简单的聚合。导致即使在同一个 公司内,数据也往往以孤岛形式出现。 如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能 系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。我 们倡议把研究的重点转移到如何解决数据孤岛的问题。我们提出一个满足隐私保护和数据安 全的一个可行的解决方案,叫做联邦学习[14-15]。 联邦学习是:  各方数据都保留在本地,不泄露隐私也不违反法规;  多个参与者联合数据建立虚拟的共有模型,并且共同获益的体系;  在联邦学习的体系下,各个参与者的身份和地位相同;  联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大 (在 各个数据的用户对齐(user alignment)或特征(feature alignment)对齐的条 件下);  迁移学习是在用户或特征不对齐的情况下,也可以在数据间通过交换加密参数达 到知识迁移的效果。 联邦学习使得两方或多方的数据使用实体在合作当中数据不出本地也能共同使用,解决 数据孤岛问题。 6 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 第二章 联邦学习的定义和范围 2.1 联邦学习概述 什么是联邦学习呢?举例来说,假设有两个不同的企业 A 和 B,它们拥有不同数据。比 如,企业 A 有用户特征数据;企业 B 有产品特征数据和标注数据。这两个企业按照上述 GDPR 准则是不能粗暴地把双方数据加以合并的,因为数据的原始提供者,即他们各自的用户并没 有机会来同意这样做。假设双方各自建立一个任务模型,每个任务可以是分类或预测,而这 些任务也已经在获得数据时有各自用户的认可。那现在的问题是如何在 A 和 B 各端建立高 质量的模型。但是,由于数据不完整(例如企业 A 缺少标签数据,企业 B 缺少特征数据), 或者数据不充分 (数据量不足以建立好的模型),那么,在各端的模型有可能无法建立或效 果并不理想。 联邦学习是要解决这个问题: 它希望做到各个企业的自有数据不出本地,而 后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一 个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是 在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。这样,建好的模 型在各自的区域仅为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相 同,而联邦系统帮助大家建立了“共同富裕”的策略。 这就是为什么这个体系叫做“联邦 学习”。 上述实例阐述了联邦学习的基本思想,下文将规范联邦学习的定义,并进一步依据孤岛 数据的分布特点对联邦学习进行分类,最后描述联邦学习系统的工作流程与系统构架。 2.2 联邦学习的定义 为了进一步准确地阐述联邦学习的思想,我们将其定义如下: 当多个数据拥有方(例如企业)F_i, i=1…N 想要联合他们各自的数据 D_i 训练机器学 习模型时,传统做法是把数据整合到一方并利用数据 D={Di,i=1…N}进行训练并得到模型 M_sum。然而,该方案由于其涉及到的隐私和数据安全等法律问题通常难以实施。为解决这 一问题,我们提出联邦学习。联邦学习是指使得这些数据拥有方 F_i 在不用给出己方数据 D_i 的情况下也可进行模型训练并得到模型 M_FED 的计算过程,并能够保证模型 M_FED 的效 果 V_FED 与模型 M_SUM 的效果 V_SUM 间的差距足够小,即: |V_FED-V_SUM |<δ, 这里 δ 是任意小的一个正量值。 联邦学习的出处是金融机构的痛点,尤其是像“微众银行”这样的互联网银行。一个实 用的例子是检测多方借贷。这在银行业,尤其是互联网金融一直是很头疼的一个问题。多方 借贷是指某不良用户在一个金融机构借贷后还钱给另一个借贷机构,这种非法行为会让整个 金融系统崩溃。要发现这样的用户,传统的做法是金融机构去某中心数据库查询用户信息, 而各个机构必须上传他们所有用户,但这样做等于暴露金融机构的所有重要用户隐私和数据 安全,这在 GDPR 下就不被允许。 在联邦学习的条件下,没有必要建立一个中心数据库,而 任何参与联邦学习的金融机构可以利用联邦机制向联邦内的其他机构发出新用户的查询,其 7 / 19
联邦学习白皮书 V1.0 微众银行 AI 项目组 他机构在不知道这个用户具体信息的前提下,回答在本地借贷的提问。这样做既能保护已有 用户在各个金融机构的隐私和数据完整性,同时也能完成查询多头借贷的这个重要问题。 8 / 19
分享到:
收藏