联邦学习安全与隐私保护研究综述.pdf

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：1.71M 资料格式：pdf 举报版权申诉

syp_net-12697312-16359647527067956143.pdf-第1页.png

第1页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第2页.png

第2页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第3页.png

第3页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第4页.png

第4页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第5页.png

第5页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第6页.png

第6页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第7页.png

第7页 / 共9页

syp_net-12697312-16359647527067956143.pdf-第8页.png

第8页 / 共9页

文本预览

第 39 卷第 4 期 Vol. 39，No. 4 西华大学学报（自然科学版） Journal of Xihua University（Natural Science Edition） 2020 年 7 月 Jul. 2020 联邦学习安全与隐私保护研究综述周俊，方国英，吴楠（华东师范大学上海市高可信计算重点实验室，上海 200062）摘要：数据孤岛以及模型训练和应用过程中的隐私泄露是当下阻碍人工智能技术发展的主要难题。联邦学习作为一种高效的隐私保护手段应运而生。联邦学习是一种分布式的机器学习方法，以在不直接获取数据源的基础上，通过参与方的本地训练与参数传递，训练出一个无损的学习模型。但联邦学习中也存在较多的安全隐患。本文着重分析了联邦学习中的投毒攻击、对抗攻击以及隐私泄露三种主要的安全威胁，针对性地总结了最新的防御措施，并提出了相应的解决思路。关键词：联邦学习；投毒攻击；对抗攻击；隐私泄露中图分类号：TP181;TP309 文献标志码：A 文章编号：1673–159X(2020)04 − 0009 − 09 doi：10.12198/j.issn.1673 − 159X.3607 Survey on Security and Privacy-preserving in Federated Learning ZHOU Jun，FANG Guoying，WU Nan （Shanghai Key Laboratory of Trustworthy Computing, East China Normal University, Shanghai 200062 China） Abstract: The issue of data island has always been a difficult problem during the development of arti- ficial intelligence. The risk of privacy disclosure in model training and application further impedes the de- velopment of artificial intelligence technology. Federated learning, emerging as an efficient means of pri- vacy protection, is a distributed machine learning technique, which enables to train a lossless learning mod- el through local training and parameter transfer of participants without directly obtaining data sources. However, study results show that there are still many security risks in federated learning. Aiming at the se- curity problems in federated learning, this paper analyzes three main security threats, including poisoning attacks, adversarial attacks and privacy disclosure, and summarizes the latest defense measures. Finally, this paper discusses the security issues still existing in the current federated learning with related solutions. Keywords: federated learning；poisoning attack；adversarial attack；privacy leakage 联邦学习（federated learning, FL）在2016年由谷歌最先提出[1]，用于建立移动终端与服务器之间的共享模型，从而在大规模数据背景下有效地利用这些数据资源，并且保证用户的隐私安全。但这些分散的数据大多是异构且不均衡的，为此，Jakub等[2] 提出一个实用高效的优化算法来处理数据分布问收稿日期：2020 − 02 − 15 基金项目：国家自然科学基金项目（61602180、U1636216）；上海市自然科学基金项目（16ZR1409200）。第一作者：周俊（1982—），男，副教授，主要研究方向为外包系统安全与隐私保护、安全多方计算、人工智能安全与区块链隐私保护等。 ORCID:0000 − 0003 − 3294 − 9774 　　E-mail: jzhou@sei.ecnu.edu.cn 引用格式：周俊，方国英，吴楠. 联邦学习安全与隐私保护研究综述[J]. 西华大学学报（自然科学版），2020，39（4）：9 − 17. ZHOU Jun, FANG Guoying, WU Nan. Survey on Security and Privacy-preserving in Federated Learning[J]. Journal of Xihua University（Natural Science Edition）, 2020, 39（4）: 9 − 17.

10 西华大学学报（自然科学版） 2020 年题。之后，又有大量的研究来进一步优化联邦学习模型，如文献[3]提出了两种方法来减小通信消耗，从而实现更加高效的训练过程;文献[4]解决了之前联邦学习机制中共享模型可能会偏向于某些参与方的问题，保证了参与方间的公平性;文献[5]提出单样本/少样本探索式的学习方法来解决压缩式联邦学习中的通信问题。联邦学习一经推出，就受到广泛的关注。各大科技金融龙头也开始进行开源项目的搭建，如 WeBank开发的FATE、Google推出的TensorFlow Federated(TFF)、Uber开源的Horovod等。联邦学习已经被广泛应用于无线通信与边缘计算[6]、智慧金融[7]、智慧医疗[8]、环境保护[9]等领域，未来有望改变新时代的商业模式，深入影响到智能城市的建设。然而，联邦学习中仍然存在巨大的安全隐患，比如参与方的安全等级较低，容易遭受恶意攻击，从而影响到整个模型的安全。本文针对联邦学习可能产生的安全问题进行分析，着重针对投毒攻击、对抗攻击以及隐私泄露这三个方面的安全威胁进行详细的说明，并有针对性地总结了防御措施，以期对减小联邦学习的安全性风险、促进其进一步发展与普及有一定帮助。 1 联邦学习概述联邦学习是一种分布式的机器学习方法，即参与方对本地数据进行训练后将更新的参数上传至服务器，再由服务器进行聚合得到总体参数的学习方法。与传统机器学习技术相比，联邦学习不仅可以提高学习效率，还能解决数据孤岛问题，保护本地数据隐私[10]。 1.1 联邦学习的定义假设有n个参与方中训练出模型，每个参与方拥有各自的本地数据集，现在需要在总的数据集。联邦学习指的是一种分布式的学习方式，即不直接把所有数据整合在一起统一进行训练得到模型，而是由各个参与方根据服务器传过来的初始参数，各自训练本地的数据，得到新的参数，再将更新的参数值传到服务器端，服务器端采取一定的方式进行聚合，得到更新的总体参数由此经过多次迭代，最终得到总体训练模型。此外，联邦学习需要能够保证模型的间的差距足够的效果效果与模型小[11]，即其中：为任意小的正量值。 1.2 联邦学习的分类联邦学习中各个参与方只需要维护本地的数据集。但不同情况下，之间用户和数据特征的差异也不尽相同。如表1所示，根据数据分布的不同情况，联邦学习大致分为3类：横向联邦学习、纵向联邦学习与联邦迁移学习。表 1 三类联邦学习的对比种类用户重叠数据特征重叠训练方法横向联邦学习纵向联邦学习联邦迁移学习多少少 1.2.1 横向联邦学习少多少按用户维度切分按数据特征维度切分迁移学习横向联邦学习指的是在不同数据集之间数据特征重叠较多而用户重叠较少的情况下，按照用户维度对数据集进行切分，并取出双方数据特征相同而用户不完全相同的那部分数据进行训练。 1.2.2 纵向联邦学习纵向联邦学习指的是在不同数据集之间用户重叠较多而数据特征重叠较少的情况下，按照数据特征维度对数据集进行切分，并取出双方针对相同用户而数据特征不完全相同的那部分数据进行训练。 1.2.3 联邦迁移学习联邦迁移学习指的是在多个数据集的用户与数据特征重叠都较少的情况下，不对数据进行切分，而是利用迁移学习[12]来克服数据或标签不足的情况。 1.3 联邦学习的优势与其他机器学习技术相比，联邦学习具有多重优势。 U1;U2;UnUiDiD=D1[D2[[DnMGlobalMSumUiwGwGi′i=wGi′wGwG′=wG+f(1;2;;n)MFedMFedVFedMSumVSumjVFedVSumj<""DiDi

第 4 期周俊等:联邦学习安全与隐私保护研究综述 11 1）用户隐私保护。联邦学习数据只存储在本地，各参与方数据不共享，保证了用户数据的隐私，满足了《通用数据保护条例》[13]的要求。 2）适应大规模数据的模型训练。大规模的训练数据可以提高训练模型的质量。采用联邦学习可以保证训练出的模型效果无损，同时可以减小对训练过程中的设备要求，提高模型训练速度。 3）增强了数据来源的灵活性。在联邦学习的技术支持下，一些原本因为特定因素无法参与训练的数据源，可以将数据存放在本地的同时参与总体模型的训练，更好地提升模型的泛化效果。 2 联邦学习中的安全问题尽管联邦学习的优势明显，其出现和发展顺应时代的潮流，但在投入应用前应检测其安全性。近年来，大量研究成果表明，联邦学习机制中仍然存在安全问题，如投毒攻击，对抗样本攻击以及隐私泄露问题等。本节主要针对这三个安全问题进行详细说明。 2.1 投毒攻击投毒攻击主要是指在训练或再训练过程中,恶意的参与者通过攻击训练数据集来操纵机器学习模型的预测[14]。联邦学习中，攻击者有两种方式进行投毒攻击：数据投毒和模型投毒，如图1所示。图 1 数据投毒与模型投毒 2.1.1 数据投毒数据投毒是指攻击者通过对训练集中的样本进行污染，如添加错误的标签或有偏差的数据，降低数据的质量，从而影响最后训练出来的模型，破坏其可用性或完整性。文献[15]中提出了一种攻击方式，攻击者使学习模型的参数值接近他所期望的值，同时使模型输出对某些测试样本的错误预测。文献[16]采用混合辅助注入策略，通过注入少量有毒样本到训练集就获得了90%以上的攻击成功率。文献[17]中针对支持向量机算法（support vector machines ，SVM）产生的优化梯度，预测其目标函数的变化方向，使用梯度上升策略显著提高了SVM分类器的错误率。为了提高攻击广度，文献[18]提出了一种基于反梯度优化思想的新型投毒算法，能够针对更广泛的学习算法中基于梯度的训练过程，包括神经网络（neural network，NN）和深度学习（deep learning，DL）体系结构。 2.1.2 模型投毒模型投毒不同于数据投毒，攻击者不直接对训练数据进行操作，而是发送错误的参数或损坏的模型来破坏全局聚合期间的学习过程[19]，比如控制某些参与方传给服务器的更新参数，从而影响整个学习模型参数的变化方向，减慢模型的收敛速度，甚至破坏整体模型的正确性，严重影响模型的性能。文献[20]只假设了一个恶意代理（参与方），就实现了对整体模型的隐蔽性的攻击，使得目标模型无法对某类数据正确分类。 2.2 对抗攻击对抗攻击是指恶意构造输入样本，导致模型以高置信度输出错误结果。这种通过在原始样本中添加扰动而产生的输入样本称为对抗样本[14]。对抗攻击首先是由Christian 等[21]提出的，他们发现深度学习的输入与输出之间映射的不连续性，通过对图片进行一个细微的干扰，神经网络分类器就会完全改变对于这张图片的预测。文献 [22]进一步研究发现，对抗攻击不仅能对复杂的深度学习网络起作用，而且在线性模型这样简单的网络中，对抗攻击也可以有很好的攻击效果。之后大量的研究探索出了多种对抗攻击的攻击方式，如 Least-Likely-Class Iterative Methods[23]、 Jacobian- based Saliency Map Attack (JSMA)[24]、DeepFool[25]等。从攻击环境来说，对抗攻击可以分为黑盒攻击和白盒攻击。若知道机器学习模型中的参数与内部结构，攻击者可以把所需的干扰看作一个优化问题计算出来。这种情况下的对抗攻击属于白盒攻击。而另一种常见的情境下，攻击者不知道任何模型的信息，只能跟模型互动，给模型提供输入然后观察它的输出，这种情形下的对抗攻击属于黑盒攻 ××××××××××××错误样本错误更新参数数据投毒模型投毒δyδzδxWGWGWGUii

12 西华大学学报（自然科学版） 2020 年击。对抗攻击还可以根据攻击目的分为目标攻击和非目标攻击。根据干扰的强度大小分为无穷范数攻击、二范数攻击和零范数攻击等。对抗攻击可以帮助恶意软件逃避检测，生成投毒样本，已经被攻击者广泛应用于图像分类、语义分割、机器识别以及图结构等多个领域，成为系统破坏者的一个有力攻击武器。 2.3 隐私泄露联邦学习方式允许参与方在本地进行数据训练，各参与方之间是独立进行的，其他实体无法直接获取本地数据，可以保证一定的隐私安全，但这种安全并不是绝对安全，仍存在隐私泄露的风险。比如恶意的参与方可以从共享的参数中推理出其他参与方的敏感信息。参与方的隐私安全通常易受到两种攻击：模型提取攻击和模型逆向攻击[14]。通过模型提取攻击，攻击者试图窃取模型的参数和超参数，破坏模型的保密性。比如恶意的参与方可以对共享模型进行预测查询，然后提取训练完成的模型。文献[26]针对BigML和Amazon机器学习在线服务进行了攻击，提取了一个几乎完全相同的模型，并且证明了同样的攻击适用于多种机器学习方法。通过模型逆向攻击，攻击者试图从训练完成的模型中获取训练数据集的统计信息，从而获取用户的隐私信息。文献[27]实现了一个攻击，可以推断模型构建过程中所使用的流量类型。模型逆向攻击推断出的训练集的信息，既可以是某个成员是否包含在训练集中，也可以是训练集的一些统计特性。根据这两种训练集信息，模型逆向攻击可以进一步分为成员推理攻击和属性推理攻击。这对联邦学习中的各参与方的隐私造成了严重的威胁。我们通常假设服务器是可信的，然而实际情况中并非如此，若服务器是恶意的（或者是诚实并好奇的），它可以识别更新的参数的来源，甚至进一步通过参与方多次反馈的参数推测参与方的数据集信息，这可能造成参与方的隐私泄露。 3 防御措施针对联邦学习面临的多重安全威胁，本节讨论 3.1 投毒攻击防御联邦学习中的投毒防御主要从数据投毒防御和模型投毒防御两个方向考虑。 3.1.1 数据投毒防御针对数据投毒，防御方法应从保护数据的角度出发。一方面，在训练模型之前应当保证数据来源的真实性与可靠性。另一方面，在使用不能保证安全性的数据之前，应当进行相应的检测以保证数据完整性不受篡改。为保证数据源的真实与可靠，在与各参与方进行数据交互之前，可以使用健壮的身份验证机制，以防止欺骗攻击或将被攻占的节点中被污染的数据集加入训练集，从而降低数据的质量。目前已经有多种防御机制来抵抗数据投毒的攻击。Nathalie 等[28]使用起源和转换等上下文信息来检测训练集中的有毒样本点。该检测方法通过将整个训练集分为多部分，比较各部分数据训练出的效果，从而识别出哪一部分的数据表现最为异常，实验证明该方法能达到较高的检测率。文献 [29]提出了一种防御机制来对抗回归中的投毒攻击，该技术集成了改进的鲁棒低秩矩阵逼近和鲁棒主成分回归，提供了强大的性能保证。 3.1.2 模型投毒防御针对模型投毒，假定服务器是可信的，那么防御的重点在于对恶意参与方的识别以及对错误更新参数的检测。恶意参与方也可以用相关的身份管理技术进行防范。对于异常的更新参数，通常有两种检测方法[20]。一种是通过准确度检测。服务器利用参与方返回的参数计算，利用其他参与方返回的参数计算，其中。然后分别使用和作为模型的权重参数，比较两个模型在验证集上的准确度。若使用的模型准确度明显小于使用的模型，则推测异常。另一种方法是通过直接比较各个参与方提交的更新参数之间的数值统计差异，当某个参与方反馈的更新参数与其他参与方的有很大的统计差异时，则推测异常。 3.2 对抗攻击防御防御上述攻击的一些最新对策。在机器学习领域中，研究了大量对抗攻击防御 UiiwG1′=wG+f(i)wG2′=wG+f(∆)∆={jjj=1;2;;n;j,igwG1′wG2′wG1′wG2′i1;2;;nii

第 4 期周俊等:联邦学习安全与隐私保护研究综述 13 机制，这些机制也同样适用于联邦学习的对抗防御。 3.2.1 对抗训练一个常用的防御手段是进行对抗训练，即将真实的样本和对抗样本一起作为训练集，来训练出最后的模型。对抗训练适用于多种监督问题[30]，它可以使得模型在训练过程中就学习到对抗样本的特征，提高模型的健壮性。但这样的模型只能抵抗训练集中的对抗样本，不能很好地防范未知的攻击。 3.2.2 数据增强数据增强是对抗攻击的一种扩充。在训练过程中不可能穷举所有对抗样本，但通过对原始数据集中的数据进行随机化处理可以增强模型的泛化能力。比如在图像处理中对训练集中的图片进行翻转、旋转、缩放比例、裁剪、移位以及颜色等处理，而且适度加入噪声也是一种常用的方法。文献[31]中对每个原始样本加入高斯噪声，生成了 10个噪声样本，取得了较好的防御效果。 3.2.3 数据处理数据处理采取与数据增强不同的方式，数据处理技术是指对样本进行降噪处理，以减小对抗样本的干扰。文献[32]中引入标量量化和平滑空间滤波两种经典的图像处理技术来降低噪声的影响。并且利用图像熵作为度量指标，实现了对不同类型图像的自适应降噪。通过比较给定样本的分类结果及其去噪后的版本，这种降噪处理方法可以有效地检测和剔除对抗样本，在F1度量标准下达到 96.39%的准确度。 3.2.4 数据压缩数据压缩是一种特殊的数据处理方法，专门针对图像训练过程，即使用压缩后的图片进行训练。文献[33]中采用PCA降维压缩技术防御对抗样本攻击，在维度降至50时取得了最优的防御效果。但这样的处理方式在降低样本中噪声比例的同时，也会减小原始数据信息，所以压缩图像同时也会降低正常分类的准确率。 3.2.5 防御蒸馏防御蒸馏的主要思想是先利用训练集得到一个模型，然后再通过模型提取，从原来的模型“蒸馏”提纯出另外一个模型，从而降低模型的复杂度。文献[34]对防御蒸馏技术的有效性进行了实证研究，发现防御蒸馏可使在MNIST数据集上的对抗攻击成功率从95%降低到0.5%以下，在CIFAR10 数据集上也将攻击成功率降到了5%以下，而且没有对训练过程造成过多的干预，保证了模型训练的效率与质量。 3.2.6 梯度正则化模型训练中常使用正则化来防止过拟合，即过度学习样本特征。若模型过拟合程度越高，其泛化能力越弱，越容易遭受到对抗样本的攻击。梯度正则化是指在训练模型的目标函数上对输入与输出的变化进行惩罚，从而限制了输入的扰动对于预测结果的影响。文献[35]使用梯度正则化来防御 FGSM和TGSM生成的对抗样本，证明了梯度正则化技术能提高对抗攻击鲁棒性，且相比对抗攻击和防御蒸馏，梯度正则化的防御效果更好。 3.2.7 对抗样本检测对抗样本检测也是一种常用的防御措施。若能区分出对抗样本与正常样本的不同之处，然后以较高精度检测出对抗样本，就能较好地防范对抗攻击。文献[36]中发现对抗样本的局部本征维数（local intrinsic dimensionality，LID）与正常样本差异较大，LID根据样本到它的邻居样本间的距离分布，评估其周围区域的空间填充能力。文章利用 LID对五种攻击策略进行防御，证明了该技术的检测率大大超出几种最先进的检测措施。 3.2.8 基于GAN的防御生成式对抗网络（ generative adversarial net， GAN）是一种机器学习模型，由两个模块组成。一个是生成模块G，利用接收到的随机噪声生成虚假样本，另一个是判别模块D，用以判断出某样本是否为G生成的虚假样本。文献[37]使用基于APE- GAN的生成式对抗网的有效框架来防御对抗攻击。其中G被训练成更改输入样本中的微小扰动，而D被用来分隔真实的样本与经过G处理的去除掉扰动的对抗样本。该技术在 MNIST、 CIFAR10和ImageNet三种数据集上的实验结果表明，APE-GAN能够有效地抵抗对抗攻击。 3.3 隐私泄露防御联邦学习中的隐私保护主要从两大主体——

14 西华大学学报（自然科学版） 2020 年参与方与服务器的角度进行保证。同时对于训练完成的模型也要防止模型提取攻击和模型逆向攻击。 3.3.1 差分隐私考虑恶意参与方与诚实服务器的情形。由于任何一个参与方都可以从训练过程中获取总体参数，联邦学习方式易受到差分攻击[38]。通过分析共享模型，其他诚实的参与方的数据隐私会受到威胁。在这种情况下，常采用差分隐私保护技术。设有随机算法，为所有可能的输出构成的集合，若对于任意两个邻近数据集和以及的任意子集，都有，则称算法满足差分隐私。其中，当越小，算法提供更高等级的隐私保护，但在一定程度上会降低准确性。基于这个技术，文献[38]提出了一种针对参与方差分隐私保护的联邦优化算法——差分隐私随机梯度下降算法，其目的是在模型训练阶段隐藏参与方的更新参数，从隐私损失和模型性能之间找到平衡。该技术将数据样本随机分成小部分，在聚合的过程中加入高斯噪声，实现差分隐私保护，同时也维持了模型的高性能。文献[39]结合了联邦学习的具体情境，切实保护各个参与方的数据集，且通过差分隐私保护技术保证训练完成的模型不会泄露某一参与方是否参与了数据训练过程，即一定程度上可以抵抗成员推理攻击。实验表明，在参与方足够多的情况下，该技术能够以较小的模型性能成本维持客户级差异隐私。文献[40]为了提高过于严格的本地差分隐私保护的实用性，重新定义了保护机制，既保证了敏感信息安全，又放宽了对数据的限制，并且设计了新的局部最优差异隐私机制来解决所有隐私级别的统计学习问题，适用于大型分布式模型拟合和联邦学习系统。 3.3.2 秘密共享机制考虑诚实参与方与恶意服务器（或者诚实并好奇服务器）的情形。服务器在联邦学习中扮演重要角色，它可以获取各个明确身份的参与方反馈的参数，并从中推测出参与方的敏感信息，这将对参与方隐私造成威胁，可以使用秘密共享机制来进行防范。秘密共享是指将一个秘密信息分成个碎片，交由个不同的参与方保管，使得其中任意个或个以上的碎片可以重构出秘密，而当碎片数量少于时无法获得任何关于的有用信息。文献[41]基于Shamir秘密共享设计了一个实用的安全聚合方案，该方案可以在诚实并好奇的服务器背景下保证更新参数安全性，即保证各参与方数据的隐私，同时控制协议的复杂度，使之能在大规模数据集中保持较低的计算和通信开销，适用于联邦学习中的协同训练。但这个协议无法防止共谋攻击。 3.3.3 同态加密考虑诚实参与方与恶意服务器（或者诚实并好奇服务器）的情形。采用加密的数据传输方式来保障隐私安全是有效防御措施。同态加密技术是一种常用的防御手段。同态加密是一种有效的加密方式，它的特性在于不需要直接访问明文，对密文的操作结果解密后等于明文的操作结果。以加性同态加密为例，即有其中，加密方案采用公钥加法同态加密，是一对公私钥，表示密文上某种特定的运算，如乘法或加法运算。利用同态密码，服务器就对密文参数进行聚合而无法获取用户的隐私参数。比如文献[42]基于诚实并好奇的云服务器提出了一个新的深度学习系统，利用同态加密方案实现了梯度在诚实并好奇服务器上的聚合，并且保证了系统达到与所有参与方联合数据集上训练的相应深度学习系统相同的精度。文献[43]开发了CryptoDL，用近似多项式代替原激活函数训练卷积神经网络，实验证明该技术在MNIST数据集的准确率高达到99.52%，每小时可以做出接近164 000个预测，提供了一个高效准确的隐私保护方案。 3.3.4 混合防御机制考虑恶意参与方与恶意服务器（或者诚实并好奇服务器）的情形。为了同时对参与方和服务器进行防范，可以将多种防御技术结合起来。文献[44] 将差分隐私保护技术与同态密码相结合，参与方 MRDD′RSPr[M(D)2S]⩽e"Pr[M(D′)2S]M""(n;t)snnttstsEncpk(m1)=c1;Encpk(m2)=c2Decsk(c1◦c2)=m1+m2(pk;sk)◦

第 4 期周俊等:联邦学习安全与隐私保护研究综述 15 利用初始参数计算出后，先加入噪声使之满足差分隐私，然后再使用轻量级的同态加密方案进行加密，这样可以防范服务器与恶意参与者的勾结问题。综上，对联邦学习中的三类安全威胁及其防御措施进行总结，见表2。表 2 联邦学习中三类安全威胁及其防御措施小结类型投毒攻击方法描述防御措施数据投毒[15 − 18] 模型投毒[19 − 20] 　投毒攻击主要是指在训练或再训练过程中，恶意的参与者通过攻击训练数据集来操纵机器学习模型的预测源信息检测[28] 鲁棒低秩矩阵逼近和鲁棒主成分回归[29] 参数检测[20] 对抗对抗攻击[21 − 22] 对抗样本生成方法[23 − 25] 　对抗攻击是指恶意构造输入样本，导致模型以高置信度输出错误结果对抗训练[30] 数据增强[31] 数据处理[32] 数据压缩[33] 防御蒸馏[34] 梯度正则化[35] 对抗样本检测[36] 基于GAN的防御[37] 　模型提取攻击指攻击者试图窃取模型的参数和超参数，破坏模型的保密性; 　模型逆向攻击指攻击者试图从训练完成的模型中获取训练数据集的信息，从而获取用户的隐私信息差分隐私[38 − 40] 秘密共享机制[41] 同态加密[42 − 43] 混合防御机制[44] 隐私模型提取攻击[26] 模型逆向攻击[27] 4 总结与展望随着人工智能技术的发展与普及，人们感受技术带来的便利的同时，也逐渐提高了对隐私保护的需求，尤其近期欧盟颁布的《通用数据保护条例》，更加凸显出联邦学习的优势，促进联邦学习的进一步发展。但目前联邦学习中仍存在较多的安全问题，本文主要针对投毒攻击、对抗攻击及隐私泄露这三类安全问题，总结了针对性的安全与隐私保护防御措施。然而这不是一项简单的任务，现有的防御方法只能在一定的条件下，在一定的范围内提高模型的鲁棒性。在联邦学习的安全性问题中，还有一些问题仍待解决。 1）数据质量问题。由于数据集存储在本地，服务器无法接触到数据源，难以保证数据的标签是否正确，数据是否发生了混淆等问题。而且各参与方之间数据的异构程度也无从得知，若数据规模不够大，很容易因为罕见样本过多而导致对抗攻击频繁，对抗防御难度增大。可以考虑使用零知识证明和承诺协议来实现对恶意用户数据的可验证，从而保证数据质量。 2）通信效率问题。当前的联邦学习大多都是同步的，一次迭代中，服务器要与众多的参与方进行数据交互。如果要采用多种防御手段保证模型与敏感信息的安全，势必会加重服务器的通信负担，甚至会造成拒绝服务攻击或单点失败。若考虑多个服务器，则服务器之间的交互安全也是一个值得深入探索的课题。因此，如何实现高效的隐私保护，在不得不使用公钥密码来保护用户隐私的条件下，减少其使用的次数[45 − 46]。 3）模型可解释性问题。联邦学习方式进一步加大了模型的复杂度，缺乏可解释性可能会导致联邦学习应用过程中的潜在威胁。可解释性是指向人类解释或以呈现可理解的术语的能力[47]，提高联邦学习模型的可解释性和透明性有利于消除内在的安全隐患，进一步提高模型的可靠性和安全性。由于联邦学习的内在性质，未来可能需要着重研究事后可解释性方法。联邦学习是一个非常有前景的研究领域，已经吸引了众多学者进行相关领域的研究，也取得了一系列重要研究成果。但联邦学习技术的发展还处于初级阶段，仍然存在许多问题尚待解决。在未来工作中,要继续研究联邦学习领域的安全问题，加快研究和发展相关安全与隐私保护技术，促进联邦学习的进一步发展。 i"

16 参考文献 [1] MCMAHAN H B, MOORE E, RAMAGE D, et al. Federated learning of deep networks using model aver- aging[J]. arXiv preprint, arXiv: 1602.05629,2016. [2] KONEČNÝ J,MCMAHAN H B,RAMAGE D,et al. Federated optimization:distributed machine learning for on- device intelligence[J]. arXiv preprint, arXiv: 1610.02527, 2016. [3] KONEČNÝ J, MCMAHAN H B,YU F X,et al. Federated learning: Strategies for improving communica- tion efficiency[J]. arXiv preprint, arXiv: 1610.05492,2016. [4] MOHRI M,SIVEK G,SURESH A T.Agnostic fed- erated learning[J]. arXiv preprint, arXiv: 1902.00146,2019. [5] YUROCHKIN M, AGARWAL M, GHOSH S, et al. Bayesian nonparametric federated learning of neural net- works[J]. arXiv preprint, arXiv: 1905.12022, 2019. [6] NIKNAM S, DHILLON H S, REED J H. Feder- ated learning for wireless communications:Motivation, op- portunities and challenges[J]. arXiv preprint, arXiv: 1908. 06847, 2019. [7] SHELLER M J, REINA G A, EDWARDS B,et al. Multi-institutional deep learning modeling without sharing patient data:A feasibility study on brain tumor segmenta- tion[C]// International MICCAI Brainlesion Workshop. Springer, Cham, 2018:92 − 104. [8] CHEN Y, WANG J, YU C, et al. FedHealth: A federated transfer learning framework for wearable health- care[J]. arXiv preprint, arXiv: 1907.09173, 2019. [9] 胡彬轩. 基于联邦学习的空气质量监测系统设计与实现[D]. 北京: 北京邮电大学, 2019. [10] CUSTERS B, SEARS A,DECHESNE F, et al.EU Personal Data Protection in Policy and Practice[M].Spring- er, 2019. [11] YANG Q, LIU Y, CHEN T, et al. Federated ma- chine learning[J]. ACM Transactions on Intelligent Sys- tems and Technology, 2019, 10（2）: 1 − 19. [12] PAN S J, YANG Q. A survey on transfer learn- ing[J]. IEEE Transactions on Knowledge and Data Engin- eering, 2009, 22（10）: 1345 − 1359. [13] CUSTERS B, SEARS A, DECHESNE F, et al. EU personal data protection in policy and practice[M]. TMC Asser Press, 2019. [14] 何英哲, 胡兴波, 何锦雯, 等. 机器学习系统的隐私和安全问题综述[J]. 计算机研究与发展, 2019, 56（10）: 2049 − 2070. 西华大学学报（自然科学版） 2020 年 [15] JIANG W, LI H, LIU S, et al. A flexible poison- ing attack against machine learning[C]//ICC 2019-2019 IEEE International Conference on Communications (ICC). Shanghai: China, IEEE, 2019: 1 − 6.10.1109/ICC. 2019. 8761422. [16] CHEN X, LIU C, LI B, et al. Targeted backdoor attacks on deep learning systems using data poisoning[J]. arXiv preprint, arXiv: 1712.05526, 2017. [17] BIGGIO B, NELSON B, LASKOV P. Poisoning attacks against support vector machines[J]. arXiv preprint, arXiv: 1206.6389, 2012. BIGGIO B, [18] MUÑOZ-GONZÁLEZ L, DE- MONTIS A, et al. Towards poisoning of deep learning al- gorithms with back-gradient optimization[C]//Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security. ACM, 2017: 27 − 38. [19] LIM W Y B, LUONG N C, HOANG D T, et al. Federated learning in mobile edge networks: a comprehens- ive survey[J]. arXiv preprint, arXiv: 1909.11875, 2019. [20] BHAGOJI A N, CHAKRABORTY S, MITTAL P, et al. Analyzing federated learning through an adversari- al lens[J]. arXiv preprint, arXiv: 1811.12470, 2018. [21] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[J]. arXiv pre- print, arXiv: 1312.6199, 2013. [22] GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[J]. arXiv preprint, arXiv: 1412.6572, 2014. [23] KURAKIN A, GOODFELLOW I, BENGIO S. Adversarial examples in the physical world[J]. arXiv pre- print, arXiv: 1607.02533, 2016. [24] PAPERNOT N, MCDANIEL P, JHA S, ET AL. The limitations of deep learning in adversarial settings [C]// 2016 IEEE European Symposium on Security and Privacy (EuroS&P). Saarbrucken, Germany: IEEE, 2016: 372 − 387. A, FROSSARD P. Deepfool: a simple and accurate method to fool deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas, NV, USA: IEEE,2016: 2574-2582. [25] MOOSAVI-DEZFOOLI FAWZI S M, [26] TRAMÈR F, ZHANG F, JUELS A, et al. Steal- ing machine learning models via prediction apis[C]//25th {USENIX} Security Symposium ({USENIX} Security 16). New York, NY, USA:[s.n.],2016: 601 − 618. [27] ATENIESE G, FELICI G, MANCINI L V, et al.

分享到：

赞收藏

资料库

联邦学习安全与隐私保护研究综述.pdf

相关推荐

人工智能

热门标签

最新资料