大数据安全与隐私保护_冯登国.pdf-资料库

第３７２０１４卷年第月　１期１计　　算　　机　　学　　报ＣＨＩＮＥＳＥ　ＪＯＵＲＮＡＬ　ＯＦ　ＣＯＭＰＵＴＥＲＳＶｏｌ．３７Ｎｏ．１Ｊａｎ．２０１４　大数据安全与隐私保护冯登国张敏李昊（中国科学院软件研究所可信计算与信息保障实验室北京　　１００１９０）　　　要摘式大数据（Ｂｉｇ　Ｄａｔａ）是当前学术界和产业界的研究热点，正影响着人们日常生活方式、工作习惯及思考模　但目前大数据在收集、存储和使用过程中面临着诸多安全风险，大数据所导致的隐私泄露为用户带来严重困．该文分析了实现大数据安全与隐私保护所面临的技术挑战，整．它扰，虚假数据将导致错误或无效的大数据分析结果理了若干关键技术及其最新进展分析指出大数据在引入安全问题的同时，也是解决信息安全问题的有效手段．．为信息安全领域的发展带来了新的契机．关键词　大数据；大数据安全；隐私保护；信息安全中图法分类号ＴＰ３０９　　　ＤＯＩ号１０．３７２４／ＳＰ．Ｊ．１０１６．２０１４．００２４６Ｂｉｇ　Ｄａｔａ　Ｓｅｃｕｒｉｔｙ　ａｎｄ　Ｐｒｉｖａｃｙ　Ｐｒｏｔｅｃｔｉｏｎ（Ｔｒｕｓｔｅｄ　Ｃｏｍｐｕｔｉｎｇ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ａｓｓｕｒａｎｃｅ　Ｌａｂｏｒａｔｏｒｙ，Ｉｎｓｔｉｔｕｔｅ　ｏｆ　Ｓｏｆｔｗａｒｅ，Ｃｈｉｎｅｓｅ　Ａｃａｄｅｍｙ　ｏｆ　Ｓｃｉｅｎｃｅｓ，Ｂｅｉｊｉｎｇ　１００１９０）ＦＥＮＧ　Ｄｅｎｇ－Ｇｕｏ　ＺＨＡＮＧ　Ｍｉｎ　ＬＩ　ＨａｏＡｂｓｔｒａｃｔ　Ｎｏｗａｄａｙｓ　ｂｉｇ　ｄａｔａ　ｈａｓ　ｂｅｃｏｍｅ　ａ　ｈｏｔ　ｔｏｐｉｃ　ｉｎ　ｂｏｔｈ　ｔｈｅ　ａｃａｄｅｍｉｃ　ａｎｄ　ｔｈｅ　ｉｎｄｕｓｔｒｉａｌｒｅｓｅａｒｃｈ．Ｉｔ　ｉｓ　ｒｅｇａｒｄｅｄ　ａｓ　ａ　ｒｅｖｏｌｕｔｉｏｎ　ｔｈａｔ　ｗｉｌｌ　ｔｒａｎｓｆｏｒｍ　ｈｏｗ　ｗｅ　ｌｉｖｅ，ｗｏｒｋ　ａｎｄ　ｔｈｉｎｋ．Ｈｏｗｅｖｅｒ，ｔｈｅｒｅ　ａｒｅ　ｍａｎｙ　ｓｅｃｕｒｉｔｙ　ｒｉｓｋｓ　ｉｎ　ｔｈｅ　ｆｉｅｌｄ　ｏｆ　ｄａｔａ　ｓｅｃｕｒｉｔｙ　ａｎｄ　ｐｒｉｖａｃｙ　ｐｒｏｔｅｃｔｉｏｎ　ｗｈｅｎ　ｃｏｌｌｅｃｔｉｎｇ，ｓｔｏｒｉｎｇ　ａｎｄ　ｕｔｉｌｉｚｉｎｇ　ｂｉｇ　ｄａｔａ．Ｐｒｉｖａｃｙ　ｉｓｓｕｅｓ　ｒｅｌａｔｅｄ　ｗｉｔｈ　ｂｉｇ　ｄａｔａ　ａｎａｌｙｓｉｓ　ｓｐｅｌｌ　ｔｒｏｕｂｌｅ　ｆｏｒ　ｉｎｄｉ－ｖｉｄｕａｌｓ．Ａｎｄ　ｄｅｃｅｐｔｉｖｅ　ｏｒ　ｆａｋｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｗｉｔｈｉｎ　ｂｉｇ　ｄａｔａ　ｍａｙ　ｌｅａｄ　ｔｏ　ｉｎｃｏｒｒｅｃｔ　ａｎａｌｙｓｉｓ　ｒｅｓｕｌｔｓ．Ｔｈｉｓ　ｐａｐｅｒ　ｓｕｍｍａｒｉｚｅｓ　ａｎｄ　ａｎａｌｙｚｅｓ　ｔｈｅ　ｓｅｃｕｒｉｔｙ　ｃｈａｌｌｅｎｇｅｓ　ｂｒｏｕｇｈｔ　ｂｙ　ｂｉｇ　ｄａｔａ，ａｎｄ　ｔｈｅｎｄｅｓｃｒｉｂｅｓ　ｔｈｅ　ｋｅｙ　ｔｅｃｈｎｏｌｏｇｉｅｓ　ｗｈｉｃｈ　ｃａｎ　ｂｅ　ｅｘｐｌｏｉｔｅｄ　ｔｏ　ｄｅａｌ　ｗｉｔｈ　ｔｈｅｓｅ　ｃｈａｌｌｅｎｇｅｓ．Ｆｉｎａｌｌｙ，ｔｈｉｓｐａｐｅｒ　ａｒｇｕｅｓ　ｔｈａｔ　ｂｉｇ　ｄａｔａ　ｂｒｉｎｇｓ　ｎｏｔ　ｏｎｌｙ　ｃｈａｌｌｅｎｇｅｓ，ｂｕｔ　ａｌｓｏ　ｔｅｃｈｎｉｃａｌ　ｒｅｖｏｌｕｔｉｏｎ　ｉｎ　ｔｈｅ　ｆｉｅｌｄ　ｏｆｉｎｆｏｒｍａｔｉｏｎ　ｓｅｃｕｒｉｔｙ．Ｋｅｙｗｏｒｄｓ　ｂｉｇ　ｄａｔａ；ｂｉｇ　ｄａｔａ　ｓｅｃｕｒｉｔｙ；ｐｒｉｖａｃｙ　ｐｒｏｔｅｃｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎ　ｓｅｃｕｒｉｔｙ１　引　言据统计，平均每秒有．当今，社会信息化和网络化的发展导致数据爆万用户在使用谷炸式增长歌搜索，Ｆａｃｅｂｏｏｋ亿，同时，科Ｔｗｉｔｔｅｒ．学计算、医疗卫生、金融、零售业等各行业也有大量用户每天共享的东西超过每天处理的推特数量超过２００３．４４０亿数据在不断产生２．７ＺＢ，而到２０１５．２０１２年全球信息总量已经达到年这一数值预计会达到８ＺＢ．Ｊｉｍ　Ｇｒａｙ这一现象引发了人们的广泛关注在学术界，图．提出了科学研究的第四范式，年灵奖获得者即以大数据为基础的数据密集型科学研究；２００８《Ｎａｔｕｒｅ》推出了大数据专刊对其展开探讨；２０１１《Ｓｃｉｅｎｃｅ》也推出类似的数据处理专刊产业界行动更为积极，持续关注数据再利用，挖掘大数据的潜．ＩＴ年收稿日期：２０１３－０７－２２；最终修改稿收到日期：２０１３－１１－２６．高技术研究发展计划项目基金（２０１１ＡＡ０１２３８２４００１）资助冯登国，男，１９６５．信计算与信息保障本课题得到国家自然科学基金（９１１１８００６，６１２３２００５，６１１００２３７）、国家“八六三” 年生，博士，研究员，主要研究领域为信息安全与密码学、可年生，博士，副研究员，主要研究方向为数据隐私保护、可信计算与云存储张．Ｅ－ｍａｉｌ：ｆｅｎｇｄｇ＠２６３．ｎｅｔ．敏，女，１９７５　安全李．　昊，男，１９８３年生，博士，助理研究员，主要研究方向为数据隐私保护与可信计算．

冯登国等：大数据安全与隐私保护７４２期１在价值２０１６美元领域的另一个信息产业增长点目前，大数据已成为继云计算之后信息技术．预测，亿美元，到亿年全球在大数据方面的总花费将达到年大数据将带动全球．支出Ｇａｒｔｎｅｒ３４０ＩＴ据２０１３２３２０．Ｇａｒｔｎｅｒ将“大数据”技术列入年对众多２０１２一．２００９ｄａｔａ．ｇｏｖ月美国政府上线了政府也是大数据技术推广的主要推动者公司和组织机构具有战略意义的十大技术与趋势之不仅如此，作为国家和社会的主要管理者，各国．年网站，向公众开放政３随后，英国、澳大利亚等政府府所拥有的公共数据．也开始了大数据开放的进程，截至目前，全世界已经正式有个国家和地区构建了自己的数据开放门３５户网站 ①．年中国的“大数据研究与发展计划”．通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会，为我国大数据应用和发展提供学术咨询２在我国，２０１２个部门宣布了美国政府联合亿美元６．目前大数据的发展仍然面临着许多问题，安全当前，与隐私问题是人们公认的关键问题之一［１－２］．人们在互联网上的一言一行都掌握在互联网商家手中，包括购物习惯、好友联络情况、阅读习惯、检索习多项实际案例说明，即使无害的数据被大量惯等等．事实上，大数据安全收集后，也会暴露个人隐私［１］．含义更为广泛，人们面临的威胁并不仅限于个人隐私泄漏与其它信息一样，大数据在存储、处理、传输．等过程中面临诸多安全风险，具有数据安全与隐私保护需求而实现大数据安全与隐私保护，较以往其．它安全问题（如云计算中的数据安全等）更为棘手．这是因为在云计算中，虽然服务提供商控制了数据的存储与运行环境，但是用户仍然有些办法保护自己的数据，例如通过密码学的技术手段实现数据安全存储与安全计算，或者通过可信计算方式实现运等行环境安全等商家既是数据的生产者，又是数据的存储、管理者和使用者，因此，单纯通过技术手段限制商家对用户信息的使用，实现用户隐私保护是极其困难的事［１］．而在大数据的背景下，Ｆａｃｅｂｏｏｋ．联盟ＣＳＡ．２０１２积极行动起来关注大数据安全问题当前很多组织都认识到大数据的安全问题，并年云安全组建了大数据工作组，旨在寻找针对数据中心安全和隐私问题的解决方案本文在梳理大数据研究现状的基础上，重点分析了当前大数据所带来的安全挑战，详细阐述了当前大数据安全与隐私保护的关键技术需要指出的是，大数据在引入新的．．安全问题和挑战的同时，也为信息安全领域带来了新的发展契机，即基于大数据的信息安全相关技术可以反过来用于大数据的安全和隐私保护本文在．第５２　节对其进行了初步分析与探讨．大数据研究概述２．１　大数据来源与特征普遍的观点认为，大数据是指规模大且复杂、以至于很难用现有数据库管理工具或数据处理应用来处理的数据集 ②．（ｖｏｌｕｍｅ）、高速性（ｖｅｌｏｃｉｔｙ）和多样性（ｖａｒｉｅｔｙ）．大数据的常见特点包括大规模根据来源的不同，大数据大致可分为如下几类［３］：．（１）来自于人人们在互联网活动以及使用移动互联网过程中所产生的各类数据，包括文字、图片、视频等信息；（２）来自于机各类计算机信息系统产生的数据，以文件、数据库、多媒体等形式存在，也包括审计、日志等自动生成的信息；．（３）来自于物各类数字设备所采集的数据如．摄像头产生的数字信号、医疗物联网中产生的人的各项特征值、天文望远镜所产生的大量数据等．．２．２　大数据分析目标目前大数据分析应用于科学、医药、商业等各个但其目标可以归纳为如下领域，用途差异巨大几类：．．（１）获得知识与推测趋势人们进行数据分析由来已久，最初且最重要的目的就是获得知识、利用知识由于大数据包含大量原始、真实信息，大数据分析能够有效地摒弃个体差异，帮助人们透过现象、更准确地把握事物背后的基于挖掘出的知识，可以更准确地对自然或社规律．公司的会现象进行预测典型的案例是．．Ｇｏｏｇｌｅ网站它通过统计人们对流感信．Ｇｏｏｇｌｅ　Ｆｌｕ　Ｔｒｅｎｄｓ地址判定搜息的搜索，查询又索来源，从而发布对世界各地流感情况的预测 ③．如，人们可以根据信息预测股票行情 ④等．服务器日志的ＴｗｉｔｔｅｒＧｏｏｇｌｅＩＰ（２）分析掌握个性化特征个体活动在满足某些群体特征的同时，也具有． ① ② ③ ④ ｈｔｔｐ：／／ｗｗｗ．ｃｈｉｎａｅｇ．ｇｏｖ．ｃｎ／ｓｈｏｗ－４１５０．ｈｔｍｌ＿维基百科ｄａｔａｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｂｉｇｈｔｔｐ：／／ｗｗｗ．ｇｏｏｇｌｅ．ｏｒｇ／ｆｌｕｔｒｅｎｄｓ／ｈｔｔｐ：／／ｔｅｃｈ２ｉｐｏ．ｃｏｍ／６３２２／

８４２计　　算　　机　　学　　报年２０１４．鲜明的个性化特征正如 “长尾理论”中那条细长的．尾巴那样，这些特征可能千差万别企业通过长时间、多维度的数据积累，可以分析用户行为规律，更准确地描绘其个体轮廓，为用户提供更好的个性化产品和服务，以及更准确的广告推荐Ｇｏｏｇｌｅ通过其大数据产品对用户的习惯和爱好进行分析，帮助广告商评估广告活动效率，预估在未来可能存在高达到数千亿美元的市场规模 ①．例如．（３）通过分析辨识真相．错误信息不如没有信息由于网络中信息的传播更加便利，所以网络虚假信息造成的危害也更大例如，２０１３．帐号被盗，日，美联社Ｔｗｉｔｔｅｒ２４年月４．发布虚假消息称总统奥巴马遭受恐怖袭击受伤虽．然虚假消息在几分钟内被禁止，但是仍然引发了美国股市短暂跳水由于大数据来源广泛及其多样性，．目在一定程度上它可以帮助实现信息的去伪存真．前人们开始尝试利用大数据进行虚假信息识别例如，社交点评类网站利用大数据对虚假评论进行过滤，为用户提供更为真实的评论信息 ②；Ｙａｈｏｏ③和Ｔｈｉｎｋｍａｉｌ④ 等利用大数据分析技术来过滤垃圾邮件．Ｙｅｌｐ．２．３　大数据技术框架大数据处理涉及数据的采集、管理、分析与展示图是相关技术示意图等．１．（１）数据采集与预处理（Ｄａｔａ　Ａｃｑｕｉｓｉｔｉｏｎ　＆深度的数据分析流程图１　大数据技术架构Ｐｒｅｐａｒａｔｉｏｎ）．大数据的数据源多样化，包括数据库、文本、图片、视频、网页等各类结构化、非结构化及半结构化数据因此，大数据处理的第一步是从数据源采集数．据并进行预处理操作，为后继流程提供统一的高质量的数据集．由于大数据的来源不一，可能存在不同模式的因此，在数据集成过程中对数描述，甚至存在矛盾．据进行清洗，以消除相似、重复或不一致的数据是非文献［４－７］中数据清洗和集成技术针对大常必要的．数据的特点，提出非结构化或半结构化数据的清洗以及超大规模数据的集成．数据存储与大数据应用密切相关某些实时性要求较高的应用，如状态监控，更适合采用流处理模式，直接在清洗和集成后的数据源上进行分而大多数其它应用则需要存储，以支持后继更析．．为了提高数据吞吐量，降低存．这方面ＧＦＳ［８］、ＨＤＦＳ［９］和Ｍｏｎｇｏｄｂ、ＣｏｕｃｈＤＢ、储成本，通常采用分布式架构来存储大数据有代表性的研究包括：文件系统Ｈａｙｓｔａｃｋ［１０］等；ＮｏＳＱＬ等ＨＢａｓｅ、Ｒｅｄｉｓ、Ｎｅｏ４ｊ数据库．．（２）数据分析（Ｄａｔａ　Ａｎａｌｙｓｉｓ）．数据分析是大数据应用的核心流程根据不同．层次大致可分为类：计算架构、查询与索引以及数３据分析和处理．在计算架构方面，ＭａｐＲｅｄｕｃｅ［１１］是当前广泛采用的大数据集计算模型和框架为了适应一些对任务完成时间要求较高的分析需求，文献［１２］对其性． ① ② ③ ④ ｈｔｔｐ：／／ｓｅｒｖｅｒ．ｙｅｓｋｙ．ｃｏｍ／ｄａｔａｃｅｎｔｅｒ／１７２／３４７０５１７２．ｓｈｔｍｌｈｔｔｐ：／／ａｄａｇｅ．ｃｏｍ／ａｒｔｉｃｌｅ／ｄｉｇｉｔａｌ／ｆａｋｅ－ｒｅｖｉｅｗｓ－ｒｉｓｅ－ｙｅｌｐ－ｃｒａｃｋ－ｆｒａｕｄｓｔｅｒｓ／２３７４８６／ｈｔｔｐ：／／ｒｅａｄｗｒｉｔｅ．ｃｏｍ／２０１０／０５／２４／ｍａｐ－ｒｅｄｕｃｅ－ｙａｈｏｏ－ｍａｉｌ＃ａｗｅｓｍ＝～ｏｂＩｒ１Ｗｗｉ９Ｘ９ｄＭＮｈｔｔｐ：／／ｃｌｏｕｄ．ｙｅｓｋｙ．ｃｏｍ／２０／３４９８４５２０．ｓｈｔｍｌ

期１冯登国等：大数据安全与隐私保护９４２能进行了优化；文献［１３］提出了一种基于ＭａｐＲｅｄｕｃｅ架构的数据流分析解决方案ＭＡＲＩＳＳＡ，使其能够支持实时分析任务；文献［１４］则提出了基于时间的Ｍａｓｔｉｆｆ；文献［１５］也针对广告推送大数据分析方案等实时性要求较高的应用，提出了基于ＭａｐＲｅｄｕｃｅ的框架来进行实时流处理ＴｉＭＲ．在查询与索引方面，由于大数据中包含了大量的非结构化或半结构化数据，传统关系型数据库的类数据库技查询和索引技术受到限制，而例如，文献［１６］提出了一个混合的术得到更多关注．以及一种并发数据查询及优数据访问架构ＮｏＳＱＬ化方法ＨｙＤＢ文献［１７］对．ｋｅｙ－ｖａｌｕｅ类型数据库的查询进行了性能优化．．在数据分析与处理方面，主要涉及的技术包括语义分析与数据挖掘等由于大数据环境下数据呈现多样化特点，所以对数据进行语义分析时，就较难统一术语进而挖掘信息文献［１８］针对大数据环境，．提出了一种解决术语变异问题的高效术语标准化方文献［１９］对语义分析中语义本体的异质性展开．传统数据挖掘技术主要针对结构化数据，因．此迫切需要对非结构化或半结构化的数据挖掘技术文献［２０］提出了一种针对图片文件的挖．文件的展开研究掘技术，文献［２１］提出了一种大规模检索和挖掘技术了研究ＴＥＸＴ法．（３）数据解释（Ｄａｔａ　Ｉｎｔｅｒｐｒｅｔａｔｉｏｎ）．数据解释旨在更好地支持用户对数据分析结果的使用，涉及的主要技术为可视化和人机交互．目前已经有了一些针对大规模数据的可视化研究［２２－２３］，通过数据投影、维度降解或显示墙等方法来解决大规模数据的显示问题由于人类的视觉敏感度限制了更大屏幕显示的有效性，以人为中心的人机交互设计也将是解决大数据分析结果展示的一种．重要技术．（４）其它支撑技术（Ｄａｔａ　Ｔｒａｎｓｍｉｓｓｉｏｎ　＆ＶｉｒｔｕａｌＣｌｕｓｔｅｒ）．虽然大数据应用强调以数据为中心，将计算推送到数据上执行，但是在整个处理过程中，数据的传输仍然是必不可少的，例如一些科学观测数据从观文献［２４－２５］针对大数据测点向数据中心的传输等．特征研究高效传输架构和协议．此外，由于虚拟集群具有成本低、搭建灵活、便于管理等优点，人们在大数据分析时可以选择更加方便的虚拟集群来完成各项处理任务因此需要针对大数据应用展开的虚拟机集群优化研究［２６］．．大数据带来的安全挑战３　科学技术是一把双刃剑大数据所引发的安全．问题与其带来的价值同样引人注目而最近爆发的 “棱镜门”事件更加剧了人们对大数据安全的担忧．与传统的信息安全问题相比，大数据安全面临的挑战性问题主要体现在以下几个方面．．３．１　大数据中的用户隐私保护大量事实表明，大数据未被妥善处理会对用户的隐私造成极大的侵害根据需要保护的内容不同，．隐私保护又可以进一步细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等．人们面临的威胁并不仅限于个人隐私泄漏，还在于基于大数据对人们状态和行为的预测一个典型的例子是某零售商通过历史记录分析，比家长更早知道其女儿已经怀孕的事实，并向其邮寄相关广而社交网络分析研究也表明，可以通过其告信息 ①．例如通过分析用户中的群组特性发现用户的属性信息，可以发现用户的政治倾向、消费习．．Ｔｗｉｔｔｅｒ的惯以及喜好的球队等［２７－２８］．当前企业常常认为经过匿名处理后，信息不包但事实上，仅．例含用户的标识符，就可以公开发布了通过匿名保护并不能很好地达到隐私保护目标如，ＡＯＬ搜索历史，供人们分析使用虽然个人相关的标识信息被精心处理过，但其中的某些记录项还是可以被准确地定位到具体的个人纽约时报随即公布了其公司曾公布了匿名处理后的个月内部分３．．．识别出的位用户编号为岁的寡居妇人，家里养了１．６２等等４　４１７　７４９的用户是位条狗，患有某种疾病，租赁商１３另一个相似的例子是，著名的．ＤＶＤ５０曾公布了约万用户的租赁信息，悬赏Ｎｅｔｆｌｉｘ万美元征集算法，以期提高电影推荐系统的准确度．但是当上述信息与其它数据源结合时，部分用户还中的用户有是被识别出来了１００研究者发现，Ｎｅｔｆｌｉｘ．ｔｏｐ１００、ｔｏｐ５００、ｔｏｐ１０００很大概率对非过评分，而根据对非名化（ｄｅ－ａｎｏｎｙｍｉｚｉｎｇ）攻击的效果更好［２９］．ｔｏｐ影片的评分结果进行去匿的影片进行目前用户数据的收集、存储、管理与使用等均缺用户无而在商业化场景中，用．乏规范，更缺乏监管，主要依靠企业的自律法确定自己隐私信息的用途． ① ｈｔｔｐ：／／ｎｅｗｓ．ｘｉｎｈｕａｎｅｔ．ｃｏｍ／ｉｎｆｏ／２０１３－０４／１１／ｃ＿１３２３０００１３．ｈｔｍ

０５２计　　算　　机　　学　　报年２０１４．户应有权决定自己的信息如何被利用，实现用户可例如用户可以决定自己的信息何时控的隐私保护以何种形式披露，何时被销毁包括：（１）数据采集．时的隐私保护，如数据精度处理；（２）数据共享、发布时的隐私保护，如数据的匿名处理、人工加扰等；（３）数据分析时的隐私保护；（４）数据生命周期的隐私保护；（５）隐私数据可信销毁等３．２　大数据的可信性关于大数据的一个普遍的观点是，数据自己可但实际情况是，以说明一切，数据自身就是事实 ①．如果不仔细甄别，数据也会欺骗，就像人们有时会被自己的双眼欺骗一样．．大数据可信性的威胁之一是伪造或刻意制造的．数据，而错误的数据往往会导致错误的结论若数据应用场景明确，就可能有人刻意制造数据、营造某种 “假象”，诱导分析者得出对其有利的结论由于虚假信息往往隐藏于大量信息中，使得人们无法鉴别真伪，从而做出错误判断例如，一些点评网站上的虚．假评论，混杂在真实评论中使得用户无法分辨，可能误导用户去选择某些劣质商品或服务由于当前网络社区中虚假信息的产生和传播变得越来越容易，用信息安全技术手段鉴其所产生的影响不可低估．．．别所有来源的真实性是不可能的．大数据可信性的威胁之二是数据在传播中的逐．步失真原因之一是人工干预的数据采集过程可能引入误差，由于失误导致数据失真与偏差，最终影响此外，数据失真还有数据的数据分析结果的准确性．在传播过程中，现实情况发生了变版本变更的因素．例如，化，早期采集的数据已经不能反映真实情况．餐馆电话号码已经变更，但早期的信息已经被其它搜索引擎或应用收录，所以用户可能看到矛盾的信息而影响其判断．因此，大数据的使用者应该有能力基于数据来源的真实性、数据传播途径、数据加工处理过程等，了解各项数据可信度，防止分析得出无意义或者错误的结果．密码学中的数字签名、消息鉴别码等技术可以用于验证数据的完整性，但应用于大数据的真实性时面临很大困难，主要根源在于数据粒度的差异例．如，数据的发源方可以对整个信息签名，但是当信息分解成若干组成部分时，该签名无法验证每个部分的完整性而数据的发源方无法事先预知哪些部分被利用、如何被利用，难以事先为其生成验证对象．．如何实现大数据访问控制３．３　访问控制是实现数据受控共享的有效手段由．于大数据可能被用于多种不同场景，其访问控制需求十分突出．大数据访问控制的特点与难点在于：（１）难以预设角色，实现角色划分由于大数据应用范围广泛，它通常要为来自不同组织或部门、不同身份与目的的用户所访问，实施访问控制是基本然而，在大数据的场景下，有大量的用户需要需求．面对未实施权限管理，且用户具体的权限要求未知．知的大量数据和用户，预先设置角色十分困难．．．（２）难以预知每个角色的实际权限由于大数据场景中包含海量数据，安全管理员可能缺乏足够的专业知识，无法准确地为用户指定其所可以访问而且从效率角度讲，定义用户所有授权的数据范围．以医疗领域应用为例，医生规则也不是理想的方式．为了完成其工作可能需要访问大量信息，但对于数据能否访问应该由医生来决定，不应该需要管理员对每个医生做特别的配置但同时又应该能够提供对医生访问行为的检测与控制，限制医生对病患数据的过度访问．．Ｗｅｂ２．０例如，在．此外，不同类型的大数据中可能存在多样化的个人用户数据中，访问控制需求存在基于历史记录的访问控制；在地理地图数据中，存在基于尺度以及数据精度的访问控制需求；在流数据处理中，存在数据时间区间的访问控制需求，等如何统一地描述与表达访问控制需求也是一个等．挑战性问题．大数据安全与隐私保护关键技术４　当前亟需针对前述大数据面临的用户隐私保护、数据内容可信验证、访问控制等安全挑战，展开大数据安全关键技术研究本节选取部分重点相关．研究领域予以介绍．４．１　数据发布匿名保护技术对于大数据中的结构化数据（或称关系数据）而言，数据发布匿名保护是实现其隐私保护的核心关键技术与基本手段，目前仍处于不断发展与完善阶段早期的方案［３０－３１］及匿名方案为例以典型的．ｋ．其优化方案［３２－３４］通过元组泛化、抑制等数据处理，将 ① ｈｔｔｐ：／／ｗｗｗ．ｗｉｒｅｄ．ｃｏｍ／ｓｃｉｅｎｃｅ／ｄｉｓｃｏｖｅｒｉｅｓ／ｍａｇａｚｉｎｅ／１６－０７／ｐｂ＿ｔｈｅｏｒｙ

期１冯登国等：大数据安全与隐私保护１５２准标识符分组每个分组中的准标识符相同且至少．包含ｋ个元组，因而每个元组至少与个其它元ｋ－１．ｋ由于匿名模型是针对所有属性集合而组不可区分言，对于具体的某个属性则未加定义，容易出现某个属性匿名处理不足的情况若某等价类中某个敏感属性上取值一致，则攻击者可以有效地确定该属性值．多样化（ｌ－ｄｉｖｅｒｓｉｔｙ）［３５］匿针对该问题研究者提出其特点是在每一个匿名属性组里敏感数据的多ｌ名．．样性满足要大于或等于实现方法包括基于裁剪ｌ．ｌｋ．ｔ匿名与此．进．ｌ－ｄｉｖｅｒｓｉｔｙ多样化之间的方案分布保持一致（Ｘ，Ｙ）匿名模型［４０］等性发布情况算法的方案［３６］以及基于数据置换的方案［３７］等外，还有一些介于一步的，由于现的频率平均化只是能够尽量使敏感数据出当同一等价类中数据范围很小时，．贴近性（ｔ－ｃｌｏｓｅｎｅｓｓ）方案［３８］要攻击者可猜测其值求等价类中敏感数据的分布与整个数据表中数据的其它工作包括（ｋ，ｅ）匿名模型［３９］、．上述研究是针对静态、一次．而现实中，数据发布常面临数据连续、．多次发布的场景需要防止攻击者对多次发布的数据联合进行分析，破坏数据原有的匿名特性［４１－４２］．在大数据场景中，数据发布匿名保护问题较之更为复杂：攻击者可以从多种渠道获得数据，而不仅应用仅是同一发布源中，人们［４３］发现攻击者可通过将数据与公开可获得的账的ｉｍｄｂ并据此获取用户的政治倾向与宗教信仰等（通过．用户的观看历史和对某些电影的评论和打分分析获得）．４．２　相对比，从而识别出目标在例如，在前所提及的．此类问题有待更深入的研究社交网络匿名保护技术ＮｅｔｆｌｉｘＮｅｔｆｌｉｘ号．．点的度数分组，从度数相同的节点中选择符合要求这类方的进行边的交换，类似的还有文献［４６－４７］．法的问题是随机增加的噪音过于分散稀少，存在匿名边保护不足问题．另一个重要思路是基于超级节点对图结构进行分割和集聚操作如基于节点聚集的匿名方案［４８］、．基于基因算法的实现方案［４９］、基于模拟退火算法的实现方案［５０］以及先填充再分割超级节点的方案［５１］．文献［５２］所提出的个同构子图实现图匿名保护基于超级节点的匿名方案虽然能够实现边的匿名，但是与原始社交结构图存在较大区别，以牺牲数据的可用性为代价概念，通过ｋ－ｓｅｃｕｒｉｔｙｋ．．社交网络匿名方案面临的重要问题是，攻击者可能通过其它公开的信息推测出匿名用户，尤其是用户之间是否存在连接关系例如，可以基于弱连接．对用户可能存在的连接进行预测［５３］，适用于用户关系较为稀疏的网络；根据现有社交结构对人群中的等级关系进行恢复和推测［５４］；针对微博型的复合社交网络进行分析与关系预测［５５］；基于限制随机游走方法，推测不同连接关系存在的概率［５６］，等等研究表明［５７］，社交网络的集聚特性对于关系预测方法的准确性具有重要影响，社交网络局部连接密度增长，集聚系数增大，则连接预测算法的准确性进一步增因此，未来的匿名保护技术应可以有效抵抗此类强．．推测攻击．数据水印技术４．３　数字水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用的方法，多见于多媒体数据版权保护也有部分针对数据库和文本．社交网络产生的数据是大数据的重要来源之文件的水印方案．年一，同时这些数据中包含大量用户隐私数据的用户成员就已达亿２０１２．由于社交网络具有图结构特征，其匿名保护技术与结构化数据有很大不同Ｆａｃｅｂｏｏｋ截至．１０１０月．社交网络中的典型匿名保护需求为用户标识匿名与属性匿名（又称点匿名），在数据发布时隐藏了用户的标识与属性信息；以及用户间关系匿名（又称边匿名），在数据发布时隐藏用户间的关系而攻击者试图利用节点的各种属性（度数、标签、某些具体连接信息等），重新识别出图中节点的身份信息目前的边匿名方案大多是基于边的增删．随机．．增删交换边的方法可以有效地实现边匿名其中文献［４４］在匿名过程中保持邻接矩阵的特征值和对应的拉普拉斯矩阵第二特征值不变，文献［４５］根据节．由数据的无序性、动态性等特点所决定，在数据库、文档中添加水印的方法与多媒体载体上有很大不同其基本前提是上述数据中存在冗余信息或可．等人［５８－５９］基于数容忍一定精度误差据库中数值型数据存在误差容忍范围，将少量水印信息嵌入到这些数据中随机选取的最不重要位上例如，Ａｇｒａｗａｌ．．Ｓｉｏｎ等人［６０－６１］提出一种基于数据集合统计特征而的方案，将一比特水印信息嵌入在一组属性数据中，防止攻击者破坏水印此外，通过将数据库指纹信息．嵌入水印中［６２］，可以识别出信息的所有者以及被分发的对象，有利于在分布式环境下追踪泄密者；通过ＩＣＡ），可以实现无需采用独立分量分析技术（简称其它相关工作包括文献密钥的水印公开验证［６３］．若在数据库表中嵌入脆弱性水印，可以帮［６４－６５］．

２５２计　　算　　机　　学　　报年２０１４助及时发现数据项的变化［６６］．文本水印的生成方法种类很多，可大致分为基于文档结构微调的水印［６７］，依赖字符间距与行间距等格式上的微小差异；基于文本内容的水印［６８］，依赖于修改文档内容，如增加空格、修改标点等；以及基于自然语言的水印［６９］，通过理解语义实现变化，如同义词替换或句式变化等．．上述水印方案中有些可用于部分数据的验证．例如在文献［５８－５９］中，残余元组数量达到阈值就可以成功验证出水印该特性在大数据应用场景下具有广阔的发展前景，例如：强健水印类（ＲｏｂｕｓｔＷａｔｅｒｍａｒｋ）可用于大数据的起源证明，而脆弱水印类（Ｆｒａｇｉｌｅ　Ｗａｔｅｒｍａｒｋ）可用于大数据的真实性证存在问题之一是当前的方案多基于静态数据集，明．针对大数据的高速产生与更新的特性考虑不足，这是未来亟待提高的方向．４．４　数据溯源 ①技术如前所述，数据集成是大数据前期处理的步骤之一由于数据的来源多样化，所以有必要记录数据．的来源及其传播、计算过程，为后期的挖掘与决策提供辅助支持．析技术获得大数据的来源，然后才能更好地支持安全策略和安全机制的工作；另一方面，数据来源往往用户不希望这方面的数据本身就是隐私敏感数据因此，如何平衡这两者的关系是值得．研究的问题之一被分析者获得．．（２）数据溯源技术自身的安全性保护当前数据溯源技术并没有充分考虑安全问题，例如标记自身是否正确、标记信息与数据内容之间是否安全绑定等等而在大数据环境下，其大规模、高速性、多样．．性等特点使该问题更加突出．４．５　的一种访问控制模型关联至权限集合，实现用户授权、简化权限管理期的角色挖掘基于角色的访问控制（ＲＢＡＣ）是当前广泛使用通过为用户指派角色、将角色．早．权限管理多采用“自顶向下”的模式：即根据企业的职位设立角色分工当其应用于大数据场景时，面临需大量人工参与角色划分、授权的问题（又称为角色工程）．ＲＢＡＣ．后来研究者们开始关注 “自底向上”模式，即根对象”授权情况，设计算法自动实现角据现有“用户－简单来说，就色的提取与优化，称为角色挖掘［７８－８２］．是如何设置合理的角色典型的工作包括：以可视化．的形式，通过用户权限二维图的排序归并的方式实现角色提取［８３］；通过子集枚举以及聚类的方法提取角色［８４］等非形式化方法；也有基于形式化语义分析、通过层次化挖掘来更准确提取角色的方法［８５］．总体来说，挖掘生成最小角色集合的最优算法时间复杂度高，多属于因而也有研究者在大数关注在多项式时间内完成的启发式算法［８６］．据场景下，采用角色挖掘技术可根据用户的访问记录自动生成角色，高效地为海量用户提供个性化数据服务同时也可用于及时发现用户偏离日常行为完全问题ＮＰ－．．所隐藏的潜在危险但当前角色挖掘技术大都基于精确、封闭的数据集，在应用于大数据场景时还需要解决数据集动态变更以及质量不高等特殊问题．．４．６　风险自适应的访问控制在大数据场景中，安全管理员可能缺乏足够的专业知识，无法准确地为用户指定其可以访问的数据风险自适应的访问控制是针对这种场景讨论较．多的一种访问控制方法．Ｊａｓｏｎ的报告［８７］描述了风险量化和访问配额的概念随后，Ｃｈｅｎｇ．等人［８８］提．．．和括ｗｈｙ－步细化为早在大数据概念出现之前，数据溯源（Ｄａｔａ其Ｐｒｏｖｅｎａｎｃｅ）技术就在数据库领域得到广泛研究基本出发点是帮助人们确定数据仓库中各项数据的来源，例如了解它们是由哪些表中的哪些数据项运算而成，据此可以方便地验算结果的正确性，或者以极小的代价进行数据更新数据溯源的基本方法是标记法，如在［７０－７２］中通过对数据进行标记来记录数后来概念进一据在数据仓库中的查询与传播历史两类［７３］，分别侧重数据除数据库以外，它还包．数据、流数据与不确定数据的溯源技术［７７］．数据溯源技术也可用于文件的溯源与恢复例如文内核与文件系统，创建了一献［７４］通过扩展个数据起源存储系统原型系统，可以自动搜集起源数据ｗｈｅｒｅ－的计算方法以及数据的出处此外也有其在云存储场景中的应用［７５］．．未来数据溯源技术将在信息安全领域发挥重要年呈报美国国土安全部的 “国家网络作用空间安全”的报告中，将其列为未来确保国家关键基然而，数据溯础设施安全的源技术应用于大数据安全与隐私保护中还面临如下挑战：项关键技术之一［７６］．ＬｉｎｕｘＸＭＬ２００９在．．３（１）数据溯源与隐私保护之间的平衡一方面，．基于数据溯源对大数据进行安全保护首先要通过分 ① 也被译成“数据世系”，英文有的称作Ｐｅｄｉｇｒｅｅ，含义略有区别Ｄａｔａ　Ｌｉｎｅａｇｅ或Ｄａｔａ

期１冯登国等：大数据安全与隐私保护３５２出了一个基于多级别安全模型的风险自适应访问控．．Ｎｉ等人［８９］提出了另一个基于模糊推制解决方案理的解决方案，将信息的数目和用户以及信息的安全等级作为进行风险量化的主要参考参数当用户访问的资源的风险数值高于某个预定的门限时，则限制用户继续访问文献［９０］提出了一种针对医疗．数据提供用户隐私保护的可量化风险自适应访问控通过利用统计学和信息论的方法，定义了量化算制．法，从而实现基于风险的访问控制但同时，在大数．据应用环境中，风险的定义和量化都较之以往更加困难．大数据服务与信息安全５　５．１　响应－检测－往的“保护地发现潜在的安全威胁基于大数据的威胁发现技术由于大数据分析技术的出现，企业可以超越以恢复”（ＰＤＲＲ）模式，更主动－推出了名为大数据安全智能的新型安全工具 ①，可以利用ＩＢＭ大数据来侦测来自企业内外部的安全威胁，包括扫描电子邮件和社交网络，标示出明显心存不满的员工，提醒企业注意，预防其泄露企业机密例如，ＩＢＭ．． “棱镜”计划也可以被理解为应用大数据方法进行安全分析的成功故事通过收集各个国家各种类型的数据，利用安全威胁数据和安全分析形成系统方法发现潜在危险局势，在攻击发生之前识别威胁．相比于传统技术方案，基于大数据的威胁发现．技术具有以下优点．．．（１）分析内容的范围更大传统的威胁分析主要针对的内容为各类安全事件而一个企业的信息资产则包括数据资产、软件资．产、实物资产、人员资产、服务资产和其它为业务提供支持的无形资产由于传统威胁检测技术的局限性，其并不能覆盖这六类信息资产，因此所能发现的威胁也是有限的而通过在威胁检测方面引入大数据分析技术，可以更全面地发现针对这些信息资产的攻击例如通过分析企业员工的即时通信数据、．数据等可以及时发现人员资产是否面临其它Ｅｍａｉｌ企业“挖墙脚”的攻击威胁再比如通过对企业的客户部订单数据的分析，也能够发现一些异常的操作行为，进而判断是否危害公司利益可以看出，分析内容．范围的扩大使得基于大数据的威胁检测更加全面．．．（２）分析内容的时间跨度更长现有的许多威胁分析技术都是内存关联性的，．也就是说实时收集数据，采用分析技术发现攻击分．析窗口通常受限于内存大小，无法应对持续性和潜伏性攻击而引入大数据分析技术后，威胁分析窗口．可以横跨若干年的数据，因此威胁发现能力更强，可以有效应对类攻击．（３）攻击威胁的预测性传统的安全防护技术或工具大多是在攻击发生ＡＰＴ．后对攻击行为进行分析和归类，并做出响应大数据的威胁分析，可进行超前的预判潜在的安全威胁，对未发生的攻击行为进行预防．．它能够寻找而基于．．（４）对未知威胁的检测传统的威胁分析通常是由经验丰富的专业人员根据企业需求和实际情况展开，然而这种威胁分析同时，分析所发的结果很大程度上依赖于个人经验．现的威胁也是已知的而大数据分析的特点是侧重于普通的关联分析，而不侧重因果分析，因此通过采用恰当的分析模型，可发现未知威胁．．．虽然基于大数据的威胁发现技术具有上述的优点，但是该技术目前也存在一些问题和挑战，主要集中在分析结果的准确程度上一方面，大数据的收集．很难做到全面，而数据又是分析的基础，它的片面性往往会导致分析出的结果的偏差为了分析企业信息资产面临的威胁，不但要全面收集企业内部的数据，还要对一些企业外的数据进行收集，这些在某种另一方面，大数据分析能力的程度上是一个大问题．例如，纽约投资银行每．数据如果没有足够的分析能力，要从如此庞大的数据．中准确地发现极少数预示潜在攻击的事件，进而分析出威胁是几乎不可能完成的任务次网络事件，每天会从中捕捉不足影响威胁分析的准确性秒会有２５ＴＢ５０００．基于大数据的认证技术５．２　身份认证是信息系统或网络中确认操作者身份传统的认证技术主要通过用户所知的秘密，的过程．例如口令，或者持有的凭证，例如数字证书，来鉴别用户这些技术面临着如下两个问题．首先，攻击者总是能够找到方法来骗取用户所知的秘密，或窃取用户持有的凭证，从而通过认证机制的认证例如攻击者利用钓鱼网站窃取用户口令，．或者通过社会工程学方式接近用户，直接骗取用户所知秘密或持有的凭证．．其次，传统认证技术中认证方式越安全往往意例如，为了加强认证安全，而采．味着用户负担越重 ① ｈｔｔｐ：／／ｗｗｗ．３６ｋｒ．ｃｏｍ／ｐ／２０１１７６．ｈｔｍｌ

资料库

大数据安全与隐私保护_冯登国.pdf

相关推荐

行业

热门标签

最新资料