logo资料库

大数据安全与隐私保护_冯登国.pdf

第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
资料共13页,剩余部分请下载后查看
第 37 2014 卷 年 第 月   1 期 1 计    算    机    学    报 CHINESE JOURNAL OF COMPUTERS Vol.37 No.1 Jan.2014   大数据安全与隐私保护 冯登国 张 敏 李 昊 (中国科学院软件研究所 可信计算与信息保障实验室 北京    100190)       要 摘 式 大数据(Big Data)是当前学术 界 和 产 业 界 的 研 究 热 点,正 影 响 着 人 们 日 常 生 活 方 式、工 作 习 惯 及 思 考 模   但目前大数据在收集、存储和使用过 程 中 面 临 着 诸 多 安 全 风 险,大 数 据 所 导 致 的 隐 私 泄 露 为 用 户 带 来 严 重 困 . 该文分析了实现大数据安全 与 隐 私 保 护 所 面 临 的 技 术 挑 战 ,整 . 它 扰,虚假数据将导致错误或无效的大数据分析结果 理了若干关键技术及其最新进展 分析指出大数据在引入安全问题的同时,也是 解 决 信 息 安 全 问 题 的 有 效 手 段 . . 为信息安全领域的发展带来了新的契机 . 关键词   大数据;大数据安全;隐私保护;信息安全 中图法分类号 TP309   DOI 号 10.3724/SP.J.1016.2014.00246 Big Data Security and Privacy Protection (Trusted Computing and Information Assurance Laboratory,Institute of Software,Chinese Academy of Sciences,Beijing 100190) FENG Deng-Guo ZHANG Min LI Hao Abstract  Nowadays big data has become a hot topic in both the academic and the industrial research.It is regarded as a revolution that will transform how we live,work and think.However, there are many security risks in the field of data security and privacy protection when collecting, storing and utilizing big data.Privacy issues related with big data analysis spell trouble for indi- viduals.And deceptive or fake information within big data may lead to incorrect analysis results. This paper summarizes and analyzes the security challenges brought by big data,and then describes the key technologies which can be exploited to deal with these challenges.Finally,this paper argues that big data brings not only challenges,but also technical revolution in the field of information security. Keywords  big data;big data security;privacy protection;information security 1  引   言 据统计,平均每秒有 . 当今,社 会 信 息 化 和 网 络 化 的 发 展 导 致 数 据 爆 万用户在使用谷 炸式增长 歌搜索,Facebook 亿, 同 时,科 Twitter . 学计算、医疗卫生、金 融、零 售 业 等 各 行 业 也 有 大 量 用 户 每 天 共 享 的 东 西 超 过 每天 处 理 的 推 特 数 量 超 过 200 3.4 40 亿 数据在不 断 产 生 2.7ZB,而到 2015 .2012 年 全 球 信 息 总 量 已 经 达 到 年这一数值预计会达到 8ZB. Jim Gray 这一现象引发了人们的广泛关注 在学术界,图 . 提出了科学研究的第四范式, 年 灵奖获得者 即以大数据为基础的数据密 集 型 科 学 研 究;2008 《Nature》推出了大数据专刊对其展开探讨;2011 《Science》也推出类似的数据处理专刊 产业界行 动更为积极,持续关注数据再利用,挖掘大数据的潜 .IT 年 收稿日期:2013-07-22;最终修改稿收到日期:2013-11-26. 高技术研究发展计划项目基金(2011AA0123824001)资助 冯登国,男,1965 . 信计算与信息保障 本课题得到国家自然科学基金(91118006,61232005,61100237)、国 家“八 六 三” 年 生,博 士,研 究 员,主 要 研 究 领 域 为 信 息 安 全 与 密 码 学、可 年生,博士,副研究员,主要研究方向为数据隐私保护、可信计算与云存 储 张 .E-mail:fengdg@263.net. 敏,女,1975   安全 李 .   昊,男,1983 年生,博士,助理研究员,主要研究方向为数据隐私保护与可信计算 .
冯登国等:大数据安全与隐私保护 742 期 1 在价值 2016 美元 领域的 另 一 个 信 息 产 业 增 长 点 目前,大数据已成为继云计算之后信息技术 . 预 测, 亿 美 元,到 亿 年全球在大数据方面 的 总 花 费 将 达 到 年 大 数 据 将 带 动 全 球 . 支 出 Gartner 340 IT 据 2013 2320 .Gartner 将“大数 据”技 术 列 入 年 对 众 多 2012 一 .2009 data.gov 月美国政府上线 了 政府也是 大 数 据 技 术 推 广 的 主 要 推 动 者 公司和组织机构具有战略意义的十大技术与趋势之 不仅如此,作为 国 家 和 社 会 的 主 要 管 理 者,各 国 . 年 网 站,向 公 众 开 放 政 3 随 后,英 国、澳 大 利 亚 等 政 府 府所拥有的公共 数 据 . 也开始了大数据开放的进程,截至目前,全世界已经 正式有 个国家和 地 区 构 建 了 自己 的 数 据 开 放 门 35 户网站 ①. 年 中 国 的“大数据 研 究 与 发 展 计 划”. 通信学会、中国计算 机 学 会 等 重 要学 术 组 织 先 后 成 立了大数据专家委 员 会,为 我 国 大 数 据 应 用 和 发 展 提供学术咨询 2 在 我 国,2012 个 部 门 宣 布 了 美国政 府 联 合 亿 美 元 6 . 目前 大 数 据 的 发 展 仍 然 面 临 着 许 多 问 题,安 全 当 前, 与隐私问题是 人 们 公 认 的 关 键 问 题 之 一 [1-2]. 人们在互联网上的一言一行都掌握在互联网商家手 中,包括购物习惯、好友联络情况、阅读习惯、检索习 多项实际案例说明,即使无害的数据被大量 惯等等 . 事 实 上,大 数 据 安 全 收集后,也会暴 露 个 人 隐 私 [1]. 含义更为广泛,人们 面 临 的 威 胁 并不 仅 限 于 个 人 隐 私泄漏 与其它信息一样,大数据在存储、处理、传输 . 等过程中面临诸多 安 全 风 险,具 有 数 据 安 全 与 隐 私 保护需求 而实现大数据安全与隐私保护,较以往其 . 它安全问题(如云 计 算 中 的 数 据 安 全 等)更 为 棘 手 . 这是因为在云计算 中,虽 然 服 务 提 供 商 控 制 了 数 据 的存储与运行环境,但 是 用 户 仍 然有 些 办 法 保 护 自 己的数据,例如通过 密 码 学 的 技 术手 段 实 现 数 据 安 全存储与安全计算,或 者 通 过 可 信计 算 方 式 实 现 运 等 行环境安全 等 商 家 既 是 数 据 的 生 产 者 ,又 是 数 据 的 存 储 、管 理 者 和 使 用 者 ,因 此 ,单 纯 通 过 技 术 手 段 限 制 商 家 对 用 户 信 息 的 使 用 ,实 现 用 户 隐 私 保 护 是 极 其 困 难 的 事 [1]. 而 在 大 数 据 的 背 景 下,Facebook . 联盟 CSA .2012 积极行动起来关注大数据 安 全 问 题 当前 很 多 组 织 都 认 识 到 大 数 据 的 安 全 问 题,并 年 云 安 全 组建了大数据工作组,旨在寻找针对数据 中心安全和隐私问 题 的 解 决 方 案 本 文 在 梳 理 大 数 据研究现状的基础 上,重 点 分 析 了 当 前 大 数 据 所 带 来的安全挑战,详 细 阐 述 了 当 前 大数 据 安 全 与 隐 私 保护的关键技术 需要指出的是,大数据在引入新的 . . 安全问题和挑战的 同 时,也 为 信 息 安 全 领 域 带 来 了 新的发展契机,即基 于 大 数 据 的 信 息 安 全 相 关 技 术 可以反过来用于大 数 据 的 安 全 和 隐 私 保 护 本 文 在 . 第 5 2  节对其进行了初步分析与探讨 . 大数据研究概述 2.1  大数据来源与特征 普遍的观点认为,大数据是指规模大且复杂、以 至于很难用现有数据库管理工具或数据处理应用来 处 理 的 数 据 集 ②. (volume)、高速性(velocity)和多样性(variety). 大 数 据 的 常 见 特 点 包 括 大 规 模 根据 来 源 的 不 同,大 数 据 大 致 可 分 为 如 下 几类[3]: . (1)来自 于 人 人 们 在 互 联 网 活 动 以 及 使 用 移 动互联网过 程 中 所 产 生 的 各 类 数 据,包 括 文 字、图 片、视频等信息; (2)来自 于 机 各 类 计 算 机 信 息 系 统 产 生 的 数 据,以 文 件、数 据 库、多 媒 体 等 形 式 存 在,也 包 括 审 计、日志等自动生成的信息; . (3)来自于物 各类数字 设 备 所 采 集 的 数 据 如 . 摄像头产生的数字 信 号、医 疗 物 联 网 中 产 生 的 人 的 各项特征值、天文望远镜所产生的大量数据等 . . 2.2  大数据分析目标 目前大数据分析应用于科学、医药、商业等各个 但 其 目 标 可 以 归 纳 为 如 下 领 域,用 途 差 异 巨 大 几类: . . (1)获得知识与推测趋势 人们 进 行 数 据 分 析 由 来 已 久,最 初 且 最 重 要 的 目的就是获得知识、利用知识 由于大数据包含大量 原始、真实 信 息,大 数 据 分 析 能 够 有 效 地 摒 弃 个 体 差异,帮助人们透过现象、更准确地把握事物背后的 基于挖掘出的知识,可以更准确地对自然或社 规律 . 公 司 的 会现 象 进 行 预 测 典 型 的 案 例 是 . . Google 网站 它通过统计人们对流感信 . Google Flu Trends 地址判定搜 息的搜索,查询 又 索来源,从而 发 布 对 世 界 各 地 流 感 情 况 的 预 测 ③. 如,人们可以根据 信息预测股票行情 ④等 . 服务器日志的 Twitter Google IP (2)分析掌握个性化特征 个体 活 动 在 满 足 某 些 群 体 特 征 的 同 时,也 具 有 . ① ② ③ ④ http://www.chinaeg.gov.cn/show-4150.html _ 维基百科 data http://en.wikipedia.org/wiki/Big http://www.google.org/flutrends/ http://tech2ipo.com/6322/
842 计    算    机    学    报 年 2014 . 鲜明的个性化特征 正 如 “长 尾 理 论”中 那 条 细 长 的 . 尾巴那样,这 些 特 征 可 能 千 差 万 别 企 业 通 过 长 时 间、多维度的数据 积 累,可 以 分 析 用 户 行 为 规 律,更 准确地描绘其个体 轮 廓,为 用 户 提 供 更 好 的 个 性 化 产品和服务,以 及 更 准 确 的 广 告 推 荐 Google 通过其大数据产品 对 用 户 的 习 惯 和 爱 好 进 行 分 析, 帮助广告商评估广 告 活 动 效 率,预 估 在 未 来 可 能 存 在高达到数千亿美元的市场规模 ①. 例 如 . (3)通过分析辨识真相 . 错误 信 息 不 如 没 有 信 息 由 于 网 络 中 信 息 的 传 播更加便利,所以网络虚假信息造成的危害也更大 例如,2013 . 帐号被盗, 日,美联社 Twitter 24 年 月 4 . 发布虚假消息称总 统 奥 巴 马 遭 受 恐 怖 袭 击 受 伤 虽 . 然虚假消息在几分 钟 内 被 禁 止,但 是 仍 然 引 发 了 美 国股市短暂跳水 由于大数据来源广泛及其多样性, . 目 在一定程度上它可 以 帮 助 实 现 信 息 的 去 伪 存 真 . 前人们 开 始 尝 试 利 用 大 数 据 进 行 虚 假 信 息 识 别 例如,社交点评类网站 利用大数据对虚假评论 进行 过 滤,为 用 户 提 供 更 为 真 实 的 评 论 信 息 ②; Yahoo③和 Thinkmail④ 等利用大数据分析技术来过 滤垃圾邮件 . Yelp . 2.3  大数据技术框架 大数据处理涉及数据的采集、管理、分析与展示 图 是相关技术示意图 等 . 1 . (1)数 据 采 集 与 预 处 理 (Data Acquisition & 深度的数据分析流程 图 1  大数据技术架构 Preparation). 大数据的数 据 源 多 样 化,包 括 数 据 库、文 本、图 片、视频、网页等各 类 结 构 化、非 结 构 化 及 半 结 构 化 数据 因此,大数据处理的第一步是从数据源采集数 . 据并进行预处理操 作,为 后 继 流 程 提 供 统 一 的 高 质 量的数据集 . 由于 大 数 据 的 来 源 不 一,可 能 存 在 不 同 模 式 的 因 此,在 数 据 集 成 过 程 中 对 数 描述,甚至存在矛 盾 . 据进行清洗,以消除相似、重复或不一致的数据是非 文献[4-7]中数据清洗 和集成技术针对大 常必要的 . 数据的特点,提出非 结 构 化 或 半 结构 化 数 据 的 清 洗 以及超大规模数据的集成 . 数 据 存 储 与 大 数 据 应 用 密 切 相 关 某 些 实 时 性 要 求 较 高 的 应 用 ,如 状 态 监 控 ,更 适 合 采 用 流 处 理 模 式 ,直 接 在 清 洗 和 集 成 后 的 数 据 源 上 进 行 分 而 大 多 数 其 它 应 用 则 需 要 存 储 ,以 支 持 后 继 更 析 . . 为了提高数据吞吐量,降低存 . 这方面 GFS[8]、HDFS[9]和 Mongodb、CouchDB、 储成本,通常采用分布式架构来存储大数据 有代表性的研究包括:文件系统 Haystack[10]等;NoSQL 等 HBase、Redis、Neo4j 数据库 . . (2)数据分析(Data Analysis). 数据 分 析 是 大 数 据 应 用 的 核 心 流 程 根 据 不 同 . 层次大致可分为 类:计算架构、查询与索引以及数 3 据分析和处理 . 在计算架构方 面,MapReduce[11]是 当 前 广 泛 采 用的大数据集计算 模 型 和 框 架 为 了 适 应 一 些 对 任 务 完成时间要求较高的分析需求 ,文献[12]对 其 性 . ① ② ③ ④ http://server.yesky.com/datacenter/172/34705172.shtml http://adage.com/article/digital/fake-reviews-rise-yelp- crack-fraudsters/237486/ http://readwrite.com/2010/05/24/map-reduce-yahoo-mail #awesm=~obIr1Wwi9X9dMN http://cloud.yesky.com/20/34984520.shtml
期 1 冯登国等:大数据安全与隐私保护 942 能进行了优化;文献[13]提出了一种基于 MapReduce 架构的数据 流 分 析 解 决 方 案 MARISSA,使 其 能 够 支持实时分析任务;文 献 [14]则 提 出 了 基 于 时 间 的 Mastiff;文献[15]也针对广告推送 大数据分析方案 等实时性要求较高 的 应 用,提 出 了 基 于 MapReduce 的 框架来进行实时流处理 TiMR . 在查 询 与 索 引 方 面,由 于 大 数 据 中 包 含 了 大 量 的非结构化或半结 构 化 数 据,传 统 关 系 型 数 据 库 的 类 数 据 库 技 查询和索引 技 术 受 到 限 制,而 例如,文献[16]提出了一个混合的 术得到更多关注 . 以 及 一 种 并 发 数 据 查 询 及 优 数据访问架 构 NoSQL 化方法 HyDB 文 献 [17]对 . key-value 类 型 数 据 库 的 查 询 进行了性能优化 . . 在数 据 分 析 与 处 理 方 面,主 要 涉 及 的 技 术 包 括 语义分析与数据挖 掘 等 由 于 大 数 据 环 境 下 数 据 呈 现多样化特点,所以对数据进行语义分析时,就较难 统一术语进而挖掘信息 文献[18]针对大数据环境, . 提出了一种解决术语变异问题的高效术语标准化方 文献[19]对语 义 分 析 中 语 义 本体 的 异 质 性 展 开 . 传统数据挖掘技术主要针对结构化数据,因 . 此迫切需要对非结构化或半结构化的数据挖掘技术 文献[20]提 出 了 一 种 针对 图 片 文 件 的 挖 . 文 件 的 展开研究 掘技术,文献[21]提出了一种大 规模 检索和挖掘技术 了研究 TEXT 法 . (3)数据解释(Data Interpretation). 数据解释旨在更好地支持用户对数据分析结果 的使用,涉及的主要技术为可视化和人机交互 . 目前已经有了一些针对大规模数据的可视化研 究[22-23],通过数据投影、维度降解或显示墙等方法来 解决大规模数据的 显 示 问 题 由 于 人 类 的 视 觉 敏 感 度限制了更大屏幕 显 示 的 有 效 性,以 人 为 中 心 的 人 机交互设计也将是解决大数据分析结果展示的一种 . 重要技术 . (4)其它支撑技术(Data Transmission &Virtual Cluster). 虽然 大 数 据 应 用 强 调 以 数 据 为 中 心,将 计 算 推 送到数据上执行,但是在整个处理过程中,数据的传 输仍然是必不可少 的,例 如 一 些 科 学 观 测 数 据 从 观 文献[24-25]针对大数据 测点向数据中心的传输等 . 特征研究高效传输架构和协议 . 此外,由于虚 拟 集 群 具 有 成 本 低、搭 建 灵 活、便 于管理等优点,人们 在 大 数 据 分 析时 可 以 选 择 更 加 方便的虚拟集群来 完 成 各 项 处 理 任 务 因 此 需 要 针 对大数据应用展开的虚拟机集群优化研究 [26]. . 大数据带来的安全挑战 3  科学 技 术 是 一 把 双 刃 剑 大 数 据 所 引 发 的 安 全 . 问题与其带来的价 值 同 样 引 人 注 目 而 最 近 爆 发 的 “棱镜门”事件更 加 剧 了 人 们 对 大 数 据 安 全 的 担 忧 . 与传统的信息安全 问 题 相 比,大 数 据 安 全 面 临 的 挑 战性问题主要体现在以下几个方面 . . 3.1  大数据中的用户隐私保护 大量 事 实 表 明,大 数 据 未 被 妥 善 处 理 会 对 用 户 的隐私造成极大的侵害 根据需要保护的内容不同, . 隐私保护又可以进 一 步 细 分 为 位 置 隐 私 保 护、标 识 符匿名保护、连接关系匿名保护等 . 人们 面 临 的 威 胁 并 不 仅 限 于 个 人 隐 私 泄 漏,还 在于基于大数据对 人 们 状 态 和 行 为 的 预 测 一 个 典 型的例子是某零售 商 通 过 历 史 记 录 分 析,比 家 长 更 早知道其女儿已经 怀 孕 的 事 实,并 向 其 邮 寄 相 关 广 而社交网络 分 析 研 究 也 表 明,可 以 通 过 其 告信息 ①. 例 如 通 过 分 析 用 户 中的群组特性发现 用 户 的 属 性 信息,可以发现用户的政治倾 向、消 费 习 . . Twitter 的 惯以及喜好的球队等 [27-28]. 当前 企 业 常 常 认 为 经 过 匿 名 处 理 后,信 息 不 包 但 事 实 上,仅 . 例 含用户的标识符,就 可 以 公 开 发 布 了 通过匿名保护并不 能 很 好 地 达 到 隐 私 保 护 目 标 如,AOL 搜索历史,供人们分析使用 虽然个人相关的标识信 息被精心处理过,但 其 中 的 某 些 记 录 项 还 是 可 以 被 准确地定位到具体 的 个 人 纽 约 时 报 随 即 公 布 了 其 公司曾公布了匿名处理后的 个月内部分 3 . . . 识别出的 位用户 编号为 岁的寡居妇人,家里养了 1 . 62 等等 4 417 749 的 用 户 是 位 条 狗,患 有 某 种 疾 病, 租 赁 商 1 3 另 一 个 相 似 的 例 子 是,著 名 的 . DVD 50 曾公布了约 万用户的租赁信息,悬赏 Netflix 万美元征集算法,以期提高电影推荐系统的准确度 . 但是当上述信息与 其 它 数 据 源 结 合 时,部 分 用 户 还 中 的 用 户 有 是被识别出 来 了 100 研 究 者 发 现,Netflix . top100、top500、top1000 很大概率对非 过评分,而根据 对 非 名化(de-anonymizing)攻击的效果更好[29]. top 影 片 的 评 分 结 果 进 行 去 匿 的 影 片 进 行 目前用户数据的收集、存储、管理与使用等均缺 用 户 无 而在商业化场景中,用 . 乏规范,更缺乏监 管,主 要 依 靠 企 业 的 自 律 法确定自己隐私信息的用途 . ① http://news.xinhuanet.com/info/2013-04/11/c _ 132300013. htm
052 计    算    机    学    报 年 2014 . 户应有权决定自己 的 信 息 如 何 被 利 用,实 现 用 户 可 例如 用 户 可 以 决 定自 己 的 信 息 何 时 控的隐私保护 以何种形式披 露,何 时 被 销 毁 包 括:(1)数 据 采 集 . 时的隐私保护,如 数 据 精 度 处 理;(2)数 据 共 享、发 布时的隐私保护,如 数 据 的 匿 名 处 理、人 工 加 扰 等; (3)数据分析时的隐私保护;(4)数据生 命 周 期 的 隐 私保护;(5)隐私数据可信销毁等 3.2  大数据的可信性 关于 大 数 据 的 一 个 普 遍 的 观 点 是,数 据 自 己 可 但 实 际 情 况 是, 以说 明 一 切,数 据 自 身 就 是 事 实 ①. 如果不仔细甄别,数据也会欺骗,就像人们有时会被 自己的双眼欺骗一样 . . 大数据可信性的威胁之一是伪造或刻意制造的 . 数据,而错误的数据往往会导致错误的结论 若数据 应用场景明确,就可能有人刻意制造数据、营造某种 “假象”,诱导分析者得出对其有利的结论 由于虚假 信息往往隐藏于大 量 信 息 中,使 得 人 们 无 法 鉴 别 真 伪,从而做出错误 判 断 例 如,一 些 点 评 网 站 上 的 虚 . 假评论,混杂在真实评论中使得用户无法分辨,可能 误导用户去选择某 些 劣 质 商 品 或 服 务 由 于 当 前 网 络社区中虚假信息 的 产 生 和 传 播 变 得 越 来 越 容 易, 用 信 息 安 全 技 术 手 段 鉴 其所产生的影响不 可 低 估 . . . 别所有来源的真实性是不可能的 . 大数据可信性的威胁之二是数据在传播中的逐 . 步失真 原因之一是 人 工 干 预 的 数据 采 集 过 程 可 能 引入误差,由于失误导致数据失真与偏差,最终影响 此外,数据失真还有数据的 数据分析结果的准确性 . 在传播过程中,现实情况发生了变 版本变更的因素 . 例 如, 化,早期采集的数 据 已 经 不 能 反 映 真 实 情 况 . 餐馆电话号码已经 变 更,但 早 期 的 信 息 已 经 被 其 它 搜索引擎或应用收 录,所 以 用 户 可 能 看 到 矛 盾 的 信 息而影响其判断 . 因此,大 数 据 的 使 用 者 应 该 有 能 力 基 于 数 据 来 源的真实性、数据 传 播 途 径、数 据 加 工 处 理 过 程 等, 了解各项数据可信 度,防 止 分 析 得 出 无 意 义 或 者 错 误的结果 . 密码 学 中 的 数 字 签 名、消 息 鉴 别 码 等 技 术 可 以 用于验证数据的完 整 性,但 应 用 于 大 数 据 的 真 实 性 时面临很大困难,主要根源在于数据粒度的差异 例 . 如,数据的发源方可以对整个信息签名,但是当信息 分解成若干组成部分时,该 签 名 无 法 验 证 每 个 部 分 的 完 整 性 而 数 据 的 发 源 方 无 法 事 先 预 知 哪 些 部 分 被 利 用 、如 何 被 利 用 ,难 以 事 先 为 其 生 成 验 证 对 象 . . 如何实现大数据访问控制 3.3  访问 控 制 是 实 现 数 据 受 控 共 享 的 有 效 手 段 由 . 于大数据可能被用 于 多 种 不 同 场 景,其 访 问 控 制 需 求十分突出 . 大数据访问控制的特点与难点在于: (1)难以预设角 色,实 现 角 色 划 分 由 于 大 数 据 应用范围广泛,它通常要为来自不同组织或部门、不 同身份与目的的用 户 所 访 问,实 施 访 问 控 制 是 基 本 然而,在大数 据 的 场 景 下,有 大 量 的 用 户 需 要 需求 . 面对未 实施权限管理,且用户具体的权限要求未知 . 知的大量数据和用户,预先设置角色十分困难 . . . (2)难 以 预 知 每 个 角 色 的 实 际 权 限 由 于 大 数 据场景中包含海量 数 据,安 全 管 理 员 可 能 缺 乏 足 够 的专业知识,无法准 确 地 为 用 户 指 定 其 所 可 以 访 问 而且从效率角度讲,定义用户所有授权 的数据范围 . 以医疗领域应用为例,医生 规则也不是理想的方式 . 为了完成其工作可 能 需 要 访 问 大 量 信 息,但 对 于 数 据能否访问应该由 医 生 来 决 定,不 应 该 需 要 管 理 员 对每个医生做特别 的 配 置 但 同 时 又 应 该 能 够 提 供 对医生访问行为的 检 测 与 控 制,限 制 医 生 对 病 患 数 据的过度访问 . . Web2.0 例 如,在 . 此外,不 同 类 型 的 大 数 据 中 可 能 存 在 多 样 化 的 个 人 用 户 数 据 中, 访问控制需求 存在基于历史记录的访问控制;在地理地图数据中, 存在基于尺度以及 数 据 精 度 的 访 问 控 制 需 求;在 流 数据处理中,存在数据时间区间的访问控制需求,等 如何统一地描述 与 表 达 访 问 控 制 需 求 也 是 一 个 等 . 挑战性问题 . 大数据安全与隐私保护关键技术 4  当 前 亟 需 针 对 前 述 大 数 据 面 临 的 用 户 隐 私 保 护、数据内容可信 验 证、访 问 控 制 等 安 全 挑 战,展 开 大数据安全关键技 术 研 究 本 节 选 取 部 分 重 点 相 关 . 研究领域予以介绍 . 4.1  数据发布匿名保护技术 对于大数据中的结构化数据(或称关系数据)而 言,数据发布匿名保护是实现其隐私保护的核心关键 技术与基本手段,目前仍处于不断发展与完善阶段 早 期 的 方 案[30-31]及 匿 名 方 案 为 例 以典型的 . k . 其优化方案[32-34]通过元组泛化、抑制等数据处理,将 ① http://www.wired.com/science/discoveries/magazine/ 16-07/pb _ theory
期 1 冯登国等:大数据安全与隐私保护 152 准标识符 分 组 每 个 分 组 中 的 准 标 识 符 相 同 且 至 少 . 包含 k 个元组,因而每个元组至少与 个其它元 k-1 . k 由于 匿名模型是针对所有属性集合而 组不可区分 言,对于具体的某个属性则未 加定义,容易出现某个 属性匿名处理不足的情况 若某等价类中某个敏感属 性上取值一致,则攻击者可以 有效 地确定该属性值 . 多 样 化 (l-diversity)[35]匿 针对该问题研 究 者 提 出 其特点是在每 一 个 匿 名 属 性 组里 敏 感 数 据 的 多 l 名 . . 样性满足要 大 于 或 等 于 实 现 方 法 包 括 基 于 裁 剪 l. l k .t 匿 名与 此 . 进 . l-diversity 多样 化 之 间 的 方 案 分布保 持 一 致 (X,Y)匿 名 模 型[40]等 性发布情况 算法的方 案[36]以 及 基 于 数 据 置 换 的 方 案[37]等 外,还有一些介于 一步的,由于 现的频率平均化 只是能够尽量使敏感数据出 当同一等价 类 中 数据范围很小时, . 贴近性(t-closeness)方案[38]要 攻击者可猜测其值 求等价类中敏感数据的分布与整个数据表中数据的 其 它 工 作 包 括 (k,e)匿 名 模 型[39]、 . 上 述 研 究 是 针 对 静 态、一 次 . 而现 实 中,数 据 发 布 常 面 临 数 据 连 续、 . 多次发布的场景 需 要 防 止 攻 击 者对 多 次 发 布 的 数 据联合进行分析,破坏数据原有的匿名特性 [41-42]. 在大 数 据 场 景 中,数 据 发 布 匿 名 保 护 问 题 较 之 更为复杂:攻击者可以从多种渠道获得数据,而不仅 应 用 仅是同 一 发 布 源 中,人们[43]发现攻击者可通过将数 据 与 公 开 可 获 得 的 账 的 imdb 并据此获取用户的政治倾向与宗教信仰等(通过 . 用户的观看历史和对某些电影的评论和打分分析获 得). 4.2  相 对 比,从 而 识 别 出 目 标 在 例 如,在 前 所 提 及 的 . 此类问题有待更深入的研究 社交网络匿名保护技术 Netflix Netflix 号 . . 点的度数分组,从度 数 相 同 的 节 点 中 选 择 符 合 要 求 这 类 方 的进行边的交换,类 似 的 还 有 文 献 [46-47]. 法的问题是随机增 加 的 噪 音 过 于 分 散 稀 少,存 在 匿 名边保护不足问题 . 另一个重要思路是基于超级节点对图结构进行 分割和集聚 操 作 如 基 于 节 点 聚 集 的 匿 名 方 案 [48]、 . 基于基因算法的实现方案 [49]、基于 模 拟 退 火 算 法 的 实现方案[50]以及先填充再分割超级节点的方案 [51]. 文献[52]所 提 出 的 个 同 构 子图实现图匿名保 护 基 于 超 级 节 点 的 匿 名 方 案 虽 然能够实现边的匿 名,但 是 与 原 始 社 交 结 构 图 存 在 较大区别,以牺牲数据的可用性为代价 概 念,通 过 k-security k . . 社交 网 络 匿 名 方 案 面 临 的 重 要 问 题 是,攻 击 者 可能通过其它公开 的 信 息 推 测 出 匿 名 用 户,尤 其 是 用户之间是否存在连接关系 例如,可以基于弱连接 . 对用户可能存在的连接进行预 测 [53],适 用 于 用 户 关 系较为稀疏的网络;根 据 现 有 社 交 结 构 对 人 群 中 的 等级关系进行恢复和推测 [54];针对 微 博 型 的 复 合 社 交网络进行分析与关系预测 [55];基 于 限 制 随 机 游 走 方法,推测不同连接关系存 在 的 概 率 [56],等 等 研 究 表明[57],社交网络的集聚特性对于 关 系 预 测 方 法 的 准确性具有重要影响,社交网络局部连接密度增长, 集聚系数增大,则连 接 预 测 算 法 的 准 确 性 进 一 步 增 因此,未来的匿名保护技术应可以有效抵抗此类 强 . . 推测攻击 . 数据水印技术 4.3  数字水印是指将标识信息以难以察觉的方式嵌 入在数据载体内部 且 不 影 响 其 使 用 的 方 法,多 见 于 多媒体数据版权保 护 也 有 部 分 针 对 数 据 库 和 文 本 . 社 交 网 络 产 生 的 数 据 是 大 数 据 的 重 要 来 源 之 文件的水印方案 . 年 一,同时这 些 数 据 中 包 含 大 量 用 户 隐 私 数 据 的 用 户 成 员 就 已 达 亿 2012 . 由于社交网络具有 图 结 构 特 征,其 匿 名 保 护 技 术 与 结构化数据有很大不同 Facebook 截 至 . 10 10 月 . 社交网络中的典型匿名保护需求为用户标识匿 名与属性匿名(又 称 点 匿 名),在 数 据 发 布 时 隐 藏 了 用户的标识与属性信息;以及用户间关系匿名(又称 边匿名),在数据发 布 时 隐 藏 用 户 间 的 关 系 而 攻 击 者试图利用节点的 各 种 属 性 (度 数、标 签、某 些 具 体 连接信息等),重新识别出图中节点的身份信息 目前 的 边 匿 名 方 案 大 多 是 基 于 边 的 增 删 . 随 机 . . 增删交换边的方法 可 以 有 效 地 实 现 边 匿 名 其 中 文 献[44]在匿名过程中保持邻接矩阵的特征值和对应 的拉普拉斯矩阵第二 特 征 值 不 变,文 献 [45]根 据 节 . 由数据的无序性、动态性等特点所决定,在数据 库、文档中添加水印 的 方 法 与 多 媒 体 载 体 上 有 很 大 不同 其基本前提是 上 述 数 据 中 存 在 冗 余 信 息 或 可 . 等人[58-59]基于数 容忍一定精度误差 据库中数值型数据 存 在 误 差 容 忍 范 围,将 少 量 水 印 信息嵌入到这些数 据 中 随 机 选 取 的 最 不 重 要 位 上 例如,Agrawal . . Sion 等人[60-61]提 出 一 种 基 于 数 据 集 合 统 计 特 征 而 的方案,将一比特水印信息嵌入在一组属性数据中, 防止攻击者破坏水印 此外,通过将数据库指纹信息 . 嵌入水印中[62],可以识别出信息的 所 有 者 以 及 被 分 发的对象,有利于在分布式环境下追踪泄密者;通过 ICA),可 以 实 现 无 需 采用独立分量分析 技 术 (简 称 其 它 相 关 工 作 包 括 文 献 密钥的 水 印 公 开 验 证 [63]. 若在数据 库 表 中 嵌 入 脆 弱 性 水 印,可 以 帮 [64-65].
252 计    算    机    学    报 年 2014 助及时发现数据项的变化 [66]. 文本 水 印 的 生 成 方 法 种 类 很 多,可 大 致 分 为 基 于文档结构微调的水印 [67],依赖字 符 间 距 与 行 间 距 等格式上的 微 小 差 异;基 于 文 本 内 容 的 水 印[68],依 赖于修改文档内 容,如 增 加 空 格、修 改 标 点 等;以 及 基于自然语 言 的 水 印[69],通 过 理 解 语 义 实 现 变 化, 如同义词替换或句式变化等 . . 上 述 水 印 方 案 中 有 些 可 用 于 部 分 数 据 的 验 证 . 例如在文献[58-59]中,残余元组数量达到阈值就可 以成功验证出水印 该 特 性 在 大 数据 应 用 场 景 下 具 有 广 阔 的 发 展 前 景,例 如:强 健 水 印 类 (Robust Watermark)可用于大数据的起 源证明,而 脆 弱 水 印 类(Fragile Watermark)可 用 于 大 数 据 的 真 实 性 证 存在问题之一是当前的方案多基于静态数据集, 明 . 针对大数据的高速 产 生 与 更 新 的 特 性 考 虑 不 足,这 是未来亟待提高的方向 . 4.4  数据溯源 ①技术 如前 所 述,数 据 集 成 是 大 数 据 前 期 处 理 的 步 骤 之一 由于数据的来源多样化,所以有必要记录数据 . 的来源及其传播、计算过程,为后期的挖掘与决策提 供辅助支持 . 析技术获得大数据 的 来 源,然 后 才 能 更 好 地 支 持 安 全策略和安全机制的工作;另一方面,数据来源往往 用 户 不 希 望 这 方 面 的 数 据 本身就是隐私敏感 数 据 因此,如何平衡这两者的关系是值得 . 研究的问题之一 被分析者获得 . . (2)数 据 溯 源 技 术 自 身 的 安 全 性 保 护 当 前 数 据溯源技术并没有 充 分 考 虑 安 全 问 题,例 如 标 记 自 身是否正确、标记信 息 与 数 据 内 容 之 间 是 否 安 全 绑 定等等 而在大数据环境下,其大规模、高速性、多样 . . 性等特点使该问题更加突出 . 4.5  的一种访问控制模型 关联至权限集合,实 现 用 户 授 权、简 化 权 限 管 理 期的 角色挖掘 基于角色的访问控制(RBAC)是 当 前 广 泛 使 用 通过为用户指派角色、将角色 . 早 . 权限管理多采用“自 顶 向 下”的 模 式:即 根据企业的职位设 立 角 色 分 工 当 其 应 用 于 大 数 据 场景时,面临需大量人工参与角色划分、授权的问题 (又称为角色工程). RBAC . 后来研究者们开 始 关 注 “自 底 向 上”模 式,即 根 对象”授权情况,设计算法自动实现角 据现有“用户 - 简 单 来 说,就 色的提取与优化,称 为 角 色 挖 掘[78-82]. 是如何设置合理的角色 典型的工作包括:以可视化 . 的形式,通过用户权 限 二 维 图 的 排 序 归 并 的 方 式 实 现角色提取[83];通过子集枚举以及 聚 类 的 方 法 提 取 角色[84]等 非 形 式 化 方 法;也 有 基 于 形 式 化 语 义 分 析、通过层次 化 挖 掘 来 更 准 确 提 取 角 色 的 方 法 [85]. 总体来说,挖掘生成 最 小 角 色 集 合 的 最 优 算 法 时 间 复杂度高,多 属 于 因 而 也 有 研 究 者 在 大 数 关注在多项式时间内完成的启 发 式 算 法 [86]. 据场景下,采用角色 挖 掘 技 术 可 根 据 用 户 的 访 问 记 录自动生成角色,高 效 地 为 海 量 用 户 提 供 个 性 化 数 据服务 同时也可用 于 及 时 发 现 用 户 偏 离 日 常 行 为 完 全 问 题 NP- . . 所隐藏的潜在危险 但 当 前 角 色 挖 掘 技 术 大 都 基 于 精确、封闭的数据集,在应用于大数据场景时还需要 解决数据集动态变更以及质量不高等特殊问题 . . 4.6  风险自适应的访问控制 在大 数 据 场 景 中,安 全 管 理 员 可 能 缺 乏 足 够 的 专业知识,无法准确 地 为 用 户 指 定 其 可 以 访 问 的 数 据 风险自适应的访 问 控 制 是 针 对 这 种 场 景 讨 论 较 . 多的一 种 访 问 控 制 方 法 .Jason 的 报 告[87]描 述 了 风 险量化 和 访 问 配 额 的 概 念 随 后,Cheng . 等 人[88]提 . . . 和 括 why- 步细化为 早在 大 数 据 概 念 出 现 之 前,数 据 溯 源 (Data 其 Provenance)技术就在数据库领 域得到广泛研究 基本出发点是帮助人们确定数据仓库中各项数据的 来源,例如了解它们 是 由 哪 些 表 中的 哪 些 数 据 项 运 算而成,据此可以方便地验算结果的正确性,或者以 极小的代价进行数 据 更 新 数 据 溯 源 的 基 本 方 法 是 标记法,如在[70-72]中通 过 对 数 据 进 行 标 记 来 记 录 数 后 来 概 念 进 一 据在数据仓库中的 查 询 与 传 播 历 史 两 类[73],分 别 侧 重 数 据 除数据库以外,它还包 . 数据、流数据与不确定数据的溯源技术 [77]. 数据溯源技术也可 用 于 文 件 的 溯 源 与 恢 复 例 如 文 内 核 与 文 件 系 统,创 建 了 一 献[74]通过扩展 个数据起源存储系 统 原 型 系 统,可 以 自 动 搜 集 起 源 数据 where - 的计算方法以及数据的出处 此外也有其在云存储场景中的应用 [75]. . 未来数据溯源技术将在信息安全领域发挥重要 年呈报 美 国 国 土 安 全 部 的 “国 家 网 络 作用 空间安全”的报告中,将其列为未来确保国家关键基 然 而,数 据 溯 础设施安全 的 源技术应用于大数据安全与隐私保护中还面临如下 挑战: 项 关 键 技 术 之 一[76]. Linux XML 2009 在 . . 3 (1)数据溯源与 隐 私 保 护 之 间 的 平 衡 一 方 面, . 基于数据溯源对大数据进行安全保护首先要通过分 ① 也被译成“数据世系”,英 文 有 的 称 作 Pedigree,含义略有区别 Data Lineage 或 Data
期 1 冯登国等:大数据安全与隐私保护 352 出了一个基于多级别安全模型的风险自适应访问控 . .Ni 等 人[89]提 出 了 另 一 个 基 于 模 糊 推 制解决方案 理的解决方案,将信 息 的 数 目 和 用户 以 及 信 息 的 安 全等级作为进行风 险 量 化 的 主 要 参 考 参 数 当 用 户 访问的资源的风险 数 值 高 于 某 个 预 定 的 门 限 时,则 限制用户继续访问 文 献 [90]提 出 了 一 种 针 对 医 疗 . 数据提供用户隐私保护的可量化风险自适应访问控 通过利用统计学和信息论的方法,定义了量化算 制 . 法,从而实现基于 风 险 的 访 问 控 制 但 同 时,在 大 数 . 据应用环境中,风险 的 定 义 和 量 化都 较 之 以 往 更 加 困难 . 大数据服务与信息安全 5  5.1  响 应 - 检 测 - 往的“保 护 地发现 潜 在 的 安 全 威 胁 基于大数据的威胁发现技术 由于 大 数 据 分 析 技 术 的 出 现,企 业 可 以 超 越 以 恢 复”(PDRR)模 式,更 主 动 - 推 出 了 名 为 大 数 据 安 全 智 能 的 新 型 安 全 工 具 ①,可 以 利 用 IBM 大数据来侦测来自 企 业 内 外 部 的 安 全 威 胁,包 括 扫 描电子邮件和社交 网 络,标 示 出 明 显 心 存 不 满 的 员 工,提醒企业注意,预防其泄露企业机密 例 如,IBM . . “棱镜”计划也可以被理解为应用大数据方法进 行安全分析的成功 故 事 通 过 收 集 各 个 国 家 各 种 类 型的数据,利用安全 威 胁 数 据 和 安全 分 析 形 成 系 统 方法发现潜在危险局势,在攻击发生之前识别威胁 . 相比 于 传 统 技 术 方 案,基 于 大 数 据 的 威 胁 发 现 . 技术具有以下优点 . . . (1)分析内容的范围更大 传统的威胁分析主要针对的内容为各类安全事 件 而一个企业的信息资产则包括数据资产、软件资 . 产、实物资产、人员 资 产、服 务 资 产 和 其 它 为 业 务 提 供支持的无形资产 由 于 传 统 威 胁检 测 技 术 的 局 限 性,其并不能覆盖这六类信息资产,因此所能发现的 威胁也是有限的 而 通 过 在 威 胁 检测 方 面 引 入 大 数 据分析技术,可以更 全 面 地 发 现 针对 这 些 信 息 资 产 的攻击 例 如 通 过 分 析 企 业 员 工 的 即 时 通 信 数 据、 . 数据等可以 及时发 现 人 员 资 产 是 否 面 临 其 它 Email 企业“挖墙脚”的攻击威胁 再比如通过对企业的客户 部 订 单 数 据 的 分 析,也 能 够 发 现 一 些 异 常 的 操 作 行 为,进而判断是否危害公司利益 可以看出,分析内容 . 范围的扩大使得基于大数据的威胁检测更加全面 . . . (2)分析内容的时间跨度更长 现 有 的 许 多 威 胁 分 析 技 术 都 是 内 存 关 联 性 的, . 也就是说实时收集数据,采用分析技术发现攻击 分 . 析窗口通常受限于 内 存 大 小,无 法 应 对 持 续 性 和 潜 伏性攻击 而引入大数据分析技术后,威胁分析窗口 . 可以横跨若干年的数据,因此威胁发现能力更强,可 以有效应对 类攻击 . (3)攻击威胁的预测性 传统的安全防护技术或工具大多是在攻击发生 APT . 后对攻击行为进行分析和归类,并做出响应 大数据的威胁分析,可进行超前的预判 潜在的安全威胁,对未发生的攻击行为进行预防 . . 它能够寻找 而基于 . . (4)对未知威胁的检测 传统的威胁分析通常是由经验丰富的专业人员 根据企业需求和实 际 情 况 展 开,然 而 这 种 威 胁 分 析 同时,分析所发 的结果很大程度上依赖于个人经验 . 现的威胁也是已知 的 而 大 数 据 分 析 的 特 点 是 侧 重 于普通的关联分析,而不侧重因果分析,因此通过采 用恰当的分析模型,可发现未知威胁 . . . 虽然基于大数据的威胁发现技术具有上述的优 点,但是该技术目前也存在一些问题和挑战,主要集 中在分析结果的准确程度上 一方面,大数据的收集 . 很难做到全面,而数据又是分析的基础,它的片面性 往往会导致分析出 的 结 果 的 偏 差 为 了 分 析 企 业 信 息资产面临的威胁,不 但 要 全 面 收 集 企 业 内 部 的 数 据,还要对一些企业外的数据进行收集,这些在某种 另一方面,大数据分析能力的 程度上是一个大问题 . 例如,纽约投资银行每 . 数 据 如果没有足够的分析能力,要从如此庞大的数据 . 中准确地发现极少 数 预 示 潜 在 攻 击 的 事 件,进 而 分 析出威胁是几乎不可能完成的任务 次网络事件,每天会从中捕捉 不足影响威胁分析的准确性 秒会有 25TB 5000 . 基于大数据的认证技术 5.2  身份认证是信息系统或网络中确认操作者身份 传统的认证技术主要通过用户所知的秘密, 的过程 . 例如口令,或者持 有 的 凭 证,例 如 数 字 证 书,来 鉴 别 用户 这些技术面临着如下两个问题 . 首先,攻 击 者 总 是 能 够 找 到 方 法 来 骗 取 用 户 所 知的秘密,或窃取用户持有的凭证,从而通过认证机 制的认证 例如攻击者利用钓鱼网站窃取用户口令, . 或者通过社会工程 学 方 式 接 近 用 户,直 接 骗 取 用 户 所知秘密或持有的凭证 . . 其次,传 统 认 证 技 术 中 认 证 方 式 越 安 全 往 往 意 例 如,为 了 加 强 认 证 安 全,而 采 . 味着用户负担越 重 ① http://www.36kr.com/p/201176.html
分享到:
收藏