logo资料库

聚类分析中的高维数据降维方法研究.pdf

第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
资料共5页,全文预览结束
第 11 卷第 年 2009 12 期 4 月 闽西职业技术学院学报 Journal of Minxi Vocational and Technical College Vol.11 No.4 December 2009 聚类分析中的高维数据降维方法研究 谢枫平 闽西职业技术学院 计算机系 ( 福建 龙岩 , 364021) 摘要 : 高维数据能充分表达复杂事物的信息 但高维数据自身表达和处理复杂 妨碍了它的实际应用 阐述了用 。 , , 降维算法和构建索引结构来解决高维数据降维问题 。 以数据对象变异最大方向的投影作为特定数据对象集的主成 份 , 将聚类分析引入高校数据资源的预处理环节 实现了数据对象集合的聚类归约 给出应用实例 , 。 为深入探索相关 , 模式提供有效的分析方法 。 关键词 : 聚类分析 ; 高维数据 ; 降维算法 ; 索引结构 中图分类号 :TP311.131 文献标识码 :A 自然界中存在大量复杂事物和现象 人们希望 , 揭示隐藏在这些纷繁芜杂的表象下的客观规律 为 。 了能得到观察对象更多方面 更完整的信息 需要用 , 、 距离 ( Lp 多变量组成的向量表示 , 这些用来描述观察对象的 变量 , 抽象出来就是高维数据 高维数据提供了有关 。 客观现象极其丰富 详细的信息 但另一方面 高维 , , 、 数据自身表达和处理复杂 , 数据维数的大幅度提高 源于以下两个因素 高维属性空间中那些无关属 : ⑴ 文章编号 :1673-4823(2009)04-0124-05 j 当 j=1,…,n 对象的第 表示 , 其中元素 xij 表示对象集合中第 个 i 个特征值 在低维空间中 我们经常采用 , 。 时 ,Lp p=2 的相似性度量 时 ,Lp p=1 距离称为 距离称为 Manhattan 距离 当 ; Euclidean 距离 ) 作为数据之间 在高维空间中很多情况下这种相似 , 性的概念不复存在 。 对高维数据聚类的困难主要来 性的出现使得数据失去了聚类趋势 之间的区分界限变得模糊[2]。 1.3 降维的含义 高维使数据 ; ⑵ 假设我们得到 维空间上的一个 D ( 降维问题基于如下基本假设 [3]: 实向量 样 ) 高维 数 据 本 N ti i=1 , 样本 实际上 至少是非常近似地 ) ( 数据空间的维数小得多的流形上 ( 位于一个维数比 ) 降维的目的就是 获得这一流形的低维的坐标表示 。 。 定义 1 降维问题的模型为 其中 (T,F), N :T= ti i=1 是 D 维空间中的数据集合 。 映射 F:T→X tαx=F(t) 是 维空间 L X 为数据集 ( 到 一般是 RL,L<
降维算法 2 第 1 主成分 然后 , 。 求出与 利用降维算法把高维数据通过某种组合投影到 征值对应的特征向量 α2,α2 正交的 α1 是数据矩阵的第 、C 的第 大特 大主 2 2 低维子空间上 , 寻找出能反映原高维数据结构或特 成分 依次类推 得到 , K 个主成分 (1≤k≤P-1)。 显 在低维空间上对数据结构进行简化和可 然 个互不相关的线性组合 , 这是 K , 个线性组合决定的 且数据点在这 , 维空间上的投影的差 异 平 K 即将 P 个原始变量用 并能保持原始数据集的完整性 , 个代替 P’ (P’<
应能保证操作的并行性和可恢复性 简单性和鲁 ;(4) 棒性 , 复杂的访问方法可能在某一方面性能优异 但 , 更新算法 更新算法在具体应用中可以看作 3.2.3 是一连串的删除操作及其随后的插入操作 这里不 , 付出的代价如果是计算量大又易于出错 却不如简 , 再赘述 。 、 单 鲁棒性强的结构 ;(5) 于空间数据的检索比较快 高效性 一方面要求方法对 , 3.3 基于 B-tree 的索引结构 性能的下降在对数曲线 经过多年对多维数据索引的研究 , 范围内 , 另一方面 , 又希望索引范围相对于整个数据 的索引结构 大都采用平衡树的概念 。 , 提出了大量 , 即从根结点到 在树的形状上 。 聚类精度 层次化的聚类原则[5], 索的 B-Tree: 库比较小 即搜索空间小 存储利用 率 高 , ;(6) 当索引结构嵌入到大规模的数据库系统中时 , 集 成 性 , 响应尽可能地小 。 构建算法 3.2 构建高维数据索引结构能缩短聚类时间 提高 , 高维索引方法实际上是基于数据空间的 所有数据结点的访问长度是相同的 , 影 , 即表现为高度一致 。 这里访问长度又称为索引高度 , 从任意结点到数据结点的访问长度称为结点的级 显然 , 数据结点对应第 级 0 。 1984 年 Guttman 其思想是将空间目标及索引空间用其最小 。 提出 R-tree[8], 包 围 矩 形 MBR (Minimum Bounding Rectangle) 来 近 结构上类似于早期用于数据检 似表示 , 以简化计算 、 减少存储空间 ; 将空间上邻近 数据矢量存储在数据结点 空间位置 的目标组织在同一结点或同一分枝 , 邻近的矢量尽可能存储在同一结点 数据结点之间 , 以层次化目录结构来组织 , 每一个目录结点都指向 下一级的一个子树 。 访问次数 1 是空间数据对象 。 图 结点最大容量 )。 插入算法 插入算法的基木步骤 3.2.1 个适合容纳新数据的叶子结点 找到一 :(1) 并将新数据插入到 , 索路径的平均数量增加 要较多的存储空间 叶子结点中 ;(2) 如果此叶子结点中容纳的数据超过 提出了 R+-tree; 可以减少外存 , 树的实例 左边 , 是 是一个二维 2 右边是对应 层 R 树 其中 , 然而由于允许区间重叠 , R M=3(M 导致了搜 , ; 每一维的区间都要储存 , 为了避免索引空间重叠的问题 , 为了减少了查询中对外存的访问次 需 。 了限制 , 则 此 结 点 按 照 一 定 的 规 则 分 裂 为 两 个 新 数出现了 Cell-tree[9]等 。 与传统索引结构相比 高维 , 的 叶 子 结 点 ;(3) 对叶子结点的上层目录结点作相应 空间索引并没有一种标准的代数定义 也没有相应 , 的修改以适应下层分裂和包围的变化 如果上层结 的描述语言 。 , 点包含叶子结点的数目也超出了目录结点的容量限 制 , 则目录结点亦按一定的规则分裂 按照上面 ;(4) 的算法一直向上 , 如果根结点也发生分裂的话 则树 , 的高度增加 1, 并建立一个新的根结点 成为分裂后 , 两个结点的上层结点 。 图 1 R 树用来存储 2 维矩形的示例 插入是索引结构最重要的操作之一 由于各个 , 局限性 3.4 结点之间的重叠和目录区域对数据空间覆盖的不完 , 整性 使得选择插入结点成为难点 , 的选择也对索引结构的效率起重要的作用 。 引结构正是通过改进分裂方式使性能提高 同时 。 分裂方式 不少索 如 采用了无重叠分裂方式 [6], Tree 制再插入 分裂方式 ” , 而 , 采用 X- 强 并都取得了良好的检索效果[7]。 查询到 R*-Tree “ 删除算法 删除算法的基本步骤 3.2.2 要删除的数据所在的叶子结点 :(1) 删除此数据 ;(3) 如果因此造成叶子结点包含数据的数目小于限定值 ;(2) 等人用一种代价模型对基于边界区域 Webber 的索引结构和基于空间划分 (BR) 进行了性能上的分析 的索引结构 得到了如下几点结论 [10]:(1) 对任何通过数据聚类和 空 间 划 分 而 形 成 的 索 引 结 (SP) , 构 时 , , 总存在一个维数 d, 当索引结构的维数超过 其性能不如简单的顺序扫描 ;(2) d 在任何索引结 构上进行相似性查询时 杂度趋近于 O(N);(3) 划分而形成的索引结构 随着维数的升高 , 对任何通过数据聚类和空 间 , 其时间复 在进行相似性搜索时 总存 , , 的话 , 则将此结点中的所有数据移出 删除此结点 , , 在一个维数 d, 当索引结构的维数超过 时 , d 所有的 然后把移出的数据再插入到索引中 。 数据块都会被访问 。 126
应用示例与实验评估 4 表 3 主成份系数 , 都按照科学 的表现 , 目前 高等院校对于学生德 智 、 、 体 、 能等各方面 实用 、 、 简便等原则设置一套综 合指标评价体系 。 多指标综合评价的基本思想是把 多个单项指标组合起来 , 形成一整套包含各个侧面 的综合指标内容 。 它的数学实质就是把高维空间中 的样本映射到低维的状态空间上 研究样本的基本特性[11]。 综合成为少量的主成份 , 构造综合评价函数来获取数 再以这些主成份的贡献率 聚类分析时把原有的指标 通过投影直接来 , 为权数进行加权平均 , 据资源的聚类处理结果 。 结合闽西职业技术学院教学评估体系中对于课 程设置相应属性的分类要求 将反映高等院校学生 , 学业领域中不同课程的属性共 大类别 5 ( 全校公共 基础课 X1、 全校公共选修课 X2、 业选修课 X4 和实践教学环节 X5) 专业必修课 X3、 作为具体指标 专 以 , 闽西职业技术学院计算机系某届学生的学业信息数 据库为基础 围绕 , “ 学习质量 ” 这一用户主题信息 确 , 定其各自对于 学习质量 所能够提取的内容 分析 “ 与归纳出相应的基本特点 ” 反映进行数据库主成份提 以及进行相应聚类预处理的重要意义[12]。 , 根据数据库主成份的定义对已有数据库信息进 取的有效性 , , 行数据表转换 , 并实施标准化处理 获得如表 , 所示 1 基于数据相关度矩阵表进行 的数据相关度矩阵表 数据库主成份提取 , 和累计贡献率 。 获得如表 所示的有关特征值 2 , 如表 并据此计算变量指标对应相关主成 所示 )。 3 标准化处理后的数据相关度矩阵 X2 X3 X4 X5 0.675 134 1 0.573 864 0.514 171 1 0.597 970 0.635 341 0.565 918 0.514 171 0.635 341 0.537 918 0.565 918 0.451 659 特征值及累计贡献率 1 0.600 968 1 0.439 905 0.537 918 0.451 659 0.600 968 X1 X2 X3 X4 X5 f 1 f 2 f 3 f4 f 5 0.358 990 - 0.561 930 0.078 256 0.693 080 0.056 007 0.380 740 - 0.288 450 - 0.183 580 - 0.566 880 - 0.287 700 0.431 600 0.083 690 - 0.031 730 - 0.255 900 0.675 950 0.415 920 0.365 650 0.164 810 0.108 000 - 0.641 330 0.336 070 0.272 490 - 0.798 770 0.232 090 0.026 275 的各项系 在表 3 数均为正数 主成份系数中 第一主成份 f1 且非常接近 , ( 左右 ), 0.4 这表明 5 , 都在 项指标对于综合反映最终用户主题是比较均衡的 , 从而减少综合 完全可以放弃使用其他主成份指标 , 评价的工作量 提高效率 但是 , 。 , 第一主成份 的贡献 f1 率仅为 不充分 67.1%, 说明它所包含的数据对象信息量并 并未达到主成份分析方法所要求的方差贡 , 献率基本阈值 (85%)[13]。 尽管前 3 个主成份指标的累 计贡献率达到 据对象信息量 , 表明包含绝大部分的原始数 84.4%, 是数据库主成份提取的理论最佳值 , 但是还需要通过实验具体验证 。 这一主题 围绕 学习质量 , “ 个主成份指标进行实验 ” 分别对学业信息数 实验分别从实验 。 据库的 5 结论的准确率 、 第一主成份指标 三主成份指标 成份指标这 5 得到结论的时间消耗这两个方面对 第一和第二主成份指标 、 第一至第四主成份指标以及全部主 第一至第 、 、 种情况获取数据 图 显示在以上 2 5 。 得到结论的时间消耗 种情况下 , 实验结论的准确率 、 与标准消耗的比率 标准耗时率 ( ) 以及相应的性能价 格比率 准确率 / ( 标准耗时率 ) 之间的实验对比 。 1.02 1.00 0.98 0.96 0.94 0.92 0.90 0.88 0.86 结论准确率 标准耗时率 性能价格比 1 2 3 4 5 主成份选择的对比图 图 图 表明 , 2 2 选择提取 个主成份不仅是理论最 3 份的结果 ( 表 1 相 关 度 X1 X2 X3 X4 X5 X1 1 0.675 134 0.573 864 0.597 970 0.439 905 表 2 第 q 主轴 特征值 方差贡 献率 /% 累计贡 献率 /% 1 2 3 4 5 佳值 , 也是实验结论的最佳值 因此 , , 数据库预处理 聚类提取 3 个主成份后 , 其与标准化变量之间的关 4.694 20 0.647 81 0.565 92 0.319 27 0.161 97 系为 : 67.1 9.2 8.1 4.6 2. 3 Y1 =0.35899x1 +0.38074x2 +0.4316x3 +0.41592x4 + 67.1 76.3 84.4 96.2 100 0.33607x5 Y2=-0.56193x1-0.28845x2+0.08369x3+0.36565x4+ 127
梅承力 周源华 . , 高维数据空间索引的研究 红外与激光 [J]. [5] 工程 ,2002,31(1):77- 81. [6]Berchtold S.,et al.The X- Tree:An index structure for High- di- mensional Data [C]//Proc. of the 22nd Int’ l Conf. on VLDB.San Fransisco:Morgan Kanfmann Pubbishers,1996:28- 39. [7]Beckmann N.,et al.The R*- tree:An Efficient and Robust Ac- cess Method for Points and Rectangles[C]//Proc.of ACM- SIGMOD. Atlantic City:ACM Press,1990:322- 331. [8]Guttman A..R- Trees:A dynamic index structure for spatial search[C] //Proceedings of ACM- SIGMOD. Boston:MCM Press, 1984:47- 57. [9]Gunther O..The design of the cell tree:An object- oriented index structure for geometric database[C]//Proceedings of ICDE. LosAn- geles:IEEE Computer Society 1989,1989:598- 605. [10]Webber R.,et al.A quantitative analysis and performance study for similarity- search in high- dimensional sapce [C]//Proc. of the 24th Int’ l Conf. on VLDB.New York:Morgan Kaufmann Publish- ers,1998:194- 205. 盛子宁 多指标评估体系的主成分分析及应用实例 上 [J]. [11] 海海运学院学报 . ,2003,24(3):251- 253. 0.27249x5 Y3=0.078256x1-0.18358x2-0.03173x3 +0.16481x4 -0.79877x5 结果与讨论 5 利用降维的思路把相关数据库的主成份进行提 , , , 根据统计学处理数据对象的一些定义和方 有利于特 对数据库整体进行分析和聚类预处理 取分析 法 定主题数据资源的整理和挖掘 有参考依据的数据对象信息 后 源整理过程中时间消耗与空间消耗的大幅度减少 研究表明 高维空间索引 技术的融合提供了切入点 。 数据集的聚类结构可以帮助构造高效的 这个共同点为研究树型索引与聚类 有利于提供有价值 , 、 尤其是主成份提取以 有利于数据资 数据对象的操作数量大幅度降低 。 , , , , 。 宋 中 山 . , 数 据 挖 掘 中 的 聚 类 算 法 电 脑 知 [J]. 参考文献 张 嫣 [1] , 识与技术 : 安 中 印 ,2007(7):15- 17. 吴 玲 达 蔡 益 朝 贺 玲 [2] 算机应用研究 , , ,2007(1):10- 13. [3] 学报 姜斌 [4] 的应用 , 数 据 挖 掘 中 的 聚 类 算法 综 述 计 [J]. . 夏骄雄 徐俊 , , 吴耿锋 .“ 数据库主成份提取 方法及其应 ” [12] 用 计算机工程与应用 ,2006,42(20):134- 137;202. [J]. 杨 质 敏 高 维 数 据 的 降 维 方 法 研 究 及其 应 用 长 沙 大 学 [J]. . [13 ]JolliffeI . T. Principalcomponent analysis [M]. NewYork : ,2003,27(16):58- 61. 等 潘景昌 郭 强 , , 和 相 融 性 度 量 在 聚 类 算 法 中 . PCA Springer- Verlag,1986:111- 198. 责任编辑 潘伟彬 : 电子科技大学学报 [J]. ,2007,36(6):1292- 1295. Study of high-dimensional reduction method in cluster analysis XIE Feng-ping (Computer Department, Minxi Vocational and Technical College, Longyan, Fujian, 364021, China) Abstract:High-dimensional data is able to describe complicated information. However, the difficulty of processing high-dimensional data limits its application. This paper describes methodologies of dimension reduction algorithm and index structure to solve dimension reduction problem. The projection on the most differentiation of the data object is defined as principal component, by leading the cluster analysis into the preprocessing of data resource on the colleges and universities, and cluster reduction of the data sets are reached. The application example is given to illustrate the effectiveness for exploration model. Key words:cluster analysis; high-dimensional data; dimension reduction algorithm; index structure 128
分享到:
收藏