聚类分析中的高维数据降维方法研究.pdf

发布时间：2022-06-03 发布人：admin 分类：说明书资料大小：0.29M 资料格式：pdf 举报版权申诉

qq_28339273-10482803-4744302542852268863.pdf-第1页.png

第1页 / 共5页

qq_28339273-10482803-4744302542852268863.pdf-第2页.png

第2页 / 共5页

qq_28339273-10482803-4744302542852268863.pdf-第3页.png

第3页 / 共5页

qq_28339273-10482803-4744302542852268863.pdf-第4页.png

第4页 / 共5页

qq_28339273-10482803-4744302542852268863.pdf-第5页.png

第5页 / 共5页

文本预览

第 11 卷第年 2009 12 期 4 月闽西职业技术学院学报 Journal of Minxi Vocational and Technical College Vol.11 No.4 December 2009 聚类分析中的高维数据降维方法研究谢枫平闽西职业技术学院计算机系（福建龙岩， 364021）摘要：高维数据能充分表达复杂事物的信息但高维数据自身表达和处理复杂妨碍了它的实际应用阐述了用。，，降维算法和构建索引结构来解决高维数据降维问题。以数据对象变异最大方向的投影作为特定数据对象集的主成份，将聚类分析引入高校数据资源的预处理环节实现了数据对象集合的聚类归约给出应用实例，。为深入探索相关，模式提供有效的分析方法。关键词：聚类分析；高维数据；降维算法；索引结构中图分类号：TP311.131 文献标识码：A 自然界中存在大量复杂事物和现象人们希望，揭示隐藏在这些纷繁芜杂的表象下的客观规律为。了能得到观察对象更多方面更完整的信息需要用，、距离（ Lp 多变量组成的向量表示，这些用来描述观察对象的变量，抽象出来就是高维数据高维数据提供了有关。客观现象极其丰富详细的信息但另一方面高维，，、数据自身表达和处理复杂，数据维数的大幅度提高源于以下两个因素高维属性空间中那些无关属： ⑴ 文章编号：1673－4823(2009)04－0124-05 j 当 j=1，…，n 对象的第表示，其中元素 xij 表示对象集合中第个 i 个特征值在低维空间中我们经常采用，。时，Lp p=2 的相似性度量时，Lp p=1 距离称为距离称为 Manhattan 距离当 ; Euclidean 距离）作为数据之间在高维空间中很多情况下这种相似，性的概念不复存在。对高维数据聚类的困难主要来性的出现使得数据失去了聚类趋势之间的区分界限变得模糊[2]。 1.3 降维的含义高维使数据 ; ⑵ 假设我们得到维空间上的一个 D （降维问题基于如下基本假设 [3]：实向量样）高维数据本 N ti i=1 ，样本实际上至少是非常近似地）（数据空间的维数小得多的流形上（位于一个维数比）降维的目的就是获得这一流形的低维的坐标表示。。定义 1 降维问题的模型为其中（T，F）， N ：T= ti i=1 是 D 维空间中的数据集合。映射 F：T→X tαx=F（t）是维空间 L X 为数据集（到一般是 RL，L<

降维算法 2 第 1 主成分然后，。求出与利用降维算法把高维数据通过某种组合投影到征值对应的特征向量 α2，α2 正交的 α1 是数据矩阵的第、C 的第大特大主 2 2 低维子空间上，寻找出能反映原高维数据结构或特成分依次类推得到， K 个主成分（1≤k≤P-1）。显在低维空间上对数据结构进行简化和可然个互不相关的线性组合，这是 K ，个线性组合决定的且数据点在这，维空间上的投影的差异平 K 即将 P 个原始变量用并能保持原始数据集的完整性，个代替 P’ （P’<

应能保证操作的并行性和可恢复性简单性和鲁；（4）棒性，复杂的访问方法可能在某一方面性能优异但，更新算法更新算法在具体应用中可以看作 3.2.3 是一连串的删除操作及其随后的插入操作这里不，付出的代价如果是计算量大又易于出错却不如简，再赘述。、单鲁棒性强的结构；（5）于空间数据的检索比较快高效性一方面要求方法对， 3.3 基于 B-tree 的索引结构性能的下降在对数曲线经过多年对多维数据索引的研究，范围内，另一方面，又希望索引范围相对于整个数据的索引结构大都采用平衡树的概念。，提出了大量，即从根结点到在树的形状上。聚类精度层次化的聚类原则[5]，索的 B-Tree：库比较小即搜索空间小存储利用率高，；（6）当索引结构嵌入到大规模的数据库系统中时，集成性，响应尽可能地小。构建算法 3.2 构建高维数据索引结构能缩短聚类时间提高，高维索引方法实际上是基于数据空间的所有数据结点的访问长度是相同的，影，即表现为高度一致。这里访问长度又称为索引高度，从任意结点到数据结点的访问长度称为结点的级显然，数据结点对应第级 0 。 1984 年 Guttman 其思想是将空间目标及索引空间用其最小。提出 R-tree[8]，包围矩形 MBR （Minimum Bounding Rectangle）来近结构上类似于早期用于数据检似表示，以简化计算、减少存储空间；将空间上邻近数据矢量存储在数据结点空间位置的目标组织在同一结点或同一分枝，邻近的矢量尽可能存储在同一结点数据结点之间，以层次化目录结构来组织，每一个目录结点都指向下一级的一个子树。访问次数 1 是空间数据对象。图结点最大容量）。插入算法插入算法的基木步骤 3.2.1 个适合容纳新数据的叶子结点找到一 :(1) 并将新数据插入到，索路径的平均数量增加要较多的存储空间叶子结点中；(2) 如果此叶子结点中容纳的数据超过提出了 R+-tree；可以减少外存，树的实例左边，是是一个二维 2 右边是对应层 R 树其中，然而由于允许区间重叠， R M=3（M 导致了搜，；每一维的区间都要储存，为了避免索引空间重叠的问题，为了减少了查询中对外存的访问次需。了限制，则此结点按照一定的规则分裂为两个新数出现了 Cell-tree[9]等。与传统索引结构相比高维，的叶子结点；(3) 对叶子结点的上层目录结点作相应空间索引并没有一种标准的代数定义也没有相应，的修改以适应下层分裂和包围的变化如果上层结的描述语言。，点包含叶子结点的数目也超出了目录结点的容量限制，则目录结点亦按一定的规则分裂按照上面；(4) 的算法一直向上，如果根结点也发生分裂的话则树，的高度增加 1，并建立一个新的根结点成为分裂后，两个结点的上层结点。图 1 R 树用来存储 2 维矩形的示例插入是索引结构最重要的操作之一由于各个，局限性 3.4 结点之间的重叠和目录区域对数据空间覆盖的不完，整性使得选择插入结点成为难点，的选择也对索引结构的效率起重要的作用。引结构正是通过改进分裂方式使性能提高同时。分裂方式不少索如采用了无重叠分裂方式 [6]， Tree 制再插入分裂方式 ” ，而，采用 X- 强并都取得了良好的检索效果[7]。查询到 R*-Tree “ 删除算法删除算法的基本步骤 3.2.2 要删除的数据所在的叶子结点：(1) 删除此数据；(3) 如果因此造成叶子结点包含数据的数目小于限定值；(2) 等人用一种代价模型对基于边界区域 Webber 的索引结构和基于空间划分（BR）进行了性能上的分析的索引结构得到了如下几点结论 [10]：（1）对任何通过数据聚类和空间划分而形成的索引结（SP），构时，，总存在一个维数 d，当索引结构的维数超过其性能不如简单的顺序扫描；（2） d 在任何索引结构上进行相似性查询时杂度趋近于 O(N)；（3）划分而形成的索引结构随着维数的升高，对任何通过数据聚类和空间，其时间复在进行相似性搜索时总存，，的话，则将此结点中的所有数据移出删除此结点，，在一个维数 d，当索引结构的维数超过时， d 所有的然后把移出的数据再插入到索引中。数据块都会被访问。 126

应用示例与实验评估 4 表 3 主成份系数，都按照科学的表现，目前高等院校对于学生德智、、体、能等各方面实用、、简便等原则设置一套综合指标评价体系。多指标综合评价的基本思想是把多个单项指标组合起来，形成一整套包含各个侧面的综合指标内容。它的数学实质就是把高维空间中的样本映射到低维的状态空间上研究样本的基本特性[11]。综合成为少量的主成份，构造综合评价函数来获取数再以这些主成份的贡献率聚类分析时把原有的指标通过投影直接来，为权数进行加权平均，据资源的聚类处理结果。结合闽西职业技术学院教学评估体系中对于课程设置相应属性的分类要求将反映高等院校学生 , 学业领域中不同课程的属性共大类别 5 （全校公共基础课 X1、全校公共选修课 X2、业选修课 X4 和实践教学环节 X5）专业必修课 X3、作为具体指标专以 , 闽西职业技术学院计算机系某届学生的学业信息数据库为基础围绕， “ 学习质量 ” 这一用户主题信息确，定其各自对于学习质量所能够提取的内容分析 “ 与归纳出相应的基本特点 ” 反映进行数据库主成份提以及进行相应聚类预处理的重要意义[12]。，根据数据库主成份的定义对已有数据库信息进取的有效性， , 行数据表转换，并实施标准化处理获得如表，所示 1 基于数据相关度矩阵表进行的数据相关度矩阵表数据库主成份提取，和累计贡献率。获得如表所示的有关特征值 2 ，如表并据此计算变量指标对应相关主成所示）。 3 标准化处理后的数据相关度矩阵 X2 X3 X4 X5 0.675 134 1 0.573 864 0.514 171 1 0.597 970 0.635 341 0.565 918 0.514 171 0.635 341 0.537 918 0.565 918 0.451 659 特征值及累计贡献率 1 0.600 968 1 0.439 905 0.537 918 0.451 659 0.600 968 X1 X2 X3 X4 X5 f 1 f 2 f 3 f4 f 5 0.358 990 - 0.561 930 0.078 256 0.693 080 0.056 007 0.380 740 - 0.288 450 - 0.183 580 - 0.566 880 - 0.287 700 0.431 600 0.083 690 - 0.031 730 - 0.255 900 0.675 950 0.415 920 0.365 650 0.164 810 0.108 000 - 0.641 330 0.336 070 0.272 490 - 0.798 770 0.232 090 0.026 275 的各项系在表 3 数均为正数主成份系数中第一主成份 f1 且非常接近， ( 左右 )， 0.4 这表明 5 ，都在项指标对于综合反映最终用户主题是比较均衡的，从而减少综合完全可以放弃使用其他主成份指标，评价的工作量提高效率但是 , 。 , 第一主成份的贡献 f1 率仅为不充分 67.1%，说明它所包含的数据对象信息量并并未达到主成份分析方法所要求的方差贡 , 献率基本阈值（85%)[13]。尽管前 3 个主成份指标的累计贡献率达到据对象信息量 , 表明包含绝大部分的原始数 84.4%, 是数据库主成份提取的理论最佳值，但是还需要通过实验具体验证。这一主题围绕学习质量 , “ 个主成份指标进行实验 ” 分别对学业信息数实验分别从实验。据库的 5 结论的准确率、第一主成份指标三主成份指标成份指标这 5 得到结论的时间消耗这两个方面对第一和第二主成份指标、第一至第四主成份指标以及全部主第一至第、、种情况获取数据图显示在以上 2 5 。得到结论的时间消耗种情况下 , 实验结论的准确率、与标准消耗的比率标准耗时率 ( ) 以及相应的性能价格比率准确率 / ( 标准耗时率 ) 之间的实验对比。 1.02 1.00 0.98 0.96 0.94 0.92 0.90 0.88 0.86 结论准确率标准耗时率性能价格比 1 2 3 4 5 主成份选择的对比图图图表明 , 2 2 选择提取个主成份不仅是理论最 3 份的结果（表 1 相关度 X1 X2 X3 X4 X5 X1 1 0.675 134 0.573 864 0.597 970 0.439 905 表 2 第 q 主轴特征值方差贡献率 /% 累计贡献率 /% 1 2 3 4 5 佳值，也是实验结论的最佳值因此，，数据库预处理聚类提取 3 个主成份后，其与标准化变量之间的关 4.694 20 0.647 81 0.565 92 0.319 27 0.161 97 系为： 67.1 9.2 8.1 4.6 2. 3 Y1 =0.35899x1 +0.38074x2 +0.4316x3 +0.41592x4 + 67.1 76.3 84.4 96.2 100 0.33607x5 Y2=-0.56193x1-0.28845x2+0.08369x3+0.36565x4+ 127

梅承力周源华 . ，高维数据空间索引的研究红外与激光 [J]. [5] 工程，2002，31(1)：77- 81. [6]Berchtold S.,et al.The X- Tree:An index structure for High- di- mensional Data [C]//Proc. of the 22nd Int’ l Conf. on VLDB.San Fransisco：Morgan Kanfmann Pubbishers,1996:28- 39. [7]Beckmann N.,et al.The R*- tree:An Efficient and Robust Ac- cess Method for Points and Rectangles[C]//Proc.of ACM- SIGMOD. Atlantic City：ACM Press,1990:322- 331. [8]Guttman A..R- Trees:A dynamic index structure for spatial search[C] //Proceedings of ACM- SIGMOD. Boston：MCM Press， 1984:47- 57. [9]Gunther O..The design of the cell tree:An object- oriented index structure for geometric database[C]//Proceedings of ICDE. LosAn- geles：IEEE Computer Society 1989，1989:598- 605. [10]Webber R.,et al.A quantitative analysis and performance study for similarity- search in high- dimensional sapce [C]//Proc. of the 24th Int’ l Conf. on VLDB.New York:Morgan Kaufmann Publish- ers，1998:194- 205. 盛子宁多指标评估体系的主成分分析及应用实例上 [J]. [11] 海海运学院学报 . ，2003，24(3)：251- 253. 0.27249x5 Y3=0.078256x1-0.18358x2-0.03173x3 +0.16481x4 -0.79877x5 结果与讨论 5 利用降维的思路把相关数据库的主成份进行提 , , ，根据统计学处理数据对象的一些定义和方有利于特对数据库整体进行分析和聚类预处理取分析法定主题数据资源的整理和挖掘有参考依据的数据对象信息后源整理过程中时间消耗与空间消耗的大幅度减少研究表明高维空间索引技术的融合提供了切入点。数据集的聚类结构可以帮助构造高效的这个共同点为研究树型索引与聚类有利于提供有价值 , 、尤其是主成份提取以有利于数据资数据对象的操作数量大幅度降低。，， , , 。宋中山 . ，数据挖掘中的聚类算法电脑知 [J]. 参考文献张嫣 [1] ，识与技术：安中印，2007(7):15- 17. 吴玲达蔡益朝贺玲 [2] 算机应用研究，，，2007(1):10- 13. [3] 学报姜斌 [4] 的应用，数据挖掘中的聚类算法综述计 [J]. . 夏骄雄徐俊，，吴耿锋 .“ 数据库主成份提取方法及其应 ” [12] 用计算机工程与应用，2006，42(20)：134- 137；202. [J]. 杨质敏高维数据的降维方法研究及其应用长沙大学 [J]. . [13 ]JolliffeI . T. Principalcomponent analysis [M]. NewYork : ，2003,27(16)：58- 61. 等潘景昌郭强，，和相融性度量在聚类算法中 . PCA Springer- Verlag,1986:111- 198. 责任编辑潘伟彬：电子科技大学学报 [J]. ，2007,36(6):1292- 1295. Study of high-dimensional reduction method in cluster analysis XIE Feng-ping （Computer Department, Minxi Vocational and Technical College, Longyan, Fujian, 364021, China） Abstract：High-dimensional data is able to describe complicated information. However, the difficulty of processing high-dimensional data limits its application. This paper describes methodologies of dimension reduction algorithm and index structure to solve dimension reduction problem. The projection on the most differentiation of the data object is defined as principal component, by leading the cluster analysis into the preprocessing of data resource on the colleges and universities, and cluster reduction of the data sets are reached. The application example is given to illustrate the effectiveness for exploration model. Key words：cluster analysis; high-dimensional data; dimension reduction algorithm; index structure 128

分享到：

赞收藏

资料库

聚类分析中的高维数据降维方法研究.pdf

相关推荐

大数据

热门标签

最新资料