K均值聚类算法PPT.pptx

发布时间：2022-06-19 发布人：admin 分类：说明书资料大小：0.67M 资料格式：pptx 举报版权申诉

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第1页.png

第1页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第2页.png

第2页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第3页.png

第3页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第4页.png

第4页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第5页.png

第5页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第6页.png

第6页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第7页.png

第7页 / 共26页

f9b44006-f369-431e-b61e-1dd3859e298b.pptx.pdf-第8页.png

第8页 / 共26页

文本预览

算法分享 K-means聚类算法 xx 2017.8.15

聚类所谓聚类问题，就是给定一个元素集合 D，其中每个元素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。

目录 CATALOG 算法原理算法流程实例讲解应用场景算法总结改进算法

01 基本原理

01 0 2 0 3 0 4 05 标量标量也就是无方向意义的数字，也叫标度变量二元变量二元变量是只能取0和1两种值变量，通常用来标识是或不是这种二值属性分类变量分类变量是二元变量的推广，类似于程序中的枚举变量序数变量序数变量是具有序数意义的分类变量，通常可以按照一定顺序意义排列向量有大小而且有方向

欧几里得距离曼哈顿距离闵可夫斯基距离在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。例：X1（3，4，5）与X2（7，4，8）的距离为 5 在欧几里德空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例： X1（3，4，5）与X2（7，4，8）的距离为 7 闵可夫斯基距离是欧几里得距离和曼哈顿距离的推广。例：p=1时为欧几里得距离，p=2时为曼哈顿距离归一化：例：一组点 X 到种子点（1，1）的最大距离为 11，最小距离为1，其中 X1(5,4)到到种子点距离为5，归一化后为0.5.

取值不同的同位属性数/单个元素的属性位数设有X={1,0,0,0,1,0,1,1}， Y={0,0,0,1,1,1,1,1}，可以看到，两个元素第2、3、5、7和8个属性取值相同，而第1、4和6个取值不同，那么相异度可以标识为 3/8=0.375。取值不同的同位属性数/(单个元素的属性位数-同取0的位数) 设有X={1,0,0,0,1,0,1,1}， Y={0,0,0,1,1,1,1,1}，可以看到，两个元素第2、3、5、7和8个属性取值相同，而第1、4和6个取值不同，第2、3个属性取值相同，那么相异度可以标识为3/(8-2)=0.5。这也叫做非对称二元相异度

分类变量序数变量向量分类变量是二元变量的推广，类似于程序中的枚举变量，但各个值没有数字或序数意义，如颜色、民族等等，对于分类变量，用“取值不同的同位属性数/单个元素的全部属性数”来标识其相异度。序数变量是具有序数意义的分类变量，通常可以按照一定顺序意义排列，如冠军、亚军和季军。对于序数变量，一般为每个值分配一个数，叫做这个值的秩，然后以秩代替原值当做标量属性计算相异度。对于向量，由于它不仅有大小而且有方向，一般用两个向量的余弦度量来检测相似度，其度量公式为（其中||X||表示X的欧几里得范数）：

分享到：

赞收藏

资料库

K均值聚类算法PPT.pptx

相关推荐

人工智能

热门标签

最新资料