论文研究-针对非均匀数据集的DBSCAN过滤式改进算法.pdf

发布时间：2022-05-29 发布人：admin 分类：说明书资料大小：0.64M 资料格式：pdf 举报版权申诉

weixin_39840924-11409493-4744302543344903481.pdf-第1页.png

第1页 / 共3页

weixin_39840924-11409493-4744302543344903481.pdf-第2页.png

第2页 / 共3页

weixin_39840924-11409493-4744302543344903481.pdf-第3页.png

第3页 / 共3页

文本预览

第２６卷第１０期２００９年１０月　计算机应用研究ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓＶｏｌ．２６Ｎｏ．１０Ｏｃｔ．２００９倡针对非均匀数据集的 DBSCAN 过滤式改进算法熊忠阳，吴林敏，张玉芳（重庆大学计算机学院，重庆４０００４４）摘　要：针对在数据分布不均匀时，由于ＤＢＳＣＡＮ使用统一的全局变量，使得聚类的效果差，提出了一种基于过滤的ＤＢＳＣＡＮ算法。该算法的思想是：在调用传统的ＤＢＳＣＡＮ算法前，先对数据集进行预处理，针对所有点的 k唱ｄｉｓｔ数据进行一维聚类，自动计算出不同的Ｅｐｓ；然后再根据每个Ｅｐｓ分别调用传统的ＤＢＳＣＡＮ算法，从而找出非均匀数据集的各种聚类。实验结果表明，改进算法对密度不均匀的数据能够有效聚类。关键词：聚类；ＤＢＳＣＡＮ；过滤；非均匀密度；数据挖掘中图分类号：ＴＰ３０１畅６　　　文献标志码：Ａ　　　文章编号：１００１唱３６９５（２００９）１０唱３７２１唱０３ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１唱３６９５．２００９．１０．０３５ＤＢＳＣＡＮａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｆｉｌｔｒａｔｉｏｎｆｏｒｄａｔａｓｅｔｓｗｉｔｈｖａｒｉｅｄｄｅｎｓｉｔｉｅｓＸＩＯＮＧＺｈｏｎｇ唱ｙａｎｇ，ＷＵＬｉｎ唱ｍｉｎ，ＺＨＡＮＧＹｕ唱ｆａｎｇ（College of Computer Science， Chongqing University， Chongqing ４０００４４， China） Abstract：Ｗｈｅｎｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎｗａｓｎｏｔｅｖｅｎ，ＤＢＳＣＡＮｗａｓｃｌｕｓｔｅｒｉｎｇｑｕａｌｉｔｙｄｅｇｒａｄｅｓｆｏｒｕｓｉｎｇｔｈｅｓａｍｅｇｌｏｂａｌｖａｒｉａｂｌｅ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｆｉｌｔｒａｔｉｏｎ唱ｂａｓｅｄＤＢＳＣＡＮａｌｇｏｒｉｔｈｍ．Ｔｈｅｂａｓｉｃｉｄｅａｏｆｔｈｅａｌｇｏｒｉｔｈｍｗａｓｔｈａｔ，ｂｅｆｏｒｅａｄｏｐｔｉｎｇｔｒａｄｉｔｉｏｎａｌＤＢＳＣＡＮａｌｇｏｒｉｔｈｍ，ａｃｃｏｒｄｉｎｇｔｏｔｈｅｄａｔａｐｏｉｎｔ’ｓ k唱ｄｉｓｔｐｌｏｔ，ｕｓｉｎｇ１唱ｄｉｍｅｎｓｉｏｎｃｌｕｓｔｅｒｉｎｇｔｏｇｅｔａｌｌｔｈｅｃｌｕｓｔｅｒｓ，ｔｈｅｎｇｅｔｔｉｎｇｓｅｖｅｒａｌｖａｌｕｅｓｏｆｐａｒａｍｅｔｅｒＥｐｓｆｏｒｄｉｆｆｅｒｅｎｔｄｅｎｓｉｔｉｅｓ．ＷｉｔｈｄｉｆｆｅｒｅｎｔｖａｌｕｅｓｏｆＥｐｓ，ａｄｏｐｔｅｄＤＢＳＣＡＮａｌｇｏｒｉｔｈｍｉｎｏｒｄｅｒｔｏｆｉｎｄｏｕｔｃｌｕｓｔｅｒｓｗｉｔｈｖａｒｉｅｄｄｅｎｓｉｔｉｅｓｓｉｍｕｌｔａｎｅｉｔｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｄｅｍｏｎｓｔｒａｔｅｓｔｈａｔｔｈｅｉｍｐｒｏｖｅｄａｌｇｏｒｉｔｈｍｉｓｅｆｆｅｃｔｉｖｅｏｎｃｌｕｓｔｅｒｉｎｇｔｈｅｄａｔａｓｅｔｓｗｉｔｈｖａｒｉｅｄｄｅｎｓｉｔｉｅｓ． Key words：ｃｌｕｓｔｅｒｉｎｇ；ＤＢＳＣＡＮ；ｆｉｌｔｒａｔｉｏｎ；ｖａｒｉｅｄｄｅｎｓｉｔｉｅｓ；ｄａｔａｍｉｎｉｎｇ网格的方法和基于模型的方法定义２　边界对象。如果 p 在半径Ｅｐｓ邻域内含有的对象小于ｍｉｎＰｔｓ，但在某核心对象的Ｅｐｓ邻域范围内，则称 p 为边界对象。定义３　噪声对象。如果 p 在半径Ｅｐｓ邻域内含有的对象小于ｍｉｎＰｔｓ，且它不在其他核心对象的Ｅｐｓ邻域范围内，称 p 为噪声对象。定义４　直接密度可达。在对象集 D 中，如果 p 在 q 的Ｅｐｓ邻域内，且 q 是一个核心对象，则称 p 从 q 出发是直接密度可达的。定义５　密度可达。如果存在一个对象链 p１，p２，…，pn， pi ＝q，pn ＝p，对 pi∈D（１≤i≤n），pi ＋１是 pi 从关于Ｅｐｓ和ｍｉｎＰｔｓ直接密度可达的，则对象 p 是从对象 q 关于Ｅｐｓ和ｍｉｎＰｔｓ密度可达的ＤＢＳＣＡＮ通过检查数据集中每个点的Ｅｐｓ邻域进行聚类。如果一个点 p 的Ｅｐｓ邻域包含了多于ｍｉｎＰｔｓ个点，则创建一个以 p 作为核心对象的新类；然后ＤＢＳＣＡＮ反复寻找从这些核心对象直接密度可达的对象，这个过程涉及一些密度可达类的合并；当没有新的点可以被添加到任何类时，该过程结束。　　聚类是将数据对象分组成为多个类，在同一个类中的对象之间具有较高的相似度，而不同类中的对象则差别较大。在许多应用中，可将一个类中的数据对象作为一个整体处理，因此当分析一个较大的、复杂的、连续的、有着许多变量的数据集和完全未知的结构时，聚类是一个非常有用的工具。聚类的方法可以分为五类，即划分方法、层次方法、基于密度的方法、基于［１］。ＤＢＳＣＡＮ属于基于密度的聚类算法。该算法将具有足够高密度的区域划分成类，并可以在带有噪声的空间数据库中发现任意形状的类。但有一个比较明显的弱点，即当数据分布不均匀时，由于使用统一的全局变量，使得聚类的效果差。针对上述问题，本文提出了一种基于过滤的ＤＢＳＣＡＮ改进算法。 1　DBSCAN 算法ＤＢＳＣＡＮ算法根据给定的密度阈值识别一个类。密度阈值由Ｅｐｓ和ｍｉｎＰｔｓ两个参数决定。其中：Ｅｐｓ表示半径；ｍｉｎＰｔｓ［２］。表示核心点在Ｅｐｓ半径范围内至少应该含有的点的数量原始ＤＢＳＣＡＮ算法描述如下：ＤＢＳＣＡＮ的一些基本定义如下（对于给定的对象集 D 和参数ａ）初始化，输入聚类数据。Ｅｐｓ、ｍｉｎＰｔｓ）：ｂ）任意选取一个数据点 xi。定义１　核心对象。如果对象 p 在半径Ｅｐｓ邻域内至少ｃ）如果 xi 没有被划分到某一个类，且是核心对象，则扩展包含ｍｉｎＰｔｓ个对象，则称 p 为核心对象。收稿日期：２００８唱１２唱２５；修回日期：２００９唱０２唱２６　　基金项目：重庆市科委自然科学基金计划资助项目（２００７ＢＢ２３７２）作者简介：熊忠阳（１９６２唱），男，重庆人，博导，主要研究方向为网格技术、数据挖掘与应用；吴林敏（１９８４唱），男，四川广安人，硕士研究生，主要研究方向为数据挖掘（ｗｕｌｉｎｍｉｎ唱１１１＠１６３．ｃｏｍ）；张玉芳（１９６７唱），女，重庆人，硕导，主要研究方向为数据挖掘、商业智能．［３］。

计算机应用研究　数量 ·２２７３· 以 xi 为核心对象的类，即找出从 xi 所有密度可达的点。ｄ）若所有的数据点均被处理，则结束；否则，转ｂ）［４］。ＤＢＳＣＡＮ的时间复杂度为 O（n２）；如果采用空间索引，其复杂度可降为 O（n ｌｏｇ n），n 表示数据集中含有数据对象的［５］。 2　基于过滤的 DBSCAN 算法在传统ＤＢＳＣＡＮ算法中，为了确定参数Ｅｐｓ和ｍｉｎＰｔｓ，ＤＢ唱ＳＣＡＮ将计算任意对象与它的第 k 个最邻近的对象之间的距离（即 k唱ｄｉｓｔ），k 值由用户指定，然后根据 k唱ｄｉｓｔ由小到大排序，绘出 k唱ｄｉｓｔ图。在指定 k 值后，参数ｍｉｎＰｔｓ则等于 k ＋１，即在半径Ｅｐｓ范围内，包括核心点在内至少应该含有 k ＋１个点才能被聚为类。另外，在确定参数Ｅｐｓ时，由用户指定一个百分比（如８５％），然后根据 k唱ｄｉｓｔ图取出对应的 k唱ｄｉｓｔ作为Ｅｐｓ。下面先对 k唱ｄｉｓｔ图稍作说明：如果单就 k唱ｄｉｓｔ在图中的表示来说，它其实是一系列的点。如图３中的 C２部分含有四个点（k ＝３），这些点的纵坐标均为１．４，表示在原数据集中３唱ｄｉｓｔ为１．４的数据点有四个，具体为原数据集中的哪四个点则无须知道。又比如假设数据集 D 一共有１０个点。其中有五个点的３唱ｄｉｓｔ为１，其余五个点的３唱ｄｉｓｔ为４；将各３唱ｄｉｓｔ按从小到大排序后，于是得到３唱ｄｉｓｔ图中各个点的坐标：p１（１，１），p２（２，１），…，p５（５，１），p６（６，４），p７（７，４），…，p１０（１０，４）。如果将 k唱ｄｉｓｔ图中这一系列的点连接起来，就变成了k唱ｄｉｓｔ曲线，如图１所示。图１中有两条曲线 A 和 B，分别对应了两个不同的数据集。其中：曲线 A 表示数据集的密度分布比较均匀，只有一种主要密度水平；曲线 B 则表明数据集为非均匀数据集，它至少含有三个不同层次的密度水平。在实际应用中，由于传统ＤＢＳＣＡＮ算法只采用统一的全局变量Ｅｐｓ，这使得它只能针对单一的密度水平进行聚类。而当数据点的密度分布出现曲线 B 的这种情况时，传统的ＤＢ唱ＳＣＡＮ算法的聚类效果较差。离距邻近最第图图图密度分布不均衡的数据图如图２所示，图２中一共五个类，即 C１、C２、C３、C４、C５。其中左边类的密度较高，而右边类较低。如果参照左边类的密度来决定全局的Ｅｐｓ，则右边的两个类就可能变成很多个类，同时产生很多噪声点；如果参照右边类的密度来决定全局的Ｅｐｓ，那么左边的 C１、C２、C３很可能合并为一个类［６］。因此，本文提出了基于过滤的ＤＢＳＣＡＮ算法。该算法主要包括两个步骤：ａ）数据预处理，计算Ｅｐｓi：（ａ）计算出每个点的 k 距离；（ｂ）对一维的 k 距离数据进行聚类，筛选聚类结果，得到代表原始数据集主要密度水平的类；（ｃ）根据一维聚类结果，计算出参数Ｅｐｓi。第２６卷ｂ）将Ｅｐｓi 从小到大排序，根据每个Ｅｐｓi，调用传统的ＤＢ唱ＳＣＡＮ算法进行过滤式聚类。算法的详细过程如下：ａ）计算Ｅｐｓi。在对一维的 k 距离数据进行聚类时，本文也采用传统的ＤＢＳＣＡＮ算法进行聚类；然后，对一维聚类结果进行筛选处理，去掉噪声类。所谓噪声类，是指聚类结果中只含很小比例数据点的类，这些类并不能代表原始数据集的主要密度水平，因此需要去掉噪声类。图３表示 k唱ｄｉｓｔ图（为了表示方便，没有将各点连成 k唱ｄｉｓｔ曲线），图４为原始数据集。在图３中，纵坐标为 k唱ｄｉｓｔ，横坐标则表示该 k唱ｄｉｓｔ值对应了某个数据点。为了更直观地表达，将一维的聚类结果在 k唱ｄｉｓｔ图中显示。对 k唱ｄｉｓｔ聚类后，得到 C１、 C２、C３共三个类。其中 C２即为噪声类，因为它只代表很小比例的数据点，不能代表原始数据集的主要密度水平。图图图原始数据集为了去掉噪声类，将一维聚类结果进行如下处理：在传统的ＤＢＳＣＡＮ算法中，根据 k唱ｄｉｓｔ图确定Ｅｐｓ参数时，需要用户指定一个百分比例，以截取 k唱ｄｉｓｔ图中相应位置的值作为Ｅｐｓ参数的值。同样，也可以用该方法进行噪声类的处理：（ａ）将各 k唱ｄｉｓｔ类根据其含有的数据点的数量进行降序排列，则较前面的类将代表数据集的主要密度；（ｂ）与传统ＤＢ唱ＳＣＡＮ一样需要一个百分比例，从而得到代表原始数据集主要密度水平的类。如图３，一维聚类得 C１（２１）、C２（４）、C３（２０），降序排列后为 C１（２１）、C３（２０）、C２（４），取ｐｅｒｃｅｎｔ＝８０％，从 C１开始选择，直到选择的类之和大于或等于总数据点的８０％；因此，依次取得 C１、C３，其中 C２为噪声类。根据一维聚类结果计算Ｅｐｓi：计算各个 k唱ｄｉｓｔ类的中的平均 k唱ｄｉｓｔ和最大 k唱ｄｉｓｔ，并按平均 k唱ｄｉｓｔ从小到大排序。假设排序后的类对应为 C１ C２…Cn，平均 k唱ｄｉｓｔ序列为 d１ d２ …di…dn；则Ｅｐｓ１＝（ d１＋d２）／２… Ｅｐｓi ＝（ di ＋di ＋１）／２ …Ｅｐｓn －１＝（ dn －１＋dn）／２，Ｅｐｓn ＝ｍａｘ（Cn），即针对最后一个Ｅｐｓn，用类中的最大 k唱ｄｉｓｔ值作为Ｅｐｓn 的值。Ｅｐｓi 的计算过程示例如表１所示。表１　Ｅｐｓi 的计算过程示例计算步骤每步的结果和最大 k 距离得到代表主要密度水平的类 C１（２１）、C２（４）、C３（２０）（ａ）k唱ｄｉｓｔ聚类结果（ｂ）按含有的数据点数量降序排列； C１（２１）、C３（２０）、C２（４）（ｃ）取ｐｅｒｃｅｎｔ＝８０％，去掉噪声类， C１（２１）、C３（２０）（ｄ）计算各个类的平均 k 距离 d１＝１，d３＝３；ｍａｘ（C１）＝１，ｍａｘ（C３）＝３（ｅ）将平均 k 距离的值按升序排列； d１＝１，d３＝３Ｅｐｓ１＝（d１＋d３）／２＝２；Ｅｐｓ２＝ｍａｘ（C３）＝３（ｆ）计算得出Ｅｐｓi；　　ｂ）过滤式的聚类。将前面所得的Ｅｐｓi 按升序排列，然后根据不同的Ｅｐｓi，依次调用ＤＢＳＣＡＮ算法进行过滤式聚类。将Ｅｐｓi 升序排列是为了先将密度高的数据进行聚类，随后再

熊忠阳，等：针对非均匀数据集的ＤＢＳＣＡＮ过滤式改进算法第１０期依次根据较大的Ｅｐｓi，将密度较稀的数据分别进行聚类。每当下一次聚类开始时，去掉前面已经聚成类的点，以防止重复聚类。 3　实验与分析 3畅1　数据描述本实验采用ＭＡＴＬＡＢ实现，为了能够直观地观察和分析结果，实验采用二维数据。如图５所示，图中有两个密度明显不同的区域，因为数据集分类明显，所以该数据集能较好地用来检验聚类结果的有效性。另外，由于基于密度的算法已经被证明可以发现任意形状的类，本文在任意形状方面将不再过多探讨。 3畅2　实验过程与结果进行一维聚类得 R１、R２、R３、R４，如图６所示。计算出各个点的 k唱ｄｉｓｔ（k ＝４），将其从小到大排列，然后 ·３２７３· 　　　　　ｂ）根据不同的Ｅｐｓi，调用ＤＢＳＣＡＮ算法进行过滤式聚类。在采用空间索引的情况下，这一步所使用的时间为 O（n ｌｏｇ n）；因此，整个算法的时间复杂度为 O（n ｌｏｇ n）。　　在该实验中，如果采用传统的ＤＢＳＣＡＮ算法，则Ｅｐｓ只能选择一个统一的全局变量。如果Ｅｐｓ＝１．５，则图中 C１将能被成功聚类，而 C２会被标志为噪声点；如果Ｅｐｓ＝２，则 C１和 C２将被合并为一个类。因此，当数据密度不均匀时，传统的ＤＢＳＣＡＮ算法聚类效果很差。针对这个问题，本文提出了基于过滤的ＤＢＳＣＡＮ改进算法，实验结果表明该算法有效并可行。 4　结束语当数据分布不均匀时，由于传统ＤＢＳＣＡＮ使用统一的全局变量，聚类的效果差。针对这个问题，本文提出了一种基于过滤的ＤＢＳＣＡＮ改进算法。该算法针对数据集中存在的不同密度水平，自动产生相应的Ｅｐｓi，然后依次调用传统的ＤＢ唱ＳＣＡＮ进行聚类。实验结果表明该算法对于数据分布不均匀的情况能够有效地聚类。当然，由于改进算法采用了数据预处理的方式，如何提高算法的效率将是下一步的研究方向。参考文献：［１］蔡元萃，陈立潮．基于数据分区的并行［Ｊ］．科技情报开发与经济，２００７，17（１）：１４５唱１４６．［２］ＨＡＮＪｉａ唱ｗｅｉ，ＫＡＭＢＥＲＭ．Ｄａｔａｍｉｎｉｎｇｃｏｎｃｅｐｔｓａｎｄｔｅｃｈｎｉｑｕｅｓ［Ｍ］．Ｂｅｉｊｉｎｇ：ＨｉｇｈｅｒＥｄｕｃａｔｉｏｎＰｒｅｓｓ，２００１．［３］周水庚，周傲英，曹晶．基于数据分区的ＤＢＳＣＡＮ算法［Ｊ］．计算机研究与发展，２０００，37（１０）：１１５３唱１１５９．［４］荣秋生，颜君彪，郭国强．基于ＤＢＳＣＡＮ聚类算法的研究与实现［Ｊ］．计算机应用，２００４，24（４）：４５唱４６．［５］张枫，邱保志．基于网格的高效ＤＢＳＣＡＮ算法［Ｊ］．计算机工程与应用，２００７，43（１７）：１６７唱１６９．［６］何中胜，刘宗田，庄燕滨．基于数据分区的并行ＤＢＳＣＡＮ算法［Ｊ］．小型微型计算机系统，２００６，27（１）：１１５唱１１６．［７］ＬＩＵＰｅｎｇ，ＺＨＯＵＤｏｎｇ，ＷＵＮａｉ唱ｊｕｎ．ＶＤＢＳＣＡＮ：ｖａｒｉｅｄｄｅｎｓｉｔｙｂａｓｅｄｓｐａｔｉａｌｃｌｕｓｔｅｒｉｎｇｏｆａｐｐｌｉｃａｔｉｏｎｓｗｉｔｈｎｏｉｓｅ［Ｊ］．Service Systems and Service Management，２００７，22（７）：１唱４．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｍｏｎｔｒｅａｌ：［ｓ．ｎ．］，１９９５：９２４唱９２９．［３］ＭＹＲＡＳ，ＬＵＫＡＳＦ．ＡｄａｔａｍｉｎｅｒａｎａｌｙｚｉｎｇｔｈｅｎａｖｉｇａｔｉｏｎａｌｂｅｈａｖｉｏｒｏｆＷｅｂｕｓｅｒｓ［ＥＢ／ＯＬ］．（２００１唱０９唱１７）．ｈｔｔｐ：／／ｗｗｗ．ｗｉｗｉ．ｈｕ＿ｂｅｒ唱ｌｉｎ．ｄｅ／ｍｙｒａ／ｗ＿ａｃａｉｉ０１．ａｓｐｘ．［４］ＧＯＤＯＹＤ，ＡＭＡＮＤＩＡ．Ｍｏｄｅｌｉｎｇｕｓｅｒｉｎｔｅｒｅｓｔｓｂｙｃｏｎｃｅｐｔｕａｌｃｌｕｓｔｅ唱ｒｉｎｇ［Ｊ］．Information Systems，２００６，31（４，５）：２４７唱２５５．［５］邢东山，沈钧毅，宋擒豹．用户浏览偏爱模式挖掘算法的研究［Ｊ］．西安交通大学学报，２００２，36（４）：３６９唱３７２．［６］ＢＲＵＳＩＬＯＶＳＫＹＰ．Ｐｒｅｄｉｃｔｉｖｅｓｔａｔｉｓｔｉｃａｌｍｏｄｅｌｓｆｏｒｕｓｅｒｍｏｄｅｌｉｎｇ［Ｊ］．User Modeling and User唱adapted Interaction，２００１，11（１）：５唱１８．［７］ＣＨＥＮＭＳ，ＰＡＲＫＪＳ，ＹＵＰＳ．Ｅｆｆｉｃｉｅｎｔｄａｔａｍｉｎｉｎｇｆｏｒｐａｔｈｔｒａｖｅｒ唱ｓａｌｐａｔｔｅｒｎｓ［Ｊ］．IEEE Trans on Knowledge and Data Enginee唱 ring，１９９８，10（２）：２０９唱２２１．图图图实验数据将其按所含数据点的数量降序排列： R３（２３３２）、 R１（２３０４）、R２（１９２）、R４（１６７）；取ｐｅｒｃｅｎｔ＝８５％，得到代表主要密度水平的类：R３（２３３２）、R１（２３０４）；然后按表１所示的步骤进行计算，得出Ｅｐｓi：Ｅｐｓ１＝１．５，Ｅｐｓ２＝２。根据不同的Ｅｐｓi，依次调用ＤＢＳＣＡＮ算法进行过滤式聚类。如图５，当Ｅｐｓ１＝１．５时，图中标为“· ”的点被聚为 C１，此时标为“倡”的点则被识别为噪声点，然后，被聚为 C１的点将被过滤掉；当Ｅｐｓ２＝２时，图中标为“倡” 的区域被聚为 C２，整个实验过程结束。算法时间复杂度分析：过滤算法主要分为以下两步：ａ）对数据进行预处理，并计算出Ｅｐｓi，这一步所用的时间为 O（n ｌｏｇ n）；（上接第３６９６页）检索领域中的研究热点。本文提出了结合用户浏览时间和内容选择机制来发现用户的个人浏览兴趣，动态维护用户的个人兴趣剖像，进而构建个人兴趣搜索智能ａｇｅｎｔ子系统ＳＳＰＩＳＩＡ来搜集、组织、挖掘和应用用户的个人兴趣信息，并在此基础上实现了基于ＳＳＰＩＳＩＡ数据收集的个人兴趣增量挖掘算法。最后通过实验表明，该结构和算法能够有效地跟踪用户的个人兴趣变化，并且具有良好的适应性，进而为实现个性化信息检索奠定了基础。笔者下一步将进一步从语法、语义和语用的角度探讨用户模型的形成和应用，提高个性化信息检索的效率。参考文献：［１］曾春，邢春晓，周立柱．个性化服务技术综述［Ｊ］．软件学报，２００２，［２］ＬＩＥＢＥＭＡＮＨＬ．ＡｎａｇｅｎｔｔｈａｔａｓｓｉｓｔｓＷｅｂｂｒｏｗｓｉｎｇ［Ｃ］／／Ｐｒｏｃｏｆ 13（１０）：１９５２唱１９６１．

分享到：

赞收藏

资料库

论文研究-针对非均匀数据集的DBSCAN过滤式改进算法.pdf

相关推荐

开发技术

热门标签

最新资料