基于大数据集的协同过滤算法的并行化研究.pdf-资料库

2012年 6月第 33卷第 6期计算机工程与设计 C0M PUTER ENGINEERING AND DESIGN Jun．2012 VoL 33 No．6 基于大数据集的协同过滤算法的并行化研究李改，潘嵘。，李章凤，李磊。 (1．顺德职业技术学院电子与信息工程系，广东顺德 528300；2．中山大学信息科学与技术学院，广东广州 510006；3．中山大学软件研究所，广东广州I 510275) 摘要：通过对基于 ALS的协同过滤算法及分布式 Hadoop平台的相关特性进行深入研究，将基于 ALS的协同过滤算法在 Hadoop上进行并行化，解决了传统的基于 ALS的协同过滤算法在大规模数据集上的运算问题。经过实验验证，在 Ha— doop平台上实现的并行化的 ALS协同过滤算法不仅能够保证实验结果的准确性，而且与单节点上实现的算法相比，运算效率显著提高。关键词：推荐系统；协同过滤；hadoop；交叉最小二乘法；并行化中图法分类号：TP309 文献标识号：A 文章编号：1000—7024 (2012) 06—2437—05 Collaborative filtering algorithm parallelize research based on large data sets LI Gai ，， PAN Rong ， LI Zhang-feng ， LI Lei ’。 (1．Department of Electronic and Information Engineering，Shunde Polytechnic College，Shunde 528300，China； 2．School of Information Science and Technology，Sun Yat-Sen University，Guangzho u 510006，China； 3．Software Institute，Sun Yat-Sen University，Guangzhou 510275，China) Abstract：Through intensive study the property of the distributed platform-Hadoop and the collaborative filtering algorithm based on ALS。a Parallel collaborative filtering algorithm based on ALS in Hadoop is presented and the computing problem of large-scale data is solved in the collaborative filtering algorithm． Experim ental results show that the Parallel algorithm based on ALS implemented in Hadoop can not only guarantee the accuracy of experimental results。but also im prove the com puting effi— ciency compare with the algorithm implemented in single node． Key words： recomm ended systems；collaborative filtering；hadoop；alternating least squares；parallelization 0 引言法设计与实现。但随着互联网的迅猛发展，推荐系统中用户及推荐对象的数量在呈几何倍数增长，使得实现在单节点协同过滤算法是推荐系统中运用最广泛的的推荐算机器上的这些算法要算出结果需要耗费大量时间，无法满法[1_3]。协同过滤算法的核心是分析用户兴趣，在用户群中足大数据集的运算需要。因此如果我们能对这些算法实现找到与指定用户相似 (兴趣) 的用户，综合这些相似用户分布式计算，将会大大缩短计算所需时间，同时必将对大对某一信息的评价，形成系统对该指定用户对此信息的喜规模协同过滤算法的应用研究有较大的推动作用。好程度预测 4 ]。最近几年提出了各种高效的 CF算法，其本文的主要贡献是：研究基于矩阵分解的 Alternating- 中包括潘嵘等提出了基于 ALS的协同过滤推荐算法_6 ]， LeasvSquares(ALS)协同过滤算法的并行化问题，并详细 N．Srebro等提出了 MMM ]，R．Salakhutdinov等提出了介绍如何在开源的云计算平台 Hadoop[“]上实现该算法的 PMF和 RBM[11123，Daniel D．Lee等提出了 NNMF[”]，以并行化。同时对 ALS算法在多个节点下的并行化算法与其及聚类模型等等。在单节点上的串行算法运行的时间进行对比，进而对实验当前对这些协同过滤算法的研究都侧重于单节点的算进行评估。实验证明了 ALS算法的可并行性，并行后 ALS 收稿日期：2011-06—09；修订日期：201卜12—28 基金项目：国家自然科学基金项目 (61003140、61033010) 作者简介：李改 (1981一)，男，湖北荆州人，博士研究生，讲师，CCF会员，研究方向为机器学习、数据挖掘、推荐系统；潘嵘 (1976一)，男，广东广州人，博士，副教授，研究方向为数据挖掘、机器学习、低秩逼近；李章凤 (1989一)，男，福建福州人，硕士研究生，研究方向为数据挖掘、推荐系统；李磊 (1951一)，男，湖南益阳人，博士，教授，博士生导师，研究方向为数据库、数据挖掘、人工智能。 E-mail：ligai999@ 126．tom

计算机工程与设计 2012年算法的运算性能获得了极大提高。法计算出的 RMSE值收敛或迭代次数足够多而结束迭代。 1 基于 ALS协同过滤算法介绍本节我们将首先简单介绍基于 ALS的二维协同过滤推 (3)X— UV ，返回矩阵 X。 2 ALS算法在 Hadoop上并行实现荐算法。本节主要介绍 ALS算法在 Hadoop上的并行实现。包给定一个矩阵 (R一 ( ) ) ∈ {0，1) “，该矩阵括算法设计和算法的实现细节部分。表示具有 m个用户、n个对象的评分矩阵。我们希望找到 2．1 Itadoop平台简介一个低秩矩阵 X，来逼近矩阵 R。同时最小化下面的 Fro— 云计算的核心计算模式是 Map／Reduce，该技术是云计 benius损失函数算的运算基础。它的存储基础是 Hadoop Distributed File L(x)一 ∑ ( 一 ) (1) System (HDFS)项目，是云平台的大规模数据存储技术。在上面的目标函数 L (X)中，( 一)(jj) 是低秩逼近中常见平方误差项。下面我们来考虑如何有效并且快速的求解最优化问题 argmin xL (X)。考虑矩阵分解 x—UVr，UECm ，d表示特征个数，一般 d<< r，r表示矩阵 R的秩，r~min (m，n)。这时式 (1)可以改写为 L(U ，V) 一 ( — )。 (2) 为了防止过拟合，我们给式 (2)加上正则化项，则式 (2) 可改写为下面我们就这两个技术分别加以介绍 E14-15]。 Hadoop的计算核心是 Map／Reduce模式l1 。区别于网格计算，Map／Reduce计算模式要求并行处理的数据块之间是相互独立的。Map／Reduce计算模式的数据输入是 Key／ Value对。Map过程由 Key／Value进行数据的处理和整合，输出到 Reduce过程，最终的输出依然是 Key／Value数据对，Map和 Reduce操作由程序员自己编写提交给系统处理。由 Hadoop的作业调度机制将数据和 Map和 Reduce操作分发给不同的虚拟机进行处理，并把计算结果输出到分布式文件存储平台上。计算集群中的各个数据处理模块相 L(U， )： ∑ (R — ． ) + (IIui II}+II II}) 互独立。Map过程处理完成之后，系统要对结果进行排序， (3) 排序后的结果又由 Hadoop的作业调度机制分发给不同 Re— 固定 V，对 U 求导旦 “ U i 一 0，我们得到下面求解 U 的公式 duce操作处理，最终将结果输出。MapReduce的处理流程图可参考文献 [14—153。 HDFS是一个高度容错的文件系统，非常适合部署到 — R (V + D i∈ Ez～ m] (4) 廉价的机器群上。HDFS的设计侧重于数据的吞度量上，式 (4) 中的 R 表示用户 i评过的电影的评分组成的向而不是处理速度。尤其是与 Hadoop的计算模式相结合，使量，vu；表示用户 i评过的电影的特征向量组成的特征矩阵。计算程序与数据存储尽可能的在同一个虚拟机上，保证数 nui表示用户 i评过的电影的数量。据的极大吞吐量。 HDFS采用 master／slave架构。HDFS集同理，固定 U，可以得到下面求解 V．的公式群由一个 Namenode和若干个 Datanode组成。Namenode设 — R u柳( + D。 ∈ E1～ ] (5) 置于中心服务器，负责管理整个 HDFS的名字空间和用户式 (5)中的 Ri表示评过电影 j的用户的评分组成的向对 HDFS的访问；Datanode是分布在不同虚拟机上的数据量，U i表示评过电影 j的用户的特征向量组成的特征矩阵。节点，负责用户对数据的读写等操作。HDFS同时提出了表示评过电影 j的用户的数量。数据均衡的方案，系统会自动的将数据从一个容量不足数在式 (4)、(5)中 I表示一个 d×d的单位矩阵。据节点上转移到其他空闲节点，保证整个文件系统的数据基于式 (4)、(5)，我们提出下面的基于代正则化的交均衡。HDFS的结构示意图可参考文献 E15]。叉最／J,,--乘法 (AI S)的二维协同过滤推荐算法。①我们 2．2 并行算法设计用 0均值，偏差为 0．01的高斯随机数初始化矩阵 V，② 我在算法 1中，我们知道，ALS算法一次迭代需要分别们用式 (4)更新矩阵 U，接着我们用式 (5)更新矩阵 V，计算 u和 V，而求 u或求 V这个过程是比较耗时的，而这直到本算法计算出的 RMSE值收敛或迭代次数足够多而结个过程正是算法并行之所在。根据式 (4)和 (5)，我们知束迭代为止。具体算法描述如下：道，在计算每一个用户的特征向量 Ui时，与它相关的量只算法 1 基于 ALS的二维协同过滤推荐算法有电影特征矩阵 V 和该用户 i评过分的电影的集合即 R，输入：用户的评分矩阵 R，特征个数 d。 R 是一个向量；同理在计算每一部电影的特征向量 V 时，输出：矩阵 R的逼近矩阵 X。与它相关的量只有用户特征矩阵 U 和评价过电影 j的用户 (1)初始化 V。的集合，即 R ，R 是一个向量。用户与用户之间，电影与 (2)反复迭代运用式 (4)、(5)更新 u、V，直到本算电影之间是没有联系的，所以我们在计算用户或电影的特

第 33卷第 6期李改，潘嵘，李章凤，等：基于大数据集的协同过滤算法的并行化研究 ·2439 · 征向量时，是可以通过并行方式来处理的。记录为：基于 MapReduce的 ALS算法，一次迭代需要启动两次 1 1 3 MapReduce过程，每次求 U或 V都需启动一次 MapReduce 2 1 5 过程。每次 MapReduce过程，执行算法 1中的步骤 (2)或 3 1 1 (3)。Hadoop的 MapReduce编程模型有两个阶段 Map (映则 R 表示为：射 )和 Reduce (规约 )，由于用户 ID 和电影 ID 的唯一性， 1 13。 25。 31 基于 MapReduce的 ALS算法并不需要 Reduce过程。这个数据预处理过程也可以利用 Hadoop的 MapRe— 基于 MapReduce的 ALS算法求解 U步骤如下：①输 duce实现。这个预处理需要启动两次 MapReduce，一次求入用户评过分的电影的集合 R [n](n为用户数量 )及电影用户评过分的电影的 n个集合 R．．，一次求评价过电影的用特征矩阵 V。②启动 MapReduce过程，将电影特征矩阵 V 户的 rn个集合 R 。MapReduce编程模型默认的输入格式分发到各个节点。输人为存在 DFS上的用户评过分的电影是文本输入，每一行数据都是一条记录。Map函数接受一的集合 R En3。③ Map过程：输人为 R [1…n]，对于 R 组数据并将其转换为一个 key／value对列表，输入域中的每 Eli，利用式 (4)，计算用户 i的特征向量 U 。输出为 i，个元素对应一个 key／value对。Reduce函数接受 Map函数 U 。其中 i为 key，U．为 value。生成的列表，然后根据它们的键 (为每个键生成一个键／值同理，基于 MapReduce的 AI S算法求解 V步骤如下：对 ) 缩小 key／value对列表。 ①输入评价过电影的用户的集合 R I-m](m 为电影数量 ) 如以下是 4条评分记录：及用户特征矩阵 U。②启动 MapReduce过程，将用户特征矩阵 U 分发到各个节点。输人为存在 DFS上的评价过电影的用户的集合 R f-m]。③ Map过程：输人为 R [1…m]，对于 R [j]，利用式 (5)，计算电影 j的特征向量。输出 1 1 3 1 3 5 2 1 1 3 7 2 为 j，。其中 j为 key，vj为 value。在求用户评过分的电影的集合时，运行 Map函数将得 2．3 并行化算法实现细节 2．3．1 数据预处理出以下的 key／value对列表： (1 13) (1 35) (2 11) (3 72) 在实验中使用的原始数据集是由一条一条用户的评分如果对这个 key／value对列表应用 Reduce函数，将得记录组成的。每一条评分记录都以一个三元组表示：(Use— 到以下一组 key／value对： riD，ItemlD，Rate)。其表示的含义是某一个用户对某一个对象进行打分 (这里的评分我们统一用 1到 5分， 1分表示非常不喜欢，5分代表非常喜欢 )。我们需要将其进行处理得到：用户 i评过分的电影的集合 R 和评价过电影 J的用 (1 13， 35) (2 11) (3 72) 同理在求评价过电影的用户的集合，运行 Map函数将户的集合 R ，如果有 n个用户，m部电影，则一共有 n个得出以下以下的 key／value对列表： ira，m 个 R 。 (1 13) (4 15) (1 21) (7 32) 对于式 (4)，R．集合中的元素不仅仅只是评分，还需如果对这个 key／value对列表应用 Reduce函数，将得要保存用户评价过哪些电影。因为分数是 1到 5分，所以到以下一组 key／value对： R 集合中的元素是 ItemID * 10+ Rate。这样电影与评分一一对应，而不丢失信息。如：ID 为 1的用户评过电影 1，3，5，评分记录为： (1 13， 21) (4 15) (7 32) l 1 3 1 3 5 1 5 1 则 R．表示为： 1 13， 35， 51 数据预处理中 MapReduce的逻辑数据流如图 1所示。图 1 MapReduee的逻辑数据流同理对于式 (5)，合中的元素不仅仅只是评分，还需要保存电影被哪些用户评价过。所以 R 集合中的元素是 2．3．2 Hadoop参数传递 UseriD * 1O+ Rate。这样用户与评分一一对应，而不丢在 ALS算法中，求用户特征矩阵 U时需要事先知道电失信息。影特征矩阵 V，求电影特征矩阵 V 时需要事先知道用户特如：ID 为 1的电影被用户 1， 2， 3评过分，评分征矩阵 u，所以求 U时，需要将 V作为参数传递到算 U 的

计算机工程与设计 2012正函数中；求 V 时，需要将 u作为参数传递给算 V 的函数 Map的任务就是求每一个用户或每一个对象的特中。将 ALS算法实现在单节点时，只需要将 U 和 V 设置征向量。成全局变量，就可以解决参数传递问题。然而在基于 MapReduce的 ALS算法中，我们知道在将 3 实验评估 MapReduce作业提交给 Hadoop集群时，相关的输入数据本章主要对 ALS算法在 Hadoop平台实现的性能进行将按照 Block的大小首先被划分为多个片，分发到各个节评估，并阐述实验环境和实验结果。点进行计算，各个节点在计算时只执行 MapReduce任务， 3．1 Itad~p集群配置所以 MapReduce编程模型并不支持全局变量。然而在求用我们的 Hadoop集群配置如下：在实验中分别使用了户特征矩阵 U时，每个节点计算过程都需要知道 V，这时，一台 Master、2台 Slave和一台 Master、5台 Slave组成的我们就需要将 V作为参数传递到各个节点。选择合适的方 Hadoop集群。所有的机器都是 HP计算机，每台计算机配式来传递参数既能提高工作效率，也可以避免 bug的产生。置为 4颗 Intel(R)Core (TM )i7处理器， 8GB 内存。这在基于 MapReduce的 ALS算法中，求用户特征矩阵 U 些机器都处于同一个局域网内。时，电影特征矩阵 V是存在 DFS中。我们知道在 MapRe— 3．2 实验数据集 duce过程中，会将输人数据按照 Block的大小分块，假设在这个实验中，我们使用的数据集是 Netflix对外发布分成批 P块，则有 P个 Map任务，每个 Map任务求解 K个的一个电影评分数据集[2 ]。这个数据集包括了 480 189个用户特征向量。如果在求每个用户的特征向量 U_时，都从用户在对 17 770部电影的 103，297，638个评分。所有的 DFS中读取电影特征矩阵 V，那样效率会非常低，因为如评分值都是 1到 5中的整数值，其中分数越高表示客户对果有 n个用户，则需从 DFS中读取 n次。并且 V矩阵一般相应电影的评价越高 (越喜欢)。这个数据集非常稀疏，有比较大，其大小是 mXd (m 是电影数量，d为特征数 )，所将近 99 的评分值未知。从这个数据集中随机抽取 140万以这种参数传递方式效率非常低，并不可取。条评分记录作为测试集 TestSet，其余作为训练集 TrainSet。同理求电影特征矩阵 V时，这种参数传递方式也不可 3．3 实验结果取。每个 Map任务在开始前都会进行初始化操作，如果在本论文进行了 3个实验，分别是 ALS算法在单节点的初始化时，读取文件放到变量中，将这个变量做为整个实现，在一台 Master、2台 Slave的 Hadoop集群中的实现 Map任务的共享变量，则读取文件次数将减少，有多少个和在一台 Master、5台 Slave的 Hadoop集群中的实现。 Map任务，只需要读多少次文件，效率将大大提高。 ALS算法中有两个参数，分别是特征个数和迭代次数。 Hadoop的分布式缓存机制使得一个 job的所有 map或在第一轮实验中，设定迭代次数为 1，特征个数分别为 reduce可以访问同一份文件。在任务提交后，hadoop将由一 1O，2O，3O，4O，5O。最终实验结果如图 2所示。 files和一archive选项指定的文件复制到 HDFS上 (Job— Tracker的文件系统 )。在任务运行前，TaskTracker从 Job— Tracker文件系统复制文件到本地磁盘作为缓存，这样任务就可以访问这些文件。对于 job来说，它并不关心文件是从哪儿来的。在使用 hadoop的缓存文件 DistributedCache时，对于本地化文件的访问，通常使用 Symbolic Link来访问，这样更方便。通过 URI hdfs：／／namenode／test／input／filel# myfile指定的文件在当前工作目录中被符号链接为 myfile。这样 j0b里面可直接通过 myfile来访问文件，而不用关心该文件在本地的具体路径。 2．3．3 Map函数实现由于用户 I【)和电影 ID 的唯一性，基于 MapReduce的 ALS算法并不需要 Reduce过程。Map函数主要对输入的每一条数据进行处理，其默认的输入格式是文本输入，每一行数据都是一条记录。在数据预处理时，我们已经知道，每一行的数据格式是： UserID value1， value2 … valueK 或者：茎篙横坐标为特征个数，纵坐标为时间，单位为秒 (S)。由图 2可以看出，随着特征数的增多，ALS算法在单节点运行的时间与在 Hadoop集群上运行的时间之间的比例是越来越大，当特征数为 5O时，其比例达到了 5。由式 (4)和式 (5)可知，特征数的增多，意味着运算复杂度增加。当特征数为 1O时，ALS算法在单节点运行的时间比在 Hadoop集群运行的要快，这是因为 Hadoop集群进行并行化时，master需要进行调度，特征数为 10时，运算复杂度 ItemID value1． value2 … valueK 并不高，所以用 Hadoop集群进行并行计算，并不能体现出

第33卷第 6期李改，潘嵘，李章凤，等：基于大数据集的协同过滤算法的并行化研究 ·2441· 并行计算的威力。调过滤算法，如 RBM、NNMF等。 Hadoop集群中节点的增多，意味着其运算能力的增加，从图 2可以看出，5个 nodes的 Hadoop集群运算效率参考文献：要比 2个 nodes的 Hadoop集群高。当然，并不是越多机器 r1] I U0 Xin，0U YANG Yuanxin，X10NG Zhang，et a1． The 越好，假设每个节点处理一个 Map任务，当节点数多于 Map任务时，节点的增多并不能提高运算效率，此时多于的机器会被闲置。所以理想情况下，Map任务数最好是 Hadoop集群节点数的倍数，这样才能有效充分利用 Ha— doop集群的运算能力。在第二轮实验中，设定迭代次数为 1O，特征个数分别为 1O，2O，3O，4O，50。最终实验结果如图 3所示。 6oo 500 g 400 ． { 300 ．量．一 _ I l 麟 200 ：横坐标为特征个数，纵坐标为时间，单位为：分钟。 effect of similarity support in K-nearest-neighborhood based col— laborati ve filtering EJ2．Chinese Journal of Computers，2010， 33(8)：1437—1445 (in Chinese)．[罗辛，欧阳元新，熊璋，等．通过相似度支持度优化基于 K近邻的协同过滤算法 [J]．计算机学报，2010，33(8)：1437—1445．] [2]Ricci F，Rokach L，Shapira B，et a1．Recommender system handbook[M]．New York：Springer，2011：1—29． [3]Das A，Datar M，Garg A，et a1．Google news personalization： Scalable online collaborative filtering[c]．Canada：Proceedings of the 16th Internationa1 Co nference on W orld W ide W eb， 2007： 271—280． [4] Adomavicius G，Tuzhilin A．Toward the next generation of recomm ender systems： A survey of the state-of-the-art and possih[e extenstions[J]．TKDE，2005，17(6)：734—749． [5] wu J L． Collaborative filtering on the netflix prize dataset [EB／OL]．[2010—08一O1]．http：／／dsec．pku．edu．cn／~jinlong／ r6]PAN R，ZHOU Y，CAO B，et a1．One-class collaborative fihe— ring[C]．Pisa，Italy：Proceedings of the Eighth IEEE Interna— tional Conference on Data M ining ，2008：502—511． [7]PAN R，Martin& Mind the gaps：Weighting the unknown in large-scale one-class collaborative filtering[c]．Paris，France： Proceedings of the 15th ACM SIGKDD International Co nference 在这两个实验中，可以看出特征数越多，迭代次数越 on Knowledge Discovery and Data M ining，2009： 667—676．多，ALS算法在 Hadoop集群上的运算效率会提高的越多。 r8] zHOU Y H ，W ilkinson D，Schreiber R，et a1． Large-scale 4 结束语本文对推荐系统的协同过滤算法进行介绍，并针对其中基于矩阵分解的 ALS算法进行了详细介绍；同时还对 Hadoop平台产生的背景，应用背景，平台架构和核心部分做了比较详细的介绍；然后在上述基础上实现 ALS算法在 Hadoop平台的并行化，以提高算法性能。 parallel collaborative filtering for the Netflix prize[c]．Berlin： Proceedings of the 4th Intem ational Co nference on Algorithm ic Aspects in Information and M anagement，2008： 337—348． [9]SrebroN，Rennie J DM，JaakkolaT Mmdmum-marginmatrixfac- torization rC_．Vancouver：MIT Press(NIPS)，2004：1329-1336． [1O]Rennie J D M，Srebro N．Fast maximum ma rgin ma trix factoriza— tion for collaborative prediction[C3．Bonn，Germany：Proceedings of the 22nd International Co nference on Machine Learn ing ，2005：通过实验，我们可以清楚看到基于 Hadoop平台实现 713—719．的算法在运算效率上提高的非常明显。当然，在实验中， [11]Salakhutdinov R，Mnih A Probabilistic matrix factorization [C]．我们的实验数据集还不够大，还不能完全体现出 Hadoop Van couver，British Co lum bia，Canada：Proceeding s of the 25th In— 的优势来，据我们所知 Yahoo为了满足广告系统和 web搜 ternational Co nference on Machine Learning ，2007： 1257—1264．索的研究，在 4000个服务器集群上部署 Hadoop；Face— [12] Salakhutdinov R，Mnih A， Hinton G Restricted boltzrnann book使用了 1000个节点的集群部署 HDFS，以支持其大量 ma chines for collaborative filtering [C]．NY，USA：Proceedings 的日志数据的存储；淘宝网则使用 hadoop集群网络处理大 of the 24th International Co nf erence on Machine Learning ，2007：量的电子商务相关的数据；百度公司利用 hadoop并行计算 791—798．系统，进行大规模网页的分析与搜索，其处理数据达每周 200TB。因此协同过滤推荐算法的并行化至关重要，其应用前景非常广泛。在本实验中我们实现了基于矩阵分解的 ALS协同过滤算法在 Hadoop平台的并行化，在时间效率上有提高，但 Hadoop集群除了受集群机器数影响，还有受一些参数配置的影响，如：文件 Block的大小，文件的复制数等，这些参 [13]LEEDD，SeungHS Learnwetheparts ofobjects by non-negative ma trix factorization 口]． Nature，1999，401(11)：788-791． [14] Tom Wbite． Hadoop：The definitive guide [M]．2nd ed． USA ：o Reilly M edia，Inc，2010： 1-60． [15] Apach HDFS Architecture [EB／OL]． http：／／hadoop．a— pache．org／hdfs／docs／current／cn／hdfs_design．htm1． [16]Jeffrey Dean，Sanjay Ghemawat．Map reduce：Simplified data processing on large clusters[C]．San Francisco，CA：Pro— 数配置对 Hadoop集群的影响将是下一步工作。本文所提 ceedings of the 6th Conference on Sym posium on Opearting 出的并行化 ALS的算法思想还可以运用于并行化其他的协 System s Design & Implementation，2004： 137—150．

资料库

基于大数据集的协同过滤算法的并行化研究.pdf

相关推荐

课程资源

热门标签

最新资料