基于大数据的推荐算法研究
【摘要】随着信息技术和互联网的迅猛发展,人们进入了信息超载的时代。推荐系统是一个解决信息超载问题的有效工具,它根据用户的历史行为等记录,对用户的兴趣进行建模,然后利用创建的用户兴趣模型进行个性化推荐,把用户感兴趣的信息、产品等推荐给用户。协同过滤是推荐系统中采用最为广泛也是最为成功的推荐技术。针对协同过滤技术效果依赖于一个精确的相似度测度方法且其可伸缩性较差,不能处理大数据的问题,本文提出基于项目层次结构的推荐算法,并结合Madoop技术实现矩阵分解算法。主要工作如下:1)改进衡量相似度的余弦距离和皮尔逊相关系数的计算公式,避免计算目标用户与所有用户的相似度,从而避免了在整个用户空间中搜索最相近的K个用户。本文引入倒排索引数据结构,使查找目标用户最近邻的计算复杂度大大降低。实验表明,在确保与改进前最近邻结果一致的情况下,改进后的相似度计算公式能大大缩减查找目标用户最近邻的时间,大大提高推荐算法处理大数据的能力。2)提出了一种基于项目层次相似度的协同过滤算法。利用用户给部分项目标注的标签和项目类别进行自动扩展,建立所有项目的层次结构,然后利用建立的项目标签层次结构计算项目之间的相似性。实验表明,与传统的协同过滤算法比较,本文提出的基于项目层次相似度的协同过滤算法能够显著提高推荐系统处理大数据的能力,并且可以获得更优的RMSE效果。3)结合矩阵分解梯度下降算法的近似算法和MapReduce分布式计算框架,设计实现了一种基于MapReduce的矩阵分解推荐算法。实现矩阵分解算法主要需要实现矩阵乘法,本文对矩阵乘法的分布式实现进行了研究,详细分析了内积法、外积法和分块法,通过对比实验得出,矩阵乘法效率需要折中考虑单个工作节点的计算量和需要网络传输的数据量。
【作者】孙远帅;
【导师】林琛;
【作者基本信息】厦门大学,计算机软件与理论,2014,硕士
【关键词】推荐系统;协同过滤;矩阵分解;
【参考文献】
[1]邱洪波,李伟力,张晓晨,程树康.背绕式定子绕组高速永磁电机三维端部区域电磁场分析与计算[J].中国电机工程学报,2012,24:80-87+14.
[2]黄利.论非法证据排除规则[D].中国政法大学,法律,2003,硕士.
[3]赵浩亮.基于LMS自适应时延估计和ARM的三相流流量测量系统研究[D].燕山大学,电路与系统,2014,硕士.
[4]兰如天.G公司员工绩效管理研究[D].内蒙古大学,工商管理,2013,硕士.
[5]宣涵.CD9基因影响硼替佐米抑制多发性骨髓瘤细胞增殖的研究[D].浙江大学,血液病学,2014,硕士.
[6]林虓.青岛汇泉湾海滨浴场区浮游植物的群集特征及其对环境因子的响应[D].中国海洋大学,渔业资源,2014,硕士.
[7]张峤.基于远程通信的网络安全协议的研究[D].太原科技大学,交通信息工程及控制,2013,硕士.
[8]韩广兴.视频光盘机技术(一)视频光盘机的整机构成[J].今日电子.1994(01)
[9]蔡银辉.吲哚方酸菁染料结构与电子性质的密度泛函理论研究[D].燕山大学,化学工程,2014,硕士.
[10]王雅泰.我国基层电子政务发展现状研究[D].内蒙古大学,公共管理,2014,硕士.
[11]王新新.呼出气一氧化氮对支气管哮喘诊断价值的荟萃分析[D].山西医科大学,内科学(专业学位),2013,硕士.
[12]袁杰.金华火腿片的干燥工艺、品质及储藏特性研究[D].浙江工商大学,食品科学与工程,2014,硕士.
[13]李胜寅.宽带低相噪频率合成技术研究[D].中北大学,微电子学与固体电子学,2013,硕士.
[14]周峙苗.羊栖菜多糖的提取和纯化研究[D].浙江工业大学,生物化工,2004,硕士.
[15]衣晓飞.矩阵关于特定秩的加性分解[D].吉林大学,基础数学,2014,硕士.
[16]张达军.论我国业主委员会的法律主体地位[D].苏州大学,法律(专业学位),2013,硕士.
[17]白静.青岛市体育旅游发展研究[D].青岛大学,2005.
[18]赵云,李雪梅,韦功鼎.高速铁路对区域经济系统的影响研究[J].铁道运输与经济,2015,03:7-13.
[19]徐娜.清代中期隶书艺术美研究[D].渤海大学,美术学,2014,硕士.
[20]刘睿.基于RFID的会场信息采集系统的设计与实现[D].中国海洋大学,信号与信息处理,2014,硕士.
[21]游帅.吕留良著述考论[D].河北大学,中国古典文献学,2014,硕士.
[22]李剑.乳腺癌TopoⅡα基因扩增与临床病理特征相关性研究及其检测的临床意义[D].山西医科大学,病理及病理生理学,2013,硕士.
[23]朱晓宇.无刷直流电机无位置传感器控制技术的研究与设计[D].吉林大学,无线电物理,2013,硕士.
[24]王博文.工微所改制为技术中心是产研结合的重要途径[J].上海轻工业.1999(03)
[25]何鹏,徐立臻,庄晓青.模糊聚类在Web信息检索中的应用研究[J].计算机工程,2002,10:241-242+260.
[26]陈秋南,韦钢,朱昊,周利骏.风电/微型燃气轮机混合微电网电压波动优化控制[J].电力系统自动化,2014,09:226-231.
[27]焦兰.miR-133提高rAAV载体基因表达效率的机制研究[D].华侨大学,生物化学与分子生物学,2013,硕士.
[28]张大庆,郝鹏,何清华,施圣贤.液压挖掘机铲斗轨迹控制[J].建筑机械,2005,01:61-63.
[29]谭华,张益林.时态关联规则中有效时间的不确定性研究[J].科学技术与工程,2005,09:581-584.
[30]徐雷,阎平凡,常迥.用于特征选择的BF算法及其与B&B算法的比较[J].自动化学报,1988,05:359-366.
[31]赵黎丽,高昌培,林虎.线路和变压器零序反时限保护及其整定配合[J].电力系统自动化,2011,17:107-110.
[32]杨丽.石油储运集油管理信息系统研究[D].哈尔滨工程大学,2004.
[33]贾娟.高盐对建立大鼠动脉粥样硬化模型中MMP-2和TIMP-2的影响[D].新乡医学院,生理学,2012,硕士.
[34]辛雪倩.CaO-SiO_2-Al_2O_3-FeO_x四元氧化物体系热力学性质研究[D].东北大学,钢铁冶金,2011,硕士.
[35]庄劭菁.海峡西岸经济区城市经济效率的评价及分析[D].内蒙古农业大学,技术经济及管理,2013,硕士.
[36]方海星.肝癌切除后病人预后评判标准的研究[D].浙江大学,外科学,2013,硕士.
[37]刘冬笑.民族体育形式在大型团体操中的价值及应用前景[D].华南师范大学,体育教育训练学,2004,硕士.
[38]王晓禹.基于Android平台的公众出行信息系统的研究[D].沈阳理工大学,计算机软件与理论,2013,硕士.
[39]刘海军.中学语文教学中激情教学艺术的研究[D].杭州师范大学,语文教育(专业学位),2011,硕士.
[40]沈少平.不同脑脊液置换方式对颅内感染治疗效果影响分析[D].河北医科大学,外科学(专业学位),2013,硕士.
[41]任晓飞.红旗渠精神及其当代价值研究[D].南昌航空大学,思想政治教育,2012,硕士.
[42]李艳.中国银行辽宁省分行手机银行营销管理研究[D].大连理工大学,MBA(专业学位),2013,硕士.
[43]金磊.迟子建文学创作与绘画[D].湖南师范大学,中国现当代文学,2014,硕士.
[44]王子军.我国小麦生产的技术进步模式研究[D].中国农业科学院,农业经济管理,2004,硕士.
[45]拜廷阳.猪巨细胞病毒快速检测方法的建立及河南猪群流行病学调查[D].中国农业大学,预防兽医,2014,博士.
[46]孙志林,倪晓静,许丹,聂会.河口泥沙数学模型的若干问题[J].浙江大学学报(工学版),2015,02:232-237.
[47]金盼盼.BN薄膜的残余压缩应力研究及紫外光响应的初步探索[D].浙江大学,材料科学与工程,2014,硕士.
[48]姚旋.扣件式高大模板支架初始缺陷计算方法研究[D].重庆大学,结构工程,2014,硕士.
[49]王宇.乌梁素海湿地与不同生境条件下物种多样性的研究[D].内蒙古大学,生态学,2014,硕士.
[50]张洋洋.轮耕对小麦—玉米两熟作物生育生理特性的影响[D].河南科技大学,作物(专业学位),2014,硕士.
- 下一篇: 独立光伏照明系统的优化设计和综合应用
- 上一篇: 肝癌解剖性切除术与非解剖性切除术的风险与疗效评价