基于Hadoop平台的分布式EM聚类算法

基于Hadoop平台的分布式EM聚类算法

作者:师大云端图书馆 时间:2015-06-24 分类:参考文献 喜欢:4578
师大云端图书馆

【摘要】随着“大数据”概念的出现,国内外研究学者越发集中关注如何从大数据中获取有价值的知识,如何运用智能算法从海量数据中发现有意义的模式和规则以及如何借助有效工具从数据海洋中提取对领导决策具有支撑和引导作用的信息。聚类分析作为数据挖掘领域的一个重要研究方向,是一种将数据对象划分成若干簇或类的过程,使同一类中的对象高度相似,而不同类之间的对象具有较大的差异。然而随着数据规模的迅猛增长,单机串行的聚类算法遇到了瓶颈,主要表现在数据无法一次性装入内存、执行效率差、无法实现并行处理等方面。Hadoop分布式计算技术的出现及发展为解决这类问题提供了一种有效的手段。Hadoop分布式平台通过HDFS(分布式文件系统)存储海量数据,并结合MapReduce编程框架实现对大规模数据集的并行处理。科研工作者和用户可以根据串行聚类算法的特点,结合MapReduce编程框架,在不需要过多了解Hadoop平台底层细节的情况下,能够很容易的实现算法的并行化,从而提高算法的执行效率,帮助人们从大数据中获取有价值的信息和知识。在聚类分析中,合理设置初始化参数是基于高斯混合模型的EM聚类算法的关键指标。初始化参数的选取和设置不仅会影响算法的迭代次数和算法执行的复杂度,而且会影响到最终的聚类结果。因此,一个良好的初始化参数选取机制可以在减少迭代次数的同时,提高聚类结果的准确度。本文通过对随机初始化、K均值初始化、层次聚类初始化等传统初始化方法进行分析研究,提出了基于密度的MergeC方法。该方法依据每类样本中心部位密度大、边缘部位密度小的特点,将各类中心部位的最优候选中心提取出来进行加权合并,从而得到高斯混合模型的参数值。通过实验和分析表明,该方法是高效、可行的。针对传统EM算法中存在数据需要多次载入内存、并行性较差以及执行效率不高等问题,本文将串行EM算法与MapReduce框架结合,给出了基于Hadoop平台的分布式EM聚类算法,实现了EM算法的分布式并行处理方案。该算法通过合理的冗余操作,采用MeanMapReduce和VarMapReduce两个阶段分步计算各类的均值和协方差矩阵,达到对海量数据的分布式处理。最后通过在Hadoop集群上对不同大小的数据集进行试验对比,结果表明随着数据节点的增加,算法的执行速度得到了极大提高。算法实现了大数据并行聚类分析和挖掘,显著提高了EM算法处理海量数据集的执行效率。
【作者】苏嘉庚;
【导师】赵书良;
【作者基本信息】河北师范大学,计算机应用技术,2014,硕士
【关键词】EM聚类算法;Hadoop平台;MapReduce框架;高斯混合模型;

【参考文献】
[1]李茂岗.基于SOPC的短波宽带OFDM系统设计与实现[D].西安电子科技大学,通信与信息系统,2012,硕士.
[2]李杨.科技文章英译汉过程中状语语序调整[D].沈阳师范大学,翻译,2013,硕士.
[3]戈丽丽.乡村精英流失对乡村治理的影响研究[D].南昌大学,公共管理(专业学位),2012,硕士.
[4]宫文璟.泰式英语与中式英语的语言特征对比及其成因分析[D].青岛大学,外国语言学及应用语言学,2013,硕士.
[5]沈虎.完善我国社会救助法律制度的研究[D].山东财经大学,社会保障,2013,硕士.
[6]张全发.关于信号设备状态修[J].铁道通信信号.2001(12)
[7]孟庆红.尾加压素Ⅱ对肺动脉平滑肌细胞胶原合成的影响及其细胞内信号转导的研究[D].山东大学,儿科学,2013,硕士.
[8]黄静俊.W公司发展战略研究[D].上海交通大学,工商管理,2013,硕士.
[9]孔祥泉.旋转台频率优化及其系统扭转振动的研究[D].东北大学,机械设计及理论,2010,硕士.
[10]孙明辉.工作压力对员工偏差工作行为的影响[D].湘潭大学,企业管理,2012,硕士.
[11]陈磊.哈耶克社会批判理论研究[D].山东大学,法学理论,2013,硕士.
[12]孙辉.矿用锚索周边剪应力分布规律及新型高强锚索束研发[D].中国矿业大学,采矿工程,2014,硕士.
[13]谈会星.固定音频实时检索算法研究及其在定点DSP上的实现[D].解放军信息工程大学,通信与信息系统,2012,硕士.
[14]边军.天津市通信公司营销策略研究[D].天津大学,工商管理,2004,硕士.
[15]孟涛.河北省行政事业性收费管理研究[D].燕山大学,公共管理,2014,硕士.
[16]符之敏.浅析网络环境下高校图书馆的文献采访[J].琼州大学学报,2004,05:87-89.
[17]钟元龙.原位自生TiCp/Fe复合材料的制备工艺及其性能研究[D].广西大学,材料加工工程,2004,硕士.
[18]郝妙春.基于拉姆齐模型的中国房地产价格泡沫测度[D].天津财经大学,统计学,2012,硕士.
[19]宋建.六杆六铰点六自由度测量装置及其位姿解算[D].吉林大学,载运工具运用工程,2014,硕士.
[20]米锋.德川时代社会结构及思想变迁[D].吉林大学,世界史,2004,硕士.
[21]丁融.几种新型α-芋螺多肽的作用靶点及构效关系研究[D].南华大学,药理学,2013,硕士.
[22]郭加书,崔然,李岩,张弘,林泽东.高校数字化校园建设的研究与实践[J].中国高教研究.2007(10)
[23]邓君.针刀疗法配合曲安奈德复合液局部注射治疗肩关节周围炎的临床观察[D].湖北中医药大学,中医骨伤科学(专业学位),2013,硕士.
[24]瞿巧玲.不礼貌原则下的法庭冲突话语分析[D].华中师范大学,外国语言学及应用语言学,2014,硕士.
[25]贾佳.皮秒脉冲电场治疗宫颈癌动物模型的机制及有效性安全性研究[D].重庆医科大学,妇产科学,2014,博士.
[26]张学君,唐丽华,张吉丽,钟建华,郭万有.热轧卷板机结构参数与卷取张力的确定[J].一重技术.1999(01)
[27]陈志群,翁锦榕,严家磷.新一代快速成型系统——融积成型系统FDM1650[J].机电一体化.1996(06)
[28]刘砚.城镇污水处理厂提标改造工艺研究[D].长安大学,市政工程,2013,硕士.
[29]孟秀清.商业银行公司类客户信用风险动态评估模型研究[D].南京理工大学,管理科学与工程,2013,硕士.
[30]冉祥飞.现代都市生活中果蔬食品绿色贮藏方法的设计研究[D].江南大学,设计艺术学,2012,硕士.
[31]丁锋,谢新民,方崇智.时变系统辨识的多新息方法[J].自动化学报,1996,01:85-91.
[32]黄婉庆.高中地理作业生活化研究[D].华东师范大学,课程与教学论,2013,硕士.
[33]宋燕.基于ASP技术的本科毕业论文选题系统的设计与开发[D].曲阜师范大学,教育技术学,2013,硕士.
[34]郑祥江,郝生跃.研究生职业生涯规划现状调查及影响因素探析[J].中国高教研究,2008,04:51-56.
[35]谭连生,尹敏.计算机高速互联网中一类基于速率的PD拥塞控制方法(英文)[J].自动化学报,2003,01:54-61.
[36]张敏.双驱单钢轮振动压路机液压系统参数匹配研究[D].长安大学,机械设计及理论,2013,硕士.
[37]丁波.马克思早中期主体性思想的发展研究[D].曲阜师范大学,马克思主义哲学,2013,硕士.
[38]李梦.基础教育资源质量在住宅市场中的资本化研究[D].西南交通大学,行政管理,2014,硕士.
[39]韩劭.雷击与过电压对信号设备的危害及防护[J].中国铁路.2002(02)
[40]唐伟童,汪鹏君,郑雪松.基于CNFET的低功耗三值门电路设计[J].宁波大学学报(理工版),2014,03:43-49.
[41]简万国.极乐矿段难采矿体采矿综合技术研究[D].中南大学,矿业工程,2004,硕士.
[42]金喆勋.医疗合同司法实务探析[D].华东政法学院,民商法学,2003,硕士.
[43]黄素玉.吡啶吡唑类钯(Ⅱ)配合物的合成及其催化Suzuki偶联反应的研究[D].广西民族大学,应用化学,2013,硕士.
[44]闫素娟,李红,贾士儒.提高麦汁发酵度的糖化工艺优化分析[J].酿酒科技.
[45]郭丽红.轻量级目录访问协议分析与安全检测[D].长春理工大学,计算机应用技术,2004,硕士.
[46]崔海涛.捕获原子中的有限粒子数效应[D].东北师范大学,理论物理,2003,硕士.
[47]吴建涛.浏览器指纹技术研究与实现[D].西北大学,软件工程(专业学位),2014,硕士.
[48]王益良.黑龙江省巴彦县新建饮水水源地可行性研究[D].吉林大学,水利工程,2013,硕士.
[49]田智忠.朱熹论“曾点气象”研究[D].河北大学,中国哲学,2003,硕士.
[50]张忠胜.嵌入式共固化复合材料阻尼结构工艺及力学性能研究[D].青岛理工大学,机械工程,2012,硕士.

相关推荐
更多