基于云计算棉花仓储海量数据挖掘算法研究
【摘要】如今数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB).EB(1024PB-1EB)乃至ZB(1024EB=1ZB)级别。爆炸式的数据增长给传统服务器集群性能带来严峻的挑战,传统数据挖掘算法已经无法高效的从数据海洋中挖掘出知识。云计算使计算分布在大量的计算机上,该计算模式非常适合处理大数据,能够有效地解决传统计算模式的性能瓶颈。Hadoop是一个开放源代码的分布式基础架构,它由Apache基金会开发,其核心为分布式文件系统(HDFS)、MapReduce计算模型及HBase分布式数据库。有着高可靠、高扩展、高效、高容错、低成本的优点,是如今学术界和工业界云计算研究应用的主流平台。本文主要研究了Hadoop这个生态圈的核心项目HDFS、MapReduce和HBase以及数据挖掘的过程和原理。对传统的FP-Growth算法和NaiveBayes算法进行改进,针对算法中的不足提出新的解决方案同时结合Hadoop云计算平台并行化实现,使该关联规则以及分类算法能够高效的处理海量数据,最后将改进后的算法建立合理的挖掘模型应用在《棉花仓储质量管理》项目上。本文的主要研究内容如下,1.针对传统FP-Growth算法在递归挖掘频繁模式过程中都要创建条件FP-Tree使时间空间效率降低的缺点提出了基于动态数组挖掘的算法,同时并行化实现在Hadoop云计算平台上使改进后的FP-Growth算法(PLFPG能够高效的处理大数据。2.针对传统NaiveBayes算法假定属性之间相互独立、连续性属性服从高斯分布的一些不足结合了基于相关系数、FlexibleBayes的方法同时并行化实现在Hadoop云计算平台上,使改进后的NaiveBayes算法(PCFNB)高效的、高准确率的处理海量数据。3.将改进后的算法与《棉花仓储质量管理》项目结合,深入研究棉花仓储自燃的特性规律,建立合理的模型来对棉花仓储白燃进行高效准确的监控预警。
【作者】王翔;
【导师】周丽娟;
【作者基本信息】首都师范大学,计算机应用技术,2014,硕士
【关键词】Hadoop;关联规则;分类;FP-Growth;NaiveBayes;棉花仓储;自燃;
【参考文献】
[1]黄晶晶.基于双咪唑衍生物和三吡啶双酰胺配体的配位聚合物的合成、结构和性质研究[D].渤海大学,无机化学,2013,硕士.
[2]杜晓馨.场域扩展对中国青年学生政治社会化的影响研究[D].复旦大学,思想政治教育,2012,硕士.
[3]吴莉爽.中医药联合贝伐单抗治疗眼底新生血管疗效研究[D].广州中医药大学,中医五官科学(专业学位),2013,硕士.
[4]任德玉.地震记录与瞬时频率初探[J].石油地球物理勘探,1980,01:7-21.
[5]方琴.超声监测聚环氧乙烷对内毒素休克兔肝肾血流动力学的影响[D].南方医科大学,麻醉学,2012,硕士.
[6]闪鑫,戴则梅,曹路,汪德星.针对电网3/2接线方式的设备风险在线辨识方法[J].电力系统自动化,2012,01:112-115.
[7]杨茂发,景旭文,周宏根.基于web数据挖掘技术的机械产品概念设计研究[J].华东船舶工业学院学报(自然科学版),2004,01:72-75.
[8]梁桂美,曹锡娜,贾福宗.多道统计期望子波反褶积模块的应用[J].石油地球物理勘探,2003,S1:15-22+138.
[9]姜海,姚家奕.浅谈数据仓库在供应链中的应用[J].铁道物资科学管理,2001,06:31-32.
[10]孙晓.脑卒中患者颈动脉粥样硬化性狭窄的危险因素研究[D].兰州大学,神经病学,2013,硕士.
[11]铁璐.面向校园论坛的网络书写纹识别研究[D].华中师范大学,教育技术学,2014,硕士.
[12]王健.区域经济发展与地方政府科技管理职能相关问题研究[D].渤海大学,科学技术哲学,2014,硕士.
[13]马楠.完井砂岩对比层的自动识别研究[D].东北石油大学,计算机应用技术,2013,硕士.
[14]杨冬,李世勇,王博,张宏科.支持普适服务的新一代网络传输层构架[J].计算机学报,2009,03:359-370.
[15]杜红彬,邵惠鹤.一类非线性系统的自适应神经网络控制[J].控制与决策,2005,04:455-458.
[16]李守林,郭伟亚,王耀球.基于物联网的智能空间信息共享利益模型研究[J].湖北社会科学,2015,02:93-99.
[17]田雪岑.上市公司经理层特征与公司经营业绩的关系研究[D].沈阳工业大学,会计学,2012,硕士.
[18]朱长生.EPA、DHA对黄鳝生长、繁殖性能及FAD、FAE基因表达的影响[D].江西农业大学,特种经济动物饲养学,2012,硕士.
[19]吴洁芳.基于市场分析的安庆市文化旅游资源分层开发研究[D].安徽大学,旅游管理,2013,硕士.
[20]丁黄艳.新世纪下我国工业经济运行效率及提升机制研究[D].重庆工商大学,统计学,2014,硕士.
[21]刘臻玺.西部地区投资结构分析[D].中央民族大学,中国少数民族经济,2004,硕士.
[22]张欣.固定式左炔诺孕酮宫内缓释剂对子宫腺肌病患者避孕及治疗效果观察[D].青岛大学,妇产科学,2013,硕士.
[23]冯俊娥,崔鹏,程兆林.一类含未建模动态的奇异时滞系统的鲁棒镇定问题[J].控制与决策,2005,10:1165-1168+1172.
[24]赵蕾.移动IPv6网络安全移动性管理技术研究[D].西安电子科技大学,测试计量技术及仪器,2014,博士.
[25]李飞腾.雅砻江牙根二级水电站坝基抗滑稳定性研究[D].成都理工大学,岩土工程,2013,硕士.
[26]邓琳君.贵州省湿地保护立法问题研究[D].贵州民族大学,经济法学,2012,硕士.
[27]邹麟,吕瑞涛,康飞宇.第15届国际插层化合物会议在清华大学举行[J].新型炭材料,2009,02:191-192.
[28]徐凤月.中国参政党参政合法性研究[D].吉林大学,马克思主义中国化研究,2013,硕士.
[29]彭益全.盐处理下三种海水蔬菜对氮磷营养盐的生理响应及其品质变化特征研究[D].南京农业大学,海洋科学,2013,硕士.
[30]廖文虎,郭俊吉.边缘掺杂对应力作用下锯齿型石墨烯纳米带I-V特性的影响[J].湖南师范大学自然科学学报,2012,06:30-33.
[31]董媛媛,赵夏.从2008-2012年“十大假新闻”看虚假新闻[J].今传媒,2014,05:11-13.
[32]田金强.红提葡萄贮藏保鲜过程中SO_2伤害的防止技术研究[D].河北农业大学,农产品加工及贮藏工程,2004,硕士.
[33]金熙.输电线路接点温度在线指示器应用研究[D].天津大学,电气工程,2013,硕士.
[34]何立鹏.Fe(Ⅱ)超分子刷囊泡及其融合现象的研究[D].兰州大学,无机化学,2013,硕士.
[35]罗正东.基于逆可靠度理论的边坡稳定分析方法研究[D].湖南大学,岩土工程,2014,博士.
[36]顾先问,张爱萍.我国省域”两化”融合及其与农业现代化·城镇化关系的空间计量研究[J].安徽农业科学,2015,11:328-332.
[37]黄维一.周期性应力加载对体外培养肌管极性与分化的影响[D].南方医科大学,人体解剖与组织胚胎学,2012,硕士.
[38].国家自然科学基金委员会生命科学部2014年度青年基金项目[J].生命科学,2014,12:1342-1403.
[39]陈振彩.任务调制的大脑偏侧化认知控制加工[D].西南大学,基础心理学,2013,硕士.
[40]张爽.Al-Al/B_4C层状复合材料的制备与性能研究[D].大连理工大学,材料加工工程,2013,硕士.
[41]杨惠雯.从“色影无忌”网看网络虚拟社区中的视觉文化传播[D].湖南师范大学,传播学,2014,硕士.
[42]钟小红.美的集团财务共享管理研究[D].湖南大学,工商管理,2013,硕士.
[43]杨君.延平区失地农民利益保障研究[D].福建农林大学,农村与区域发展,2012,硕士.
[44]胡江溢,祝恩国,杜新纲,杜蜀薇.用电信息采集系统应用现状及发展趋势[J].电力系统自动化,2014,02:131-135.
[45]徐多.心肌炎患者在院死亡风险预测模型及评分标准的建立[D].宁波大学,内科学,2014,硕士.
[46]周娅娜.一种用于手机的无线充电系统设计[D].重庆大学,控制工程(专业学位),2014,硕士.
[47]魏少岩,闵勇,徐飞.发电机组例行停机检修新策略[J].电力系统自动化,2006,14:46-49.
[48]孟红.基于BP神经网络的再生混凝土强度预测[D].青岛理工大学,港口海岸及近海工程,2012,硕士.
[49]张立丽.美国总统选举中的政党影响研究[D].华中师范大学,地方政府学,2014,硕士.
[50]程论,王中杰.基于数据流的Internet网络控制系统延时模型研究[J].控制与决策,2011,04:513-518.
- 下一篇: 托克维尔悖论及反悖论
- 上一篇: 兴义市煤电铝产业融合机制研究
相关推荐
- 马克思主义群众观视域下的中国参与式民主制度构建
- 01月01日
- 社会主义法治背景下网络虚拟社会管理创新研究
- 06月24日
- 两种植物多酚体外抑制希瓦氏菌和假单胞菌及抗生物被膜的研究
- 11月09日
- 文化自尊与乡土之殇
- 06月21日