基于Hadoop平台的随机森林算法研究及图像分类系统实现

基于Hadoop平台的随机森林算法研究及图像分类系统实现

作者:师大云端图书馆 时间:2020-01-25 分类:硕士论文 喜欢:2206
师大云端图书馆

【摘要】随着互联网和多媒体技术的不断发展,海量的图像资源和数据涌入互联网,它们深刻地影响着我们的日常生活,此时对于图像内容准确地理解显得尤为重要。图像分类技术融合了机器学习、人工智能等学科的先进思想和理论,旨在将原本无序分布的大批量的图像数据进行有序地归类,是解决图像理解问题的基础。随机森林算法建立在决策树模型基础之上,它是多棵决策树的组合,在分类场景中得到广泛应用。作为一种优秀的分类器模型,也为图像分类提供了新的思路。但当图像资源的数据量特别大时,分类将是一个十分耗时的过程。为了解决以上问题,本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大规模图像分类的效率。首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce框架;接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征,重点介绍SIFT特征和BagofVisualWords特征代表的实现过程,并阐述了几类重要的模式分类方法;随后,重点介绍随机森林算法,并在此基础之上,结合MapReduce计算框架,对随机森林模型构建过程进行双重并行化的改进,以提高随机森林算法的运行效率;然后,基于以上研究成果,本文构建了基于Hadoop平台的图像分类原型系统,包括Hadoop平台下处理图像接口的实现、基于DenseSift算法的特征采样过程、基于BoVW模型表示图像、构建图像的空间金字塔模型和利用改进后的随机森林算法进行分类器的训练共五个部分。最后,通过实验验证了基于Hadoop平台的图像并行化处理地有效性,同时证明并行化的随机森林算法相比较于单机版的随机森林,处理过程所消耗的时间大为缩短,并取得了不错的分类效果。基于Hadoop平台的图像并行化处理过程,大大提高了海量图像处理过程的速度,同时针对于图像分类,改进后的随机森林算法在效率上有了明显的提高。
【作者】梁世磊;
【导师】郑建德;
【作者基本信息】厦门大学,计算机技术,2014,硕士
【关键词】图像分类;随机森林;Hadoop;SIFT;词袋模型;

【参考文献】
[1]汤家师.静压气体轴承的跨尺度数值计算方法研究[D].华中科技大学,机械工程,2013,硕士.
[2]辛菲.鲅鱼皮胶原蛋白的提取及分子特性的初步研究[D].新疆农业大学,分子生物学与生物化学,2012,硕士.
[3]马立松.1PSY185型单体喷油泵试验台[J].柴油机.1991(04)
[4]侯发明.风险决策框架效应的影响因素[D].首都师范大学,发展与教育心理学,2013,硕士.
[5]张静.石羊河上游一年生人工草地燕麦和毛苕子生态位对密度的响应[D].西北师范大学,自然地理学,2013,硕士.
[6]李茜子.“博物馆式”对外汉语文化教学研究[D].湖南师范大学,汉语国际教育(专业学位),2014,硕士.
[7]赵振宇.应用生物信息学筛选,Id2对人胶质母细胞瘤化疗药物敏感性的影响[D].第二军医大学,2010.
[8]冯运卿,李雪梅,李学伟.基于粗糙集的复合属性铁路旅客出行决策影响因素分析与权重计算[J].铁道学报,2014,09:1-9.
[9]王巍.钌配合物的制备及其在氢转移催化氢化反应中的应用[D].长春工业大学,化学工程,2013,硕士.
[10]梁青.初中化学高效课堂建设的现状调查与对策研究[D].鲁东大学,教育管理(专业学位),2013,硕士.
[11]刘岩.数控五轴联动加工在异型石材中的应用研究[D].沈阳建筑大学,机械制造及其自动化,2013,硕士.
[12]赵慧明.夏河藏区旅游体验营销研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[13]程健.Ni-Al_2O_3功能梯度材料电火花加工仿真及实验研究[D].哈尔滨工业大学,机械制造及其自动化,2013,硕士.
[14]李俊红.典型过程装置的预测控制策略及应用研究[D].浙江工业大学,2005.
[15]穆朝絮,余星火,孙长银.非奇异终端滑模控制系统相轨迹和暂态分析[J].自动化学报,2013,06:902-908.
[16]刘静.中外数字图书馆建设的历史与实践探讨[J].科技情报开发与经济,2005,12:18-20.
[17]于婉婷.聚间苯二胺的化学氧化合成及其除铬(Ⅵ)研究[D].中南大学,冶金环境工程,2013,博士.
[18]陶亢任超.高职矿山机电专业《矿山固定机械使用与维护》课程说课[J].中国电子商情(基础电子).
[19]明海伟.姚合及其诗歌研究[D].华中师范大学,中国古代文学,2014,硕士.
[20]赖慧.战地旅行家—美国著名战地女记者玛莎·葛尔虹[D].山东大学,新闻学,2013,硕士.
[21]戴基亭.基于SOA的交通应急预案管理信息系统分析与设计[D].合肥工业大学,信息管理与信息系统,2013,硕士.
[22]孙德峰.钢铁企业原料场物流管理优化系统[D].东北大学,系统工程,2010,硕士.
[23]鄢仁秀,汪贤裕,郭红梅.赊销背景下的供应链收入共享契约[J].控制与决策,2014,04:666-672.
[24]胡浩磊.光伏并网发电系统部分遮阴下最大功率点的跟踪控制[D].华东理工大学,控制科学与工程,2013,硕士.
[25]李茜.域名与商标权法律关系之辨析和冲突之解决[D].中国政法大学,民商法学,2003,硕士.
[26]杨春雨.东北三所专业体育学院冰雪运动方向本科培养模式现状研究[D].沈阳体育学院,体育教学,2014,硕士.
[27]邓相红.铝合金液压升降机安全智能监控系统的研究与实现[D].湖南大学,控制工程,2011,硕士.
[28]王冠.M50NiL钢氮碳共渗与渗碳加渗氮复合改性层的组织与性能[D].哈尔滨工业大学,材料学,2014,硕士.
[29]俞伟.基于盈利能力分析的HH公司业务拓展研究[D].华东理工大学,工商管理(专业学位),2013,硕士.
[30]闫杰.动力作用下含弱面斜坡破坏实验研究[D].辽宁工程技术大学,固体力学,2012,硕士.
[31]徐佳,吴思达,刘江,孙若愚,谭方舟,杨全红,王璞.被动锁模的传统孤子、耗散孤子掺铒光纤激光器[J].中国激光,2013,07:19-23.
[32]王刚.基于单片机技术和无线通信技术的积雪数据实时监测系统设计与实现[D].新疆大学,地理学,2013,硕士.
[33]郭荣.上海成套院自动控制研究所营销策略研究[D].华东理工大学,高级工商管理(EMBA)(专业学位),2013,硕士.
[34]邰欣欣.改革开放新时期中国共产党的政权建设研究[D].曲阜师范大学,马克思主义中国化研究,2013,硕士.
[35]张勤,钱洁.促进社会组织参与公共危机治理的路径探析[J].中国行政管理,2010,06:88-92.
[36]吴明虎.宽带网络用户接入认证技术的分析及其应用[D].中国人民解放军军事医学科学院,情报学,2003,硕士.
[37]李泽宇.肾移植术后并发间质性肺炎104例回顾性分析[D].吉林大学,临床医学,2014,硕士.
[38]徐静.朝鲜《小华诗评》研究[D].南京师范大学,中国古代文学,2012,硕士.
[39]吴际,唐琳.互联网下的认证方法研究[J].现代电子技术,2005,04:46-47+52.
[40]王新苗,晏蒲柳,黄天锡.网络管理告警数据库中时序规则挖掘的一种新方法[J].小型微型计算机系统,2001,11:1311-1314.
[41]何明,傅向华,马兆丰.基于不完备信息系统的RoughSet决策规则提取方法[J].计算机应用,2003,11:6-8.
[42]董水秀.中间包冶金过程模拟与结构优化[D].辽宁科技大学,机械工程,2012,硕士.
[43]李秋雨.基于旅游体验的影视主题公园发展策略研究[D].东北师范大学,旅游管理,2012,硕士.
[44]毕鹏飞.我国创业板上市公司企业价值评估方法研究[D].云南财经大学,金融学,2014,硕士.
[45]聂润秋.化学修饰电极的制备及应用研究[D].东北师范大学,2014.
[46]李文清.生化止血饮减少药物流产后出血机制的临床研究[D].黑龙江中医药大学,中医妇科学(专业学位),2014,硕士.
[47]申凯文.高中思想政治课教学互动研究[D].华中师范大学,学科教学,2012,硕士.
[48]沈娟娟.弱对称性散射体六角光子晶体能带特性研究[D].南昌航空大学,仪器仪表工程,2013,硕士.
[49]王喜瑞.电子政务与地理信息系统[J].三晋测绘,2003,03:7-8+21.
[50]郭君,付群,刘宁.面向知识经济的企业组织管理[J].一重技术.2007(01)

相关推荐
更多