基于Hadoop的网络文本分析技术研究与实现
【摘要】由于移动设备和互联网网络的快速发展,互联网上产生的信息呈指数级的增长。处理海量数据的两个关键问题就是海量数据的存储和计算问题,传统的文本处理系统在这两个方面都不能满足海量网络文本分析的需求。如何高效的实时获取网络信息,实现海量文本数据的存储和计算是目前学术界和工业界共同关注的问题,因此对一问题的研究具有重要的意义。面对海量数据的存储与计算问题,云计算和大数据处理技术从概念的提出到投入应用,为网络文本分析提供了新的方向。一些开源框架不断出现,目前最流行的就是Hadoop平台,底层采用HDFS分布式文件系统以实现海量数据的存储,使用MapReduce编程框架实现对大数据的并行计算,以及采用列数据库HBase实现对结构化数据的存储。在这一平台下,开发人员无需过多关注分布式存储和计算的实现细节,从而让用户把更多的精力用在核心业务的实现上。本文围绕着基于Hadoop平台下的网络文本处理展开,研究的内容包括网络文本的获取、分布式检索功能构建以及文本聚类分析,本文的具体工作包括以下几个方面:第一,本文提出基于Hadoop的获取网络数据实现方案,该系统由四个模块组成,它们的功能分别是,爬取网页数据、分析网页数据里的URL、对URL去重,以及抽取网页数据里的有用信息。本文给出了系统详细实现方法,包括各个功能模块的逻辑流程图、每个模块使用的数据存储结构。最后,本文实验的运行结果表明,基于Hadoop平台下的网络数据获取方法比单机系统从效率上有很大的提高。第二,本文提出了基于Hadoop分布式检索功能构建,为了使Lucene能很好的运行于Hadoop平台下,本文首先对Lucene存储功能进行了扩展,使Lucene能支持对HDFS文件系统的读写。其次,基于MapReduce框架建立索引的功能由二个模块组成,一个完成了中文分词并行化的实现,另一个完成了倒排索引并行化的实现。最后,该系统经过测试,能在Mapduce框架下并行的建立索引,并且以标准尺寸的数据块形式存放在HDFS里。第三,实现了基于Hadoop的文本聚类算法。本文给出了K-Means算法的并行化详细实现步骤,包括功能模块的逻辑流程图、每个模块使用的数据存储结构。并给出了具体的仿真实验,实验的运行结果表明基于Hadoop的K-Means聚类算法能高效地处理海量文本,比单机系统从性能上有很大的提高。
【作者】周涛;
【导师】李波;胡小华;
【作者基本信息】华中师范大学,计算机应用技术,2014,硕士
【关键词】Hadoop;数据获取;倒排索引;并行K-Means;
【参考文献】
[1]王亚清.IFN-λ的基因克隆、表达及其对肝损伤和肝癌细胞生长的影响[D].宁波大学,生物化学与分子生物学,2013,硕士.
[2]薛锡佳.草酸处理缓解冷敏型果实冷害的机制研究[D].浙江工商大学,食品科学与工程,2013,硕士.
[3]仝年.冒充警察搜身取财行为定性问题研究[D].沈阳师范大学,法律,2014,硕士.
[4]肖盛聪.城市绿色照明系统的研究[D].西南交通大学,建筑与土木工程,2013,硕士.
[5]李树安.电火花堆焊修复仪的研制[D].西南交通大学,电力电子与电力传动,2014,硕士.
[6]王莹.基于专业共同体的小学青年音乐教师专业发展[D].华中师范大学,学科教学,2014,硕士.
[7]王菊云.高新技术企业成本控制的战略研究[D].西南财经大学,2004.
[8]丁瑞琪.多器官功能不全伴急性肾损伤患者行血液净化治疗的预后分析[D].山东大学,临床医学(专业学位),2013,硕士.
[9]韩敏,沈力华.基于微粒群的案例推理方法研究[J].控制与决策,2011,04:637-640.
[10]成凤.中国煤炭企业“走出去”的方式问题研究[D].中国矿业大学,产业经济学,2014,硕士.
[11]刘卉.学校教育场域中学生自由问题探讨[D].华中师范大学,教育学原理,2013,硕士.
[12]孙鹏.纸币图像特征提取与识别问题研究[D].辽宁科技大学,控制工程,2012,硕士.
[13]乐益.改性壳聚糖的制备及其应用[D].沈阳理工大学,环境工程,2012,硕士.
[14]刘立群.基于时间信息的舆情话题发现技术研究[D].哈尔滨工业大学,计算机科学与技术,2013,硕士.
[15]方秀娟.农村宅基地使用权流转研究[D].华中师范大学,农村与区域发展,2014,硕士.
[16]窦胜谭.波纹钢腹板连续刚构桥PBL剪力键试验与理论研究[D].西南交通大学,桥梁与隧道工程,2014,硕士.
[17]范茂春.针刺对抑郁大鼠模型行为及细胞因子水平变化的影响[D].广州中医药大学,针灸推拿学,2013,硕士.
[18]赵云杰.牛肌肉卫星细胞向胰腺细胞的诱导分化[D].内蒙古大学,动物学,2014,硕士.
[19]赖雅琴.抗战历史文化语境下的郭沫若与《新华日报》[D].西南大学,中国现当代文学,2013,硕士.
[20]陈婷.吡啶联哌啶类杂环衍生物激酶变构抑制剂的设计、合成及其抗癌活性的研究[D].吉林大学,药物化学,2013,硕士.
[21]曹琳.巨灾债券发展研究[D].广东外语外贸大学,世界经济,2013,硕士.
[22]张彩霞.赤铁矿/碳纳米管纳米复合材料吸附水溶液中Cu(Ⅱ)和Cr(Ⅵ)的研究[D].重庆大学,2013.
[23]周可.中国转基因大豆产业发展分析与政策支持研究[D].南京农业大学,行政管理,2012,硕士.
[24]徐清.国家高新区服务业发展研究[D].江南大学,国际贸易,2012,硕士.
[25]黄国四.“差动调速在连轧机上应用”鉴定会在呼市召开[J].冶金自动化,1981,04:65.
[26]林漓.国际儿童诱拐公约实施机制研究[D].湖南师范大学,国际法学,2013,硕士.
[27]常念欢.1,25(OH)_2D_3对NOD鼠的免疫干预作用的研究[D].山西医科大学,内分泌,2002,硕士.
[28]杨亮.H_2分子在LaFeO_3(110)表面吸附的第一性原理研究[D].兰州理工大学,凝聚态物理,2013,硕士.
[29]王华.生物能源的专利法问题研究[D].华中科技大学,法律,2013,硕士.
[30]张利楠.纳米铜粉在润滑油中的分散稳定性及润滑性能研究[D].兰州理工大学,材料学,2013,硕士.
[31]AyedaGubranAliAL-Hamdi.使用RFID系统和ASP.NET来提高学生出勤率以及学生在校安全[D].湖南大学,ComputerSciencesandTechnology,2011,硕士.
[32]郑东桂.气体挤压膜悬浮轴承的优化设计[D].南京航空航天大学,机械设计及理论,2014,硕士.
[33]杜欣.基于分形土壤模型的地源热泵地下换热特性分析[D].大连理工大学,热能工程,2013,硕士.
[34]李勣.幽门螺杆菌感染蒙古沙土鼠的实验研究及其活菌疫苗候选株的构建[D].山西医科大学,人体解剖学,2002,硕士.
[35]万苹.新疆技术进步对就业总量和就业结构的影响[D].新疆大学,技术经济及管理,2013,硕士.
[36]谷维娜.海南捕鸟蛛毒蛋白的分离纯化与性质鉴定[D].河北大学,植物学,2003,硕士.
[37]翟长连,吴智铭.基于不变集的一类混合系统的稳定性[J].控制与决策,2000,06:670-673.
[38]丁珂.内蒙古地方性中心城市旅游服务功能潜力评价[D].内蒙古师范大学,人文地理学,2012,硕士.
[39]蒋芸,李战怀,张强,刘扬.一种基于粗糙集构造决策树的新方法[J].计算机应用,2004,08:21-23.
[40]刘滨.基于STM32的指纹识别系统的研究[D].燕山大学,光学工程,2014,硕士.
[41]马生丽.城市构筑物对比邻绿地土壤呼吸的影响[D].西南大学,水土保持与荒漠化防治,2013,硕士.
[42]苗春凤.全球化时代人类实践的文化理念[D].苏州大学,马克思主义哲学,2003,硕士.
[43]张领杰.《联合国宪章》禁止使用武力原则研究[D].新疆大学,国际法学,2013,硕士.
[44]黄胜兰.AFP基因修饰的DC细胞的分泌的exosome抗肿瘤作用研究[D].福建医科大学,肿瘤学,2014,硕士.
[45]姬悦.我国创业板高管薪酬与企业成长性关系的实证研究[D].西北大学,企业管理,2014,硕士.
[46]张春娇.利用Pi25基因的功能型标记选育抗稻瘟病水稻及籼稻稀穗基因的定位[D].浙江大学,作物学,2013,硕士.
[47]周能辉.基于CAN总线的纯电动轿车动力总成控制器的开发研究[D].天津大学,动力机械及工程,2004,硕士.
[48]任浩.金属酞菁功能化的石墨烯杂化材料的制备与光限幅性能研究[D].长春理工大学,2014.
[49]傅生杰.AMF对植被混凝土植物生长和截污功能的强化作用[D].哈尔滨工业大学,环境工程,2013,硕士.
[50]张连军.长江汽渡船舶远程监控管理系统研究[D].江苏科技大学,控制工程,2014,硕士.
- 下一篇: 感戴团体辅导对大学生感戴及亲社会行为的影响研究
- 上一篇: 基于云服务的招生管理系统的设计与实现