面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现

面向垂直搜索引擎的聚焦网络爬虫关键技术研究与实现

作者:师大云端图书馆 时间:2024-07-21 分类:硕士论文 喜欢:2957
师大云端图书馆

【摘要】随着Internet的飞速发展,信息资源的规模已变得极其庞大。在海量的网络信息资源中,快速、精确地找到用户所需的信息变得日益困难。此时,搜索引擎应运而生。搜索引擎为用户查找信息提供了极大地便利,故而被人们广泛使用。网络爬虫是搜索引擎的核心模块,负责采集网络上的各种网页。网络爬虫的爬行策略和性能极大地影响了搜索引擎的服务质量,因此,网络爬虫值得研究与改良。由于庞大的网络规模和及时响应需求,通用搜索引擎提供的检索结果往往充斥着许多无关数据,无法令用户满意。垂直搜索引擎,是为提供更细致精准的搜索服务而发展的新一代搜索引擎。本文的研究对象是垂直搜索引擎中的聚焦网络爬虫。聚焦爬虫专注于特定领域的信息采集,它的资源采集效率较高。聚焦爬虫为爬虫领域的发展提供了新的思路,具有较高的研究、实用价值。本文首先概述了搜索引擎的发展状况和网络爬虫的研究现状,阐述了搜索引擎的基本原理及工作流程,然后深入探讨了聚焦爬虫系统所涉及的各项关键技术。最后基于上述理论给出了一个聚焦爬虫系统的工程化实现。本文在聚焦爬虫系统的爬行策略上,借鉴Fish-Search算法与Shark-Search算法的算法流程,在其基础上动态地调节主题相关度的闽值,以避免主题网页团之间的隧道问题。同时本文借用了成熟的文本分析方法,即向量空间模型中的TF-IDF算法,通过改进的方法来计算网页的主题相关度与URL链接的主题相关度。在网页的正文内容提取方面,利用网页的标签树结构,通过计算文字/标签密度来提取网页正文。实验表明,与以传统方法实现的聚焦爬虫系统相比,本文实现的聚焦爬虫系统虽然在爬行的准确率上略有下降,但其能获得更高的主题资源发现率,在两者之间取得一个较好的平衡。
【作者】陈欢;
【导师】杨新宇;
【作者基本信息】华中师范大学,计算机技术,2014,硕士
【关键词】垂直搜索引擎;聚焦爬虫;主题相关度;爬行策略;提取正文;

【参考文献】
[1]何丽,韩文秀.一种基于后缀树的Web访问模式挖掘算法[J].计算机应用,2004,11:68-70.
[2]刘伊生,任世杰,陈雪儿.建筑市场诚信体系建设现状调查研究[J].建筑经济,2014,07:5-9.
[3]秦滨,杨艳梅,韩志刚.一类带有输入扰动的非线性系统的参数估计[J].自动化学报,1997,06:50-56.
[4]王廉,付东海,谷飞.基于数字生活网络联盟的跨局域网共享媒体方案的设计[J].计算机应用,2014,S1:31-34.
[5]庄敏捷.预应力混凝土曲线梁结构分析及病害防治[D].北京交通大学,2014.
[6]张子义.离心铸造高速钢轧辊制造技术研究[D].西安建筑科技大学,2005.
[7]祁伟乐.针对酿酒厌氧出水的好氧颗粒污泥研究及其数学模拟[D].安徽建筑大学,市政工程,2013,硕士.
[8]宋文佳.高速公路拓宽路基差异沉降特性与控制措施研究[D].长安大学,岩土工程,2013,硕士.
[9]桂冰.大连市服装产业发展战略[D].大连理工大学,工商管理,2004,硕士.
[10]孙晶路.老字号品牌价值评估研究[D].东华大学,技术经济及管理,2013,硕士.
[11]欧阳锐.官能化碳纳米管改性氰酸酯树脂的研究[D].北京化工大学,2009.
[12]翟雅楠.新劳动法的实施、企业内部收入分配与企业绩效关系的研究[D].浙江工商大学,金融(专业学位),2014,硕士.
[13]孔真真.基于视觉感知的立体图像质量评价方法研究[D].宁波大学,电路与系统,2014,硕士.
[14]刘奉滨.三价砷对SBR活性污泥系统性能的影响以及三价砷氧化菌的筛选研究[D].郑州大学,环境科学,2013,硕士.
[15]胡笑蕾,胡华平,宋世杰.数据挖掘算法在入侵检测系统中的应用[J].计算机应用研究,2004,07:88-90.
[16]张娜.论审级威慑下的法官裁判[D].苏州大学,法学理论,2013,硕士.
[17]王鑫.新疆罗布泊地区古湖水成分反演[D].中国地质大学(北京),古生物学与地层学,2013,硕士.
[18]吕梁.白光LED用磷酸铝钙稀土荧光材料的制备及发光特性[D].河北大学,微电子学与固体电子学,2014,硕士.
[19]李靖.基于认知发展的婴幼儿书籍设计研究[D].中国矿业大学,设计艺术学,2014,硕士.
[20]刘玉定.基于身份的陷门水银承诺的研究[D].西安电子科技大学,信息安全,2012,硕士.
[21]刘贵,孙一康.复合恒张力控制系统在高精度可逆冷轧机上的应用[J].冶金自动化,1991,06:20-22+50-60.
[22]张艳丽.P120及NF-κB在脂多糖致小鼠急性肺损伤气道上皮中的表达变化及相关机制[D].华中科技大学,病理学与病理生理学,2012,硕士.
[23]田原,谭铁牛,孙洪赞.一种具有良好鲁棒性的实时跟踪方法[J].自动化学报,2002,05:851-853.
[24]王本业.朱明镐《史纠》考据史学探微[D].云南师范大学,中国古代史,2013,硕士.
[25]王沛.无线光通信中LDPC码差错控制的研究和实现[D].西南交通大学,光学工程,2013,硕士.
[26]刘丽.基于快时尚理念的服装商品企划研究[D].东华大学,纺织工程(专业学位),2014,硕士.
[27]唐立新,杨自厚,王梦光,徐建有.钢铁企业生产管理与生产工艺特点分析[J].冶金自动化,1996,01:25-29.
[28]杨滨瑞,申萍,丁国君.地铁车辆火灾自动灭火系统的设计[J].电气应用,2014,10:41-44.
[29]李大伟.复杂背景红外弱小目标检测[D].哈尔滨工业大学,控制科学与工程,2013,硕士.
[30]侯文国,傅秀芬,谢翠萍.网格的数据挖掘[J].计算机应用研究,2004,10:241-243.
[31]李建波.有限元可视化算法的研究与程序开发[D].大连理工大学,防灾减灾工程及防护工程,2003,硕士.
[32]宁凯.基于SAR影像反演山区森林郁闭度的方法研究[D].西南交通大学,摄影测量与遥感,2014,硕士.
[33]邢小胖.12-14世纪欧洲大学自治探源[D].华东师范大学,世界史,2013,硕士.
[34]李凌杰.云南中甸浪灯玄武岩特征及成因探讨[D].成都理工大学,矿物学、岩石学、矿床学,2013,硕士.
[35]汪燕,罗水忠,蔡静,赵妍嫣,钟昔阳,姜绍通,郑志*.响应面法优化茂源链霉菌产谷氨酰胺转氨酶发酵条件[J].食品工业科技.
[36]潘珺.T市邮政速递物流公司基层员工绩效管理体系设计[D].山东大学,工商管理(专业学位),2013,硕士.
[37]黄芽萌.游戏教学法在泰国小学汉语词汇教学中的应用研究[D].广西师范大学,汉语国际教育,2014,硕士.
[38]任健,梅诗宇,李健辉,章渊昶,祝铃钰,姚克俭.一步法蒸发冷凝水脱单塔设计优化研究[J].现代化工,2013,03:94-96.
[39]朱宇.纯电动汽车车内声品质分析评价研究[D].吉林大学,测试计量技术及仪器,2013,硕士.
[40]李晓霞.云南茶叶产业发展战略研究[D].中国农业大学,食品科学与工程,2004,硕士.
[41]王松.基于无线传感网络的车载危险品状态监测系统研究与实现[D].长安大学,计算机应用技术,2013,硕士.
[42]利莉.刑罚个别化视野下的量刑规范化问题研究[D].湖南师范大学,刑法学,2014,硕士.
[43]郭艳蕊.当代大学生寝室文化内容与影响因素的研究[D].安徽大学,社会学,2014,硕士.
[44]肖亮.一种针对ROP攻击的函数粒度随机化防御方法的设计与实现[D].南京大学,计算机科学与技术,2013,硕士.
[45]唐鹏.电动汽车制动能量回收的分析与研究[D].合肥工业大学,2007.
[46]耿丽莎.郑州市城市综合体开发模式研究[D].郑州大学,土地资源管理,2013,硕士.
[47]韩友川.基于ARM的多通道数据采集技术的研究与开发[D].北方工业大学,计算机技术,2013,硕士.
[48]王一.英买2油藏缝洞单元划分及其合理开发政策界限研究[D].成都理工大学,油气田开发工程,2013,硕士.
[49]唐志成.我国短期融资券二级市场定价研究[D].华东师范大学,金融学,2012,硕士.
[50]沈静静.常州丘陵山区维管植物多样性、主要森林群落及其资源研究[D].南京农业大学,植物学,2013,硕士.

相关推荐
更多