基于词项依赖信息的中文信息检索方法研究

基于词项依赖信息的中文信息检索方法研究

作者:师大云端图书馆 时间:2025-03-27 分类:硕士论文 喜欢:487
师大云端图书馆

【摘要】随着我国智能手机的普及,移动互联网使用人数的增加,促使了移动互联网的飞速发展,网络中存储的各种数据呈指数级增长。如何利用信息检索技术快捷有效地从这些海量的数据中获取有用的信息,是工业界和学术界都极其关注的问题。传统的信息检索技术大多基于“词袋”模型,假设词项之间是相互独立的,而忽略了词项之间的依赖关系。本文利用统计方法捕获词项之间的依赖关系,构建更有效的中文信息检索模型。主要的工作包括以下几个方面:第一,从统计的角度,本文提出了全独立、顺序依赖以及全依赖三种词项之间的依赖关系,基于这三种依赖关系分别构建了检索的文本特征,设计了排序函数。考虑到文本长度以及中文语句的特殊性,在构建文本特征时,将词项之间的距离纳入统计范围。我们在NTCIR-5中文信息检索测试集上进行了实验。实验分为两部分,第一部分实验分别基于三种依赖关系构造文本特征,在基于顺序依赖和全依赖关系构造文本特征时,只组合两个词项。第二部分实验在基于顺序依赖和全依赖关系构造文本特征时,查询文本范围内组合多个词项构建文本特征,并与第一部分的实验数据做了比较。在平均准确率(MAP)和P@10两种评测指标上做了比较,基于顺序依赖关系和全依赖关系构建的文本特征所得到的检索结果都优于基于全独立关系的文本特征的检索结果,而且在构建文本特征时,多于两个词项组合的文本特征的检索结果要优于只组合两个词项的文本特征的检索结果。第二,实现了一个基于词项依赖信息的中文全文信息检索系统。该系统主要包含三个模块:文档解析模块、索引模块、以及用户交互模块。文档解析模块将新闻语料解析成多个域,便于后面索引的创建以及检索结果的展示。索引模块实现了文本的预处理,索引创建以及索引维护。用户交互模块实现了用户查询输入的文本处理,整合了基于词项依赖关系的排序方法,实现了结果展示。
【作者】尹浩传;
【导师】涂新辉;胡小华;
【作者基本信息】华中师范大学,计算机应用技术,2014,硕士
【关键词】词项依赖;信息检索;全独立;顺序依赖;全依赖;

【参考文献】
[1]张洪祯.基于时间序列分析掘进工作面突出预测指标预测研究[D].辽宁工程技术大学,采矿工程,2012,硕士.
[2]杨晓娇.不同形态的碳在锂硫电池正极材料中的应用[D].山西师范大学,化学,2013,硕士.
[3]谢志茹.北京城市公园湿地生态环境质量评价[D].首都师范大学,自然地理学,2004,硕士.
[4]王磊,邹北骥,彭小宁.针对表情动作单元跟踪的隧道隐变量法[J].自动化学报,2009,02:198-201.
[5]李雪.小学教师教学胜任力模型探究[D].渤海大学,课程与教学论,2014,硕士.
[6]吴曦.出版业人才激励机制的建立与改进[D].西南交通大学,工商管理(专业学位),2013,硕士.
[7]夏敬英.住宅小区的交通组织及其人性化设计[D].湖南大学,建筑学,2011,硕士.
[8]杨淼,邢书明,鲍培伟.轧辊挤压铸造关键工艺参数的研究[J].特种铸造及有色合金,2014,08:820-823.
[9]茅宇凡.“唯识”理论中的“名言”问题初探[D].复旦大学,宗教学,2012,硕士.
[10]曹品金.基于响应面法的锻造预成形优化设计方法研究[D].山东大学,材料加工工程,2013,硕士.
[11]李景霞.RFID二进制树防碰撞算法研究与设计[D].广东工业大学,计算机应用技术,2013,硕士.
[12]陈波.离心式污水泵内部流动的三维数值模拟[D].南京理工大学,机械工程,2012,硕士.
[13]王秀玲.从“二程语录”词汇研究看《汉语大词典》的疏漏与不足[D].华南师范大学,汉语言文字学,2004,硕士.
[14]王爱丽,董宝田,王泽胜,尹彪.融合光流速度场与背景差分的自适应背景更新方法[J].中国铁道科学,2014,06:131-137.
[15]郑翰.我国发现仅携带slt2vha大肠杆菌O157:H7菌株[D].山西医科大学,免疫学,2002,硕士.
[16]周景茹.三足多齿胺类配体的合成及其对金属离子识别的研究[D].厦门大学,分析化学,2014,硕士.
[17]崔珊珊.我国商事仲裁组庭前调解研究[D].贵州民族大学,诉讼法学,2013,硕士.
[18]李晓亮,王洪,郑征,林露湘,邓晓保,曹敏.西双版纳热带森林树种幼苗的组成、空间分布和旱季存活[J].植物生态学报,2009,04:658-671.
[19]王琳娟.视频分享网站侵犯版权问题研究[D].西南政法大学,知识产权法学(专业学位),2012,硕士.
[20]蔡梦颖.集群企业多层网络对竞争优势的影响研究[D].杭州电子科技大学,企业管理,2013,硕士.
[21]张万友,李瑶,郗丽娟.类水滑石复合材料在工业废水处理中的应用研究进展[J].硅酸盐通报,2014,09:2249-2253.
[22]赖元超.金融消费者知情权立法保护研究[D].西南交通大学,经济法学,2013,硕士.
[23]王中一.基于熵理论的中小企业成长性研究[D].青岛科技大学,企业管理,2012,硕士.
[24]王婷.共刺激分子ICOS/ICOSL在类风湿性关节炎患者外周血淋巴细胞的表达及临床意义[D].苏州大学,免疫学,2013,硕士.
[25]张龙华.等离子熔敷MoSi_2+TiC增强耐磨抗高温氧化复合材料涂层组织及性能研究[D].北京交通大学,2015.
[26]吴峰,陈后金,姚畅,郝晓莉.基于网格搜索的PCA-SVM道路交通标志识别[J].铁道学报,2014,11:60-64.
[27]封军鸿.基于水资源的宝鸡水利产业多元化发展研究[D].西安理工大学,工商管理,2003,硕士.
[28]武姗.美国城市教师驻校模式研究[D].河北师范大学,教育学原理,2012,硕士.
[29]张帅.P、Ce变质对Al-Si-Zn钎料组织和性能影响的研究[D].南京航空航天大学,材料学,2013,硕士.
[30]侯晓冲.话题检测与跟踪算法改进研究[D].华中科技大学,计算机应用技术,2013,硕士.
[31]陈晨.非视距环境下超宽带定位技术研究[D].国防科学技术大学,信息与通信工程,2012,硕士.
[32]马滇珍,张象明.我国地表水资源近期变化态势[J].水利规划设计.2002(02)
[33]黄文良,刘勇,钟志强,沈仲明.基于复杂网络的垃圾短信过滤算法[J].自动化学报,2009,07:990-996.
[34]潘泉,于昕,程咏梅,张洪才.信息融合理论的基本方法与进展[J].自动化学报,2003,04:599-615.
[35]饶文骞.《四十朵玫瑰》中的家庭与身份[D].四川外国语大学,德语语言文学,2014,硕士.
[36]尉敏.太阳辐射全光谱模拟人工光源的实验研究[D].西安建筑科技大学,供热、通风与空调工程,2004,硕士.
[37]洪顺利.多载波调制系统中的盲信道参量估计研究[D].宁波大学,通信与信息系统,2013,硕士.
[38]张智勇.基于伪名的车载自组网(VANET)恶意节点检测机制研究[D].复旦大学,计算机应用技术,2012,硕士.
[39]林萌.基于平衡记分卡的教育游戏评价指标体系的构建[D].云南师范大学,教育技术学,2013,硕士.
[40]周康.商标许可增值利益分配制度研究[D].华中师范大学,民商法学,2014,硕士.
[41]卢晓波,张广宇.石墨烯莫尔超晶格[J].物理学报,2015,07:55-67.
[42]严朝宁.基于优化的质量屋的产品设计模型[J].电子测试,2014,S2:149-151.
[43]任明明.联合应用IGF-1与b FGF对大鼠坐骨神经再生的实验研究[D].郑州大学,外科学,2013,硕士.
[44]王艳霞.图像轮廓提取与三维重建关键技术研究[D].重庆大学,2010.
[45]蔡永丽.非线性种群系统动力学研究[D].温州大学,应用数学,2012,硕士.
[46]朱兆欣.共振泵浦石墨烯被动调Q Er:YAG陶瓷激光器的研究[D].江苏师范大学,光学,2013,硕士.
[47]黄文.私营企业发展问题及对策[D].华东师范大学,马克思主义理论与思想政治教育,2003,硕士.
[48]张良.贪污罪共同犯罪问题研究[D].中国政法大学,法律(专业学位),2014,硕士.
[49]阮黄宝珍.越南平阳省工业区劳动者居住问题研究[D].东北师范大学,社会保障,2012,硕士.
[50]朱文彪,孙增圻,陈伟基.基于过程输入输出变化关系的模糊建模方法[J].控制与决策,2001,03:273-276.

相关推荐
更多