基于语义分析的文档排序方法研究

基于语义分析的文档排序方法研究

作者:师大云端图书馆 时间:2024-07-22 分类:硕士论文 喜欢:2268
师大云端图书馆

【摘要】随着社会的快速发展,科学技术的不断进步,人们所能接触到的信息也成几何级的增长,这些信息的不断积累就形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为互联网信息时代所面临的机遇和挑战。本文分析了语义相关度计算和主题模型的国内外研究方法,发现在现有的研究中大都是简单的从统计学的角度来对查询语句和文档进行匹配而忽略了对文档语义知识的挖掘。因此,本文从这个方面对每篇文档的潜在语义进行深入挖掘,进而从文档的语义上来和查询语句进行匹配,使得检索到的结果更全面、更准确。在本文中,我们提出一种基于标签主题模型的文档排序方法。我们运用这个方法我们得到了三个很重要的矩阵:“文档—标签”概率分布矩阵、“标签—主题”概率分布矩阵和“主题—词”概率分布矩阵,获得了词对文档的语义贡献度,将词对文档的贡献度进行了量化分析,而不是简单的按照词频和反文档频率进行打分,并且标签主题模型有严密的数学推导证明,能从理论和实验上证明从标签和主题的角度研究信息检索技术的正确性。基于标签主题模型的文档排序方法充分考虑了文档的语义信息和词语歧义性等问题。本文提出了一种基于概念语义分析的文档排序方法,该方法首先利用标签主题模型对文档进行建模并经过矩阵运算得到“文档—词”矩阵,并将此矩阵按语义相关度进行映射得到词对文档贡献度。这个方法充分利用了查询语句和文档标签之间的关系,把查询语句和文档紧密的联系起来,一次映射使得与查询语句越相关的词在文档中的权重越大,而那些与查询语句不太相关的词将被过滤掉,从而提高文档排序的准确率。本文是在NTCIR-5中文信息检索语料上对本文提出的两个方法进行了相关的实验,并利用TREC评测工具对实验结果进行评测。实验结果表明,本文所提出的基于标签主题模型的文档排序方法和基于概念语义分析的文档排序方法能更好的提高检索排序的准确率,也间接地证明了本文从语义的角度研究信息检索方法的有效性。
【作者】陈水银;
【导师】张茂元;
【作者基本信息】华中师范大学,计算机应用技术,2014,硕士
【关键词】信息检索;标签主题模型;概念语义;语义相关度;语义贡献度;

【参考文献】
[1]谭贵龙.论职务侵占罪、贪污罪、盗窃罪之界定[D].西南政法大学,法律(专业学位),2012,硕士.
[2]刘平.GATS框架下保险业市场准入制度探析[D].湖南师范大学,国际法学,2004,硕士.
[3]俞家熙,雷永霞,彭亚辉,万齐,邹乔,孙翀鹏,何建勋.肺孤立性实性病变的MRI扩散成像与MSCT诊断价值的比较分析[J].中国CT和MRI杂志,2015,03:27-29+94.
[4]李海静.过程写作法对于高一学生英语写作能力影响的研究[D].首都师范大学,学科教学,2013,硕士.
[5]张欢,杨定明,戴亚堂.无机元素化学课程教学与大学生能力培养[J].大学化学,2012,06:34-36.
[6]徐卫林.大学生媒介素养教育研究[D].重庆交通大学,思想政治教育,2011,硕士.
[7]蔡明成.关于290/470筒式钢球磨煤机噪声治理的研究[D].华东理工大学,动力工程,2014,硕士.
[8]张敏,唐艳茹,丁鹏,赵仑.直接甲醇燃料电池阳极催化剂进展中粒径和载体的作用[J].长春师范学院学报,2013,10:60-66.
[9]陈陆平,席裕庚,张钟俊.大型Lyapunov方程的并行求解[J].自动化学报,1996,03:332-338.
[10]陈兵.银行网络视角下的系统性风险传染研究[D].复旦大学,金融学,2013,博士.
[11]史金玉.社会工作方法在亲职教育中的应用[D].苏州大学,社会工作(专业学位),2013,硕士.
[12]马强.独立焦化企业原料煤库存策略研究[D].首都经济贸易大学,企业管理,2014,硕士.
[13]沈晖,陈禹六.模糊神经网络分类器在企业建模知识管理中的应用[J].系统工程理论与实践,2003,11:1-7+118.
[14]王引娣.基于扩频技术的DORIS系统研究[D].西安电子科技大学,通信与信息系统,2012,硕士.
[15]江国才.提高农民满意度视角的农村政府管理审计研究[D].西南财经大学,会计学,2014,博士.
[16]林淑强.Mac OS X口令认证机制的安全性分析[D].厦门大学,集成电路,2014,硕士.
[17]徐永健,韦玮.介质pH缓冲系统选择及其对龙须菜生长的影响[J].植物生态学报,2006,04:689-694.
[18]姜海昆.屋面玻璃结构现场实测与温度效应分析[D].北京交通大学,2014.
[19]刘翔翔.三维Minkowski空间中具有类时母线的类时直纹面[D].大连理工大学,基础数学,2013,硕士.
[20]杨静波,范永强.长导线对变频器控制电机的影响及解决办法[J].冶金自动化,2003,S1:118-120.
[21]胡瑞静.儿童医疗服务机构顾客感知价值评价体系研究[D].南京财经大学,企业管理,2012,硕士.
[22]张欣.管理者过度自信对企业融资结构的影响研究[D].湖北工业大学,会计学,2014,硕士.
[23]周琳.连铸-热轧集成生产库存优化模型[J].冶金自动化,2007,05:5-9+13.
[24]杨刚,沈飞,钟贵江,谢丽苹,王应军,伍钧.西南山地铅锌矿区耕地土壤和谷类产品重金属含量及健康风险评价[J].环境科学学报,2011,09:2014-2021.
[25]朱琳玲.基于扩展概念格的多数据库知识提取研究[D].合肥工业大学,2003.
[26]王宽.大型发电厂引风机驱动方式改造的技术经济研究[D].浙江大学,动力工程(专业学位),2013,硕士.
[27]吴士文.茶园和竹园土壤酸化与结构稳定性研究[D].浙江大学,农业资源利用,2012,硕士.
[28]李鵬輝.《戰國策·楚策》地名新證[D].安徽大学,漢語言文字學,2013,硕士.
[29]张永利.液压集成块智能优化设计系统——模型数据库与系统集成[D].大连理工大学,机械电子工程,2004,硕士.
[30]尹太磊.高功率脉冲磁控溅射技术制备钛及氧化钛薄膜研究[D].西南交通大学,材料科学与工程,2013,硕士.
[31]刘志刚.消费者视角的企业声誉定量评价模型研究[D].浙江大学,2006.
[32]D.黎斯涛,D.丘锡克,刘颂威.连续振动系统反褶积[J].石油地球物理勘探,1977,01:36-48.
[33]张菡.中国环境规制绿色技术创新效应的研究[D].山东财经大学,政治经济学,2014,硕士.
[34]赵翠霞.基于DEA方法的我国汽车制造业全要素生产率分析[D].华南理工大学,产业经济学,2014,硕士.
[35]姜爱林.中国城镇化绩效及当前存在的主要问题分析[J].现代城市研究.2002(04)
[36]李寿桥.C市新型农村社会养老保险调查研究[D].兰州大学,公共管理(专业学位),2013,硕士.
[37]林云.基于iOS的房产信息系统设计与实现[D].北京交通大学,软件工程(专业学位),2013,硕士.
[38]张辉玲.230-400铸钢的成分优化研究[D].哈尔滨理工大学,材料加工工程,2012,硕士.
[39]田立康.文本分类在电子取证领域的应用研究[D].北京化工大学,计算机应用技术,2013,硕士.
[40]徐晓明.二氧化碳参与的卤代苯乙酮的电化学羧化研究[D].华东师范大学,物理化学,2013,硕士.
[41]万亿.基于维基百科的概念图建模及其应用研究[D].华中师范大学,计算机应用技术,2014,硕士.
[42]翟英,彭静,刘冬青.序列模式在入侵检测中的应用[J].河北经贸大学学报(综合版),2004,03:85-87.
[43]任艳玲.中国南方4省区圆盘菌科分类研究[D].广西大学,植物病理学,2014,博士.
[44]陆昕.聚合物基高介电材料的三相复合和改性研究[D].宁波大学,凝聚态物理,2014,硕士.
[45]王积军.我国小麦国际竞争力及发展对策研究[D].中国农业大学,农业经济管理,2004,硕士.
[46]曲亚辉.呼伦贝尔市牧业四旗中学政治教师信息素养调查研究[D].内蒙古师范大学,学科教学(专业学位),2012,硕士.
[47]祁万春,奚巍民,张谦,王晓晖.应用500kV高阻抗主变压器提高220kV片区供电能力[J].电力系统自动化,2008,14:96-98.
[48]范海涛.兔骨髓间充质干细胞的生物学特性及用于大段骨缺损修复的实验研究[D].中国人民解放军军事医学科学院,内科学,2003,硕士.
[49]赵雯娟.非政府环保组织的基本法律问题[D].中国社会科学院研究生院,法律,2014,硕士.
[50]王君.中学英语教学中文化融入的思考[D].西南师范大学,2002.

相关推荐
更多