基于特征抽取和转换方法的全文检索研究

基于特征抽取和转换方法的全文检索研究

作者:师大云端图书馆 时间:2024-07-22 分类:硕士论文 喜欢:2036
师大云端图书馆

【摘要】在信息检索技术随着互联网的迅猛发展而日趋成熟的同时,搜索引擎也已经成为人们日常生活中越来越不可缺少的重要工具和手段。传统的信息检索是在基于关键词匹配的基础上,机械地匹配仅仅包含有指定关键词的文档来获得相关文档,这种方式常常会带来语义理解上的错误,越来越不能满足现状用户的需求和科学研究的需要,于是语义分析和挖掘显现了在检索中的重要性。由于汉语语言的二义性和相关性,在一定程度上造成了不确定性和模糊性,潜在语义分析的方法被广泛用于信息检索领域,它的核心是针对词语和文档进行分析,建立一个矩阵,并作加权转换,用于计算的加权函数又直接影响潜在语义分析的结果。这样建立起的词与词之间的语义关系矩阵,在很大程度上消除了由于词语语义的多样性和随意性导致的对检索结果产生的偏差。然而这种方法依然忽略了语言的模糊性和不确定性,所以将云模型理论引入到信息检索研究中,挖掘出一些潜在的语义信息。LDA模型,被用于挖掘潜在的主题结构,这些主题上分布的词是在语义上相关的。但是主题在语义上具有不确定性。本文在LDA模型的基础上引进云模型理论,利用云模型均值和方差的关系,在抽样时标注了某个主题,就为主题添加主题关系调节因子,建立一个新的特征选择系统。于是新的方法能够抽取出文本的特征集,特征集对于文本具有高的贡献度。新获得的特征集有更少但能最大程度上表示文本的词语。特征词语有不同表示形式的语义信息,两种语义空间下的信息不能直接融合。本文提出了一种特征转换机制,在云空间上对两种语义信息进行转换使其具有一致性,再在一致空间上进行融合,并对标签主题模型进行抽样选择,实现两种语义信息的融合,然后进行查询扩展,运用到检索中,提高检索效果。
【作者】贺凡黎;
【导师】张茂元;
【作者基本信息】华中师范大学,计算机应用技术,2014,硕士
【关键词】信息检索;主题模型;云模型;特征项;概念标签;相关度;

【参考文献】
[1]陆文娟.英语专业大学生写作自我效能感研究[D].扬州大学,课程与教学论,2012,硕士.
[2]李勇,陈明,张建跃.基于二阶统计量的盲提取算法[J].石油地球物理勘探,2011,02:272-274+161.
[3]赵坚.坚持底线思维破解发展大都市区的体制障碍[J].北京交通大学学报(社会科学版),2015,01:7-15.
[4]张小明.我国人格权商品化保护的法律研究[D].河北大学,法律,2014,硕士.
[5]林芯羽.基于多尺度的动态优化策略研究[D].浙江大学,控制科学与工程,2014,硕士.
[6]陈秋月.蒸汽驱模拟装置改造及注化学剂调驱实验研究[D].东北石油大学,油气田开发工程,2013,硕士.
[7]梁莉,林正怀,陈狮,王加贤.石墨烯实现Nd:YVO_4激光器1064nm和1342nm双波长被动调Q[J].中国激光,2014,04:53-56.
[8]李洁.乌鲁木齐地区省市两级交通广播发展现状及路径研究[D].新疆大学,新闻与传播,2013,硕士.
[9]杨宇.面向可穿戴计算机音频的环境感知系统的研究[D].哈尔滨工业大学,计算机科学与技术,2014,硕士.
[10]徐志发.经营分析系统在电信业应用中若干问题的分析[J].电信科学,2005,01:43-47.
[11]李新华.中学生物理的科学阅读能力培养研究[D].江西师范大学,2005.
[12]陈晴空.基于SO_4·~-的非均相类Fenton-光催化协同氧化体系研究[D].重庆大学,2014.
[13]陈娟玲.唐前弃妇诗研究[D].安庆师范学院,中国古代文学,2013,硕士.
[14]陈兰.贵州省高速公路机电设施管理系统的分析与设计[D].云南大学,软件工程,2012,硕士.
[15]赵乙桥.论司法裁决的不确定性[D].中国政法大学,法学理论,2013,硕士.
[16]王岳.北京市文化创意产业知识产权保护研究[D].北京服装学院,服装设计与工程,2012,硕士.
[17]时秋峰.Pr~(3+)和Tb~(3+)的4f~(n-1)5d组态到Gd~(3+)的4f~7组态的能量传递以及基质敏化的研究[D].北京交通大学,光学,2014,博士.
[18]莫露骅.废旧电子产品回收再制造闭环供应链收入费用共享契约研究[D].华东交通大学,管理科学与工程,2013,硕士.
[19]李慧,张庆范,段培永,汪明.一种基于聚类的超闭球模糊神经网络[J].控制与决策,2011,12:1803-1807.
[20]李小姗.碳负载锡钴合金锂电负极材料的制备与表征[D].陕西师范大学,2014.
[21]吴念鲁,杨海平,陈颖.论人民币可兑换与国际化[J].国际金融研究,2009,11:4-12.
[22]張靜.定州漢墓竹簡和上孫家寨漢墓木簡集釋[D].吉林大学,歷史文獻學,2014,硕士.
[23]任彩勤.太岳山森林植被道路边际效应研究[D].山西师范大学,生态学,2014,硕士.
[24]何晓琴.简析影响学生心理健康的因素及应对措施[J].电子制作,2015,03:187.
[25]王力耕,袁庭,李远,施炜,倪哲明.硫代硫酸根插层水滑石的层间限域反应[J].物理化学学报,2012,02:273-282.
[26]王红梅.中国移动通信集团发展战略目标与“十五”发展战略[J].交通运输系统工程与信息.2001(02)
[27]徐文胜.中国饭店业集团化发展状况分析及战略研究[D].中南林学院,森林经理学,2003,硕士.
[28]本报记者李向林.让电子商务迈前一步[N].中国计算机报,2001-04-09E05.
[29]李凌锋.赫索格的主体重建[D].四川外国语大学,英语语言文学,2014,硕士.
[30]李尚萍.用人文主义方法对待外语学习中的焦虑[D].吉林大学,英语语言文学,2004,硕士.
[31]宋欣.面向用户的流媒体迁移系统设计与实现[D].北京交通大学,通信与信息系统,2013,硕士.
[32]王宏宇.萨北开发区东南块精细油藏描述及提高聚驱效率研究[D].吉林大学,地质工程,2012,硕士.
[33]张和生,张毅,胡东成.路段平均行程时间估计方法[J].交通运输工程学报,2008,01:89-96.
[34]汲拓.HS铁路多经物流企业信息技术应用的研究[D].西南交通大学,物流工程,2012,硕士.
[35]周莉莉.我国上市商业银行竞争力分析[D].浙江工业大学,2012.
[36]曾腾缠,王公仆,盛琦贤,李仕毅.基于红外感知与无线应答的非接触式门禁系统设计[J].微型机与应用,2014,19:34-37.
[37]胡莹.中国先天性眼球震颤家系与FRMD7基因相关性研究[D].哈尔滨医科大学,眼科学,2012,硕士.
[38]周鹏飞.我国老年公寓发展问题研究[D].财政部财政科学研究所,财政学,2014,博士.
[39]郭宝军.基于员工满意度调查的LDS公司人力资源激励策略研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[40]陈铁.基于FPGA的无线光音频传输系统的设计与实现[D].北方工业大学,信号与信息处理,2014,硕士.
[41]陆晓培.合金元素和热处理对Cu-Ag-Cr合金显微组织与性能的影响[D].浙江大学,材料科学与工程,2014,硕士.
[42]刘鹏程.丙烯酰胺类单体的可控自由基聚合研究[D].北京化工大学,材料科学与工程,2013,硕士.
[43]徐毅辉.官能化多壁碳纳米管改性聚合物基复合材料的设计与制备[D].北京化工大学,材料科学与工程,2013,硕士.
[44]王珮蓓.创新比较优势:我国纺织贸易战略研究[D].苏州大学,纺织工程,2003,硕士.
[45]张峰.脑肿瘤多模态医学图像可视化研究及系统实现[D].浙江大学,生物医学工程,2004,硕士.
[46]丁春生,徐洋洋,陈姗,曾海明.电絮凝法处理铬黑T染料废水的研究[J].印染助剂,2013,06:39-42.
[47]钱晓华.基于RFID系统的信息安全技术研究[D].南京邮电大学,电路与系统,2013,硕士.
[48]姚玉玺.基于遗传算法的校园空调节能方法研究[D].杭州电子科技大学,计算机系统结构,2014,硕士.
[49]孙立.太平洋寿险宁夏分公司员工培训调查研究[D].宁夏大学,工商管理(专业学位),2013,硕士.
[50]郭宁宁.苏州市沧浪区初中课外体育活动开展现状的研究[D].苏州大学,体育教育训练学,2012,硕士.

相关推荐
更多