基于小型搜索引擎的中文问答系统的设计与实现
【摘要】如今在互联网上获得各种信息已经是一件与生活息息相关的事情,然而用户经常会用到的传统搜索引擎有很多缺点,例如搜索引擎的基于关键字查询,并不能够很好地表明用户的查询意图,而且返回的查询结果是一大堆相关网页,包含很多无用的信息,用户很难快速、准确地找到自己所需要的信息。问答系统正是为了克服搜索引擎这些缺点而产生,它允许用户使用自然语言的形式进行提问,返回给用户的结果是简短、精确的答案,而不是大量相关的网页,所以问答系统的研究具有很大的实际意义。但是由于中文文字的特殊性和复杂性,中文信息处理技术有较大的难度,所以中文问答系统较国外来说还不够成熟,因此有必要对其进行深入的研究。本文主要致力于一个简单问答系统的完整功能的设计与实现。问答系统包括三个部分:问题分析、信息检索和答案抽取。虽然搜索引擎有其不足之处,但是搜索引擎的搜集文档功能是问答系统的关键技术。目前,有很多成熟大型的搜索引擎,例如谷歌、百度和有道等等,但是本文对搜索引擎的结构体系和实现方法进行了研究,在自己的实验环境下搭建了一个小型搜索引擎,“小型”不是指功能上的省略,而主要是指网页收集规模和存储空间的使用两个方面。搜索引擎的设计包括了三个子系统的详细设计:搜集子系统、索引建立子系统和检索子系统。其中包含的关键技术和算法:并行抓取技术、启发式搜集策略、镜像消除技术、高效率索引技术、相关度评价策略等等。在着力于信息检索模块的搜索引擎设计之外,本文对如何从信息检索得到的相关网页和文档中抽取出答案做了研究,即答案抽取模块。它是问答系统最为核心的模块之一,它的抽取方法好坏直接影响着问答系统性能的优劣。这里采取了一种基于语义依存树的相似度计算方法,结合句子的语义和句法结构来计算问句和候选答案句之间的相似度,通过比较相似度的高低来筛选出答案返回给用户。本文的实验采用TREC评测标准,实验中事实型问题的答案抽取平均MRR值为0.6915,定义型问题答案抽取MRR平均值为0.6524。实验表明,该基于小型搜索引擎的问答系统可以正常工作,并且该答案抽取方法有较高的MRR值,具有较高的答案抽取的准确度。
【作者】殷国辉;
【导师】魏达;吴静;
【作者基本信息】吉林大学,软件工程,2014,硕士
【关键词】问答系统;自然语言处理;搜索引擎;答案抽取;相似度计算;
【参考文献】
[1]刘耀宗.基于数据仓库的物流信息系统[D].南京理工大学,2004.
[2]郑燕升,青勇权,胡传波,何易,莫倩.仿生超疏水表面制备及其应用的研究进展[J].化工新型材料,2013,10:178-180+189.
[3]陈尉.中国金融发展与经济增长:分析和观点[D].首都经济贸易大学,政治经济学,2004,硕士.
[4]云晖.挤压机柱塞埋弧堆焊耐磨药芯焊丝的研制[D].太原科技大学,材料加工工程,2013,硕士.
[5]刘晓明.血压昼夜节律及心率对原发性高血压患者靶器官损害的预测作用[D].大连医科大学,内科学,2012,硕士.
[6]曾献辉.当代大学生对社会主义核心价值体系认同度的研究[D].江西农业大学,思想政治教育,2012,硕士.
[7]王军,苏剑波,席裕庚.多传感器融合综述[J].数据采集与处理,2004,01:72-77.
[8]房辉.护理本科生创造力倾向水平及其与心理特质关系的研究[D].山东大学,护理学,2013,硕士.
[9]李朝辉.基于构件复用技术的组态模型及平台研究[D].大连理工大学,2005.
[10]王真.PA数科客服中心服务质量提升研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[11]丁立,乔颖,鲁宗相,闵勇,白恺.高比例风电对电力系统调频指标影响的定量分析[J].电力系统自动化,2014,14:1-8.
[12]李冠.基于嵌入式Linux和GPRS的远程心电监护终端的设计[D].天津医科大学,生物医学工程,2009,硕士.
[13]罗仲伟.中国国有企业改革:方法论和策略[J].中国工业经济,2009,01:5-17.
[14]庞志远.卡扎菲泛阿拉伯主义外交政策研究[D].西北大学,国际关系,2013,硕士.
[15]杜利安.论新形势下私营中小企业和谐劳动关系的构建与完善[D].首都经济贸易大学,工商管理(专业学位),2013,硕士.
[16]徐驰.基于电磁波的液位测量信号处理及实现方法研究[D].沈阳航空航天大学,信号与信息处理,2013,硕士.
[17]吴芝路,张士金.浅谈移动通信CRM系统建设[J].信息技术,2003,04:74-77.
[18]闻辰辰.我国M服装公司供应链管理策略研究[D].苏州大学,工商管理(专业学位),2014,硕士.
[19]包福山.高中物理蒙语网络课程资源的开发与利用研究[D].内蒙古师范大学,教育技术学,2013,硕士.
[20]王寿福.ER、PR、Her-2和Ki-67与局部晚期乳腺癌新辅助化疗的相关性分析[D].福建医科大学,外科学,2014,硕士.
[21]王晓宁.目的论视角下的新闻英语翻译[D].湖南师范大学,翻译(专业学位),2014,硕士.
[22]李长波.平行不对中联轴器—转子系统非线性动力学分析[D].哈尔滨工业大学,一般力学与力学基础,2013,硕士.
[23]曹立伟.时域MIMO信道测量平台设计与通信模块实现[D].哈尔滨工业大学,信息与通信工程,2013,硕士.
[24]叶飞跃,王建东,庄毅,陈慧萍,张有东.基于超结构的分布式系统的关联规则挖掘算法[J].小型微型计算机系统,2004,12:2143-2147.
[25]郑立.基于接入概率的小区重选算法设计[D].杭州电子科技大学,电子与通信工程,2013,硕士.
[26]李易,陆新征,叶列平.基于能量方法的RC框架结构连续倒塌抗力需求分析Ⅱ:悬链线机制[J].建筑结构学报,2011,11:9-16.
[27]柳峰.MnAs_(1-x)P_x磁制冷材料的磁热效应研究[D].沈阳理工大学,物理电子学,2013,硕士.
[28]蔡落超.合法性视野下的穆巴拉克政权垮台的原因探析[D].湖南师范大学,国际政治,2013,硕士.
[29]梁沙沙.基于单亲遗传算法的复杂网络重叠社区结构发现研究[D].内蒙古大学,计算数学,2013,硕士.
[30]张秀媛,Haghani,霍莹祺.城市通勤出行停车管理技术政策研究[J].交通运输系统工程与信息,2014,02:206-212.
[31]符永康.云存储中数据安全关键技术研究及系统实现[D].北京邮电大学,计算机科学与技术,2013,硕士.
[32]董乐生.数字海洋中多维分析系统的设计与实现[D].东北大学,计算机应用技术,2010,硕士.
[33]黄洪钟,姚新胜,周仲荣.满意度原理研究与应用的现状与展望[J].控制与决策,2003,06:641-645+650.
[34]王盛青.长波制冷红外焦平面成像系统盲元检测及补偿研究[D].华中科技大学,通信与信息系统,2013,硕士.
[35]张欣.扑灰年画符号的形式与意义研究[D].广东工业大学,艺术设计学,2014,硕士.
[36]朱敏.太仓市城市管理行政执法的完善对策研究[D].西北师范大学,公共管理,2013,硕士.
[37]王斌.河南省节能目标运行预测分析[D].郑州大学,环境科学,2013,硕士.
[38]胡珀.舒曼《C大调幻想曲》音乐结构与演奏特征[D].武汉音乐学院,音乐与舞蹈学,2013,硕士.
[39]汲常丽.中国概念股回购效应实证研究[D].贵州财经大学,金融学,2013,硕士.
[40]张丽静.胃癌组织中AKT-2和PGC的表达及临床意义分析[D].郑州大学,肿瘤学,2013,硕士.
[41]白晓雷.基于信息抽取的语义框架填充技术研究[D].河南科技大学,计算机应用技术,2014,硕士.
[42]侯文江,金磊,袁炳龙,李瑾.安全科学管理与人为失效研究——分析铁路运输中的人为失效规律[J].中国安全科学学报.1993(02)
[43]郝江渤.三能级系统的普适量子克隆[D].河北师范大学,理论物理,2012,硕士.
[44]张博.2-烷氧羰基-4-苯基(氟苯基)-1,5-苯并硫氮杂卓抑真菌构效关系研究[D].河北师范大学,有机化学,2014,硕士.
[45]马骁宇.证券投资基金管理人忠实义务研究[D].河北经贸大学,民商法,2014,硕士.
[46]黄绵庆.扇贝多肽对UVB损伤的角质形成细胞的抗氧化和抗凋亡作用[D].青岛大学,药理学,2004,硕士.
[47]陈铭铨.攀钢高炉强化冶炼操作技术的特点[J].炼铁.2000(S2)
[48]蔡立楠.大豆主要农艺性状和品质性状的主基因+多基因混合遗传分析[D].吉林农业大学,作物遗传育种,2012,硕士.
[49]易军.基于旋转磁场、行波磁场电磁搅拌器的数值模拟[D].内蒙古科技大学,材料加工工程,2014,硕士.
[50]韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述[J].软件学报,2014,01:37-50.