基于维基百科的概念图建模及其应用研究

基于维基百科的概念图建模及其应用研究

作者:师大云端图书馆 时间:2024-07-25 分类:硕士论文 喜欢:1995
师大云端图书馆

【摘要】文本的表征与文本间的语义相似度计算是自然语言处理领域里十分重要的基础性研究课题,它们直接影响着诸如文本自动分类、信息检索、机器翻译、问答系统等多个应用系统的效果。传统的机器学习方法仅仅使用了文本本身所提供的信息来建模和运算,面对复杂多变的网络用语和短文本,仅仅依靠文本自身所提供的信息来理解文本语义信息变得越来越困难。这是因为传统的机器学习方法大多数是基于词袋(Bagofwords)模型,即依靠词或短语之间的匹配,面对词汇的多样性、多义性,它就显得无能无力了。此外,随着互联网的发展,人类的语言生活也发生了很大变化,短文本占据了网络用语的大量比例,而这些短文本所能提供的词汇特征信息又非常之少,不利于传统的模型表征。借助于文本以外的知识扩展文本的信息,是解决以上问题的一个主要途径,然而,现有的模型并没有能充分利用外部知识所提供给我们的语义信息。以维基百科为例,大部分模型忽略了不同词条之间的语义联系和用户提供的标注信息,然而,有些时候,这些信息对于理解文本的语义、获取信息的增益非常重要。因此,设计一个更为合理的知识表示模型来更加充分的利用这些信息,可以说是自然语言处理领域一个亟待解决的研究课题。本文从以上问题出发,提出了一个新的知识表示模型,该模型弥补了同类模型的不足之处,既考虑进了知识之间的相互联系,也使用了用户标注的额外信息。概括起来,本文所做的工作主要有以下几点:第一,本文提出了一个新的知识表示模型,在该模型中,每个知识不再被当作语义独立的个体看待,不同的知识根据它们之间的语义相似度被联系到了一起,从宏观角度看,所有知识通过这些连接关系,构成了一张图的形状。以维基百科为例,维基百科中的每一个条目被视为一个概念,它们被当作概念图中的节点。概念之间的语义联系构成了它们之间的边。边的权值表示概念之间的语义相似程度,它的值是根据维基百科概念的正文内容、标题、锚文本、超链接、类别标签等多个信息综合衡量得出的,本文称此结构为概念图。这里需要特别指出,虽然本文使用了维基百科作为外部知识库来建模,但本文所提的模型不仅限于它,该模型同样适用于其它符合条件的外部知识库。第二,本文提出了一种基于概念的文本表征方式。本文在构建的概念图模型上设计了一套文本映射到概念的方法,成功把文本从词频向量空间转换到概念空间,增大了文本特征的粒度,从而解决了同义词等语言现象给传统文本表征方式带来的困扰。此外,本文还提出了利用新的文本表征模型来计算文本的语义相似度的方法。我们首先通过简单的词义相似度比较,将文本映射到一组概念节点上。然后根据节点之间的语义联系,对映射到图中的节点做调整,找出最能代表文本语义的一组节点。最后,通过比较概念向量之间的语义相似度来计算文本之间的语义相似度。第三,为了方便地将本文所提出的概念图模型运用到实际应用中。本文提出了一种针对语料特征的灵活建模方法。首先,对需要处理的语料进行随机采样。然后,采用多种特征抽取的方法抽取出实验语料的特征,并根据这些抽取出的特征,有针对性地选取与实验语料语义接近的一部分概念来构造图模型,从而成功地将概念图的规模控制在合理的大小,提高了计算效率,方便了该模型的使用。我们将所提出的基于概念图的文本表征方法以及文本相似度计算方法应用到了文本分类中,实验采用了国际标准语料集20newsgroup,并和同类型方法做了比较,实验验证了本文提出方法的有效性。
【作者】万亿;
【导师】何婷婷;
【作者基本信息】华中师范大学,计算机应用技术,2014,硕士
【关键词】知识表示;维基百科;概念图;PersonalizedPageRank;语义相似度;

【参考文献】
[1]梁昌柱.秀珍菇N~+离子束诱变及银杏叶栽培研究[D].安徽大学,生态学,2014,硕士.
[2]刘玉生.分散模型参考自适应控制[J].自动化学报,1992,06:671-678.
[3]刘可欣.战争动员的宣传学研究[D].辽宁大学,新闻学,2012,硕士.
[4]郑春红.论海峡两岸离婚判决承认与执行[D].西南政法大学,国际法,2012,硕士.
[5]杨呈祥.CEO对企业的决定性作用及选任研究[D].厦门大学,工商管理,2014,硕士.
[6]刘铖.可编程序调节器在流化床控制系统上的应用[J].冶金自动化,2001,02:11.
[7]陈凌霄,秦雪,金赞芳.湖泊污染物入湖通量的研究进展[J].环境科技,2014,02:61-64.
[8]陈宇术.面向对象的SAS/AF程序设计语言的研究[J].微机发展,2001,04:11-14.
[9]高淑敏.婚庆用酒包装设计中的情感表达[D].内蒙古师范大学,艺术设计(专业学位),2013,硕士.
[10]李成龙.兴德米特和声与调性理论的应用分析[D].西南大学,音乐与舞蹈学,2013,硕士.
[11]乔玮.大连旅游职业中专教务管理系统设计与实现[D].大连理工大学,计算机技术(专业学位),2013,硕士.
[12]本报记者董碧娟.奏响转型“三重奏”[N].经济日报,2014-09-22015.
[13]屈荣.企业对农民工社会责任的缺失及其对策[D].河北经贸大学,伦理学,2012,硕士.
[14]程宗憬.阻变存储器特性研究及读写电路设计[D].华中科技大学,计算机系统结构,2013,硕士.
[15]唐苏生.高速铁路对区域旅游市场影响研究[D].南京师范大学,人文地理,2012,硕士.
[16]张宽.长笛在管弦乐队中音准和节奏问题的研究[D].西安音乐学院,长笛演奏,2013,硕士.
[17]唐平平.社会工作视角下和谐医患关系构建研究[D].南京大学,社会工作(专业学位),2013,硕士.
[18]曹萍.利用数据挖掘技术(DM)提升客户关系管理(CRM)[J].科技管理研究,2005,05:51-52+25.
[19]赵晨.《四库全书总目》地理类研究[D].首都师范大学,历史学文献学,2013,硕士.
[20]黎萃.古城印记·真理摇篮[D].中南林业科技大学,园林植物与观赏园艺,2014,硕士.
[21]李菲.镂空壁画的正负空间转换研究[D].西南大学,美术学,2014,硕士.
[22]武争争.皎然《诗式》中的“取境”观[D].中国政法大学,中国哲学,2014,硕士.
[23]张文文.旅游专业学生职业道德教育问题与对策研究[D].西南大学,教育学原理,2013,硕士.
[24]岳建如.空间可动结构设计与控制分析[D].浙江大学,2002.
[25]潘立军,胡行.碳纳米管和硼纳米管热膨胀性能的第一性原理研究[J].郑州大学学报(理学版),2011,02:83-87.
[26]张振林.面向跨尺度表面测量的宏微运动平台和激光干涉系统研究[D].哈尔滨工业大学,机械电子工程,2013,硕士.
[27]余昆,曹一家,陈星莺,郭创新,董成明.含分布式电源的地区电网无功电压优化[J].电力系统自动化,2011,08:28-32.
[28]张宏先,唐泉涌.小浪底水利枢纽左岸山体初期防渗处理措施及效果[J].中国水利.2004(12)
[29]罗慧君.城市公园绿地景观格局与树种结构相关性研究——以杭州花港观鱼公园为例[D].浙江大学,园林植物与观赏园艺,2004,硕士.
[30]汤新民,钟诗胜.基于离散时间最优控制的航空发动机装配序列规划[J].控制与决策,2008,11:1221-1225+1230.
[31]郝攀登.雷奈酸锶干预钴铬钼颗粒诱导骨溶解的实验研究[D].福建医科大学,外科学,2014,硕士.
[32]郑诗韵.杜甫诗歌翻译中的归化与异化[D].北京外国语大学,翻译,2014,硕士.
[33]王晓林.聚醚醚酮超声热—形变规律及焊接工艺研究[D].哈尔滨工业大学,2007.
[34]丁晓林.李伯安绘画艺术研究[D].山西师范大学,美术学,2014,硕士.
[35]王海龙.Ln_(2-x)Sr_xNiO_4(Ln=Nd,La)纳米复合纤维的制备及高温电化学性质研究[D].黑龙江大学,2013.
[36]王斌腾.介孔Y型分子筛的合成及性能研究[D].哈尔滨工业大学,化学工程与技术,2014,硕士.
[37]徐刚,李忠义,张哲伟,张勇,陈继民,杜传军.电子输尿管软镜钬激光碎石治疗一期单通道经皮肾镜术后残石的安全性及疗效[J].中华腔镜泌尿外科杂志(电子版),2014,03:184-187.
[38]畅博彦刘艳茹金国光.基于牛顿-欧拉法的3PUS-S(P)变胞并联机构逆动力学分析*[J].农业机械学报,2014,11:.
[39]侯俊杰,李春平.一种基于模式增长的频繁模式挖掘算法[J].华中科技大学学报(自然科学版),2005,S1:272-274.
[40]刘泳锐.无线传感网络节点声定位技术研究[D].中北大学,测试计量技术及仪器,2014,硕士.
[41]张斌.室内环境的污染物[J].山西科技.2002(05)
[42]王琛.中国共产党廉政建设历程研究[D].浙江理工大学,马克思主义基本原理,2014,硕士.
[43]周密,徐晓勇,马凤森,梁宜.雷公藤涂膜剂的制备及其体外透皮试验[J].中成药,2015,03:526-529.
[44]姚俊武.基于AdHoc技术的顶板离层监测系统路由协议研究[D].北京交通大学,2014.
[45]王翠翠.萨特自由理论视角下彼得·魏斯小说《消失点》中艺术家的自由[D].四川外国语大学,德语语言文学,2014,硕士.
[46]杨剑芳.我国战略性新兴产业发展的金融支持研究[D].南昌大学,政治经济学,2014,硕士.
[47]雷莹.电子市场环境下agent自主谈判决策机制的设计[D].哈尔滨工业大学,2007.
[48]王欢.基于立体视觉的LED手术无影灯自适应调光技术基础研究[D].南京航空航天大学,测试计量技术及仪器,2013,硕士.
[49]张韦华.健康年轻人慢跑前后前房形态的变化[D].泰山医学院,老年医学,2012,硕士.
[50]吴宁燕.红鱼粉替代白鱼粉对中华鳖饲料性能的影响[D].河北师范大学,动物学,2012,硕士.

相关推荐
更多