基于混合特征和规则的词义消歧研究
【摘要】词义消歧是自然语言处理领域中的中间问题,其准确度影响着机器翻译、信息检索等研究的顺利进行,具有重要的理论研究和实际应用意义。目前已提出很多关于词义消歧的技术。有指导的消歧方法精度高,但需要大量的人工标记语料库为每个歧义词训练一个分类器,现有的词义标注语料库的规模远远不足以训练出一个实用的消歧系统;无指导的消歧方法有望克服知识获取瓶颈,但精度有待提高。在对现有文献进行深入研究的基础上,针对当前词义消歧系统中常见的问题,本文首先提出了一种新的上下文混合特征提取方法,该方法模拟了人类在阅读文章过程中遇到歧义词时辨析词义的思维方式。经研究发现,人类辨析歧义词词义是一个由点及面、由近及远的知识运用过程,该方法用上下文近邻特征、局部特征及全局特征来表示不同层次的知识,以实现上下文知识的全面提取与充分利用。基于上下文混合特征提取方法、WordNet及WordNetDomains,结合基于规则的分类技术,本文提出了一种基于混合特征和规则的词义消歧方法,该方法采用不同的策略分别计算了歧义词各词义与上下文的释义相似度、领域相似度及主题相似度,在此基础上,通过RIPPER算法实现消歧规则的提取,为所有歧义词训练统一的分类器,以完成词义消歧。为验证本文中提出的词义消歧方法的有效性,本文采用国际标准数据集Senseval-3英文全文任务测试集,利用交叉验证技术对方法进行了评测。实验结果证实了本文消歧方法的有效性。基于混合特征和规则的词义消歧方法能够较有效的避免有导消歧方法中的人工标注问题,且在词义消歧的性能上有了一定的提高。对词义消歧的研究过程中发现,词义消歧这个课题还有许多问题亟待解决,如知识源WordNet词义划分粒度太细,消歧规则的提取可以进一步优化等。在本文的最后给出了进一步的研究方向。
【作者】高宁宁;
【导师】左万利;
【作者基本信息】吉林大学,计算机软件与理论,2014,硕士
【关键词】词义消歧;特征提取;语义相似度;规则学习;
【参考文献】
[1]张文晋.金属铁、钴、镍和镍铝合金熔化性质的理论研究[D].河南师范大学,理论物理,2014,博士.
[2]陈长兵.颈动脉斑块的性质与其社区高危人群常见危险因素的关系及对颈动脉支架植入术的影响[D].广州医科大学,神经病学,2014,硕士.
[3]汤衡攸.我国医疗责任保险法律制度研究[D].贵州民族大学,经济法学,2013,硕士.
[4]胡大钧.成人高校教师绩效考核的研究[D].上海交通大学,公共管理,2013,硕士.
[5]余翔,张冰,林桢,张潇,魏佳莉,王晓萍.基于VanDerPauw原理的溶液电导率计[J].浙江大学学报(工学版),2015,02:371-375.
[6]王彩红.含裂纹石墨烯/碳纳米管拉压性能的研究[D].华南理工大学,固体力学,2014,硕士.
[7]任里.互联网行业知识型员工全面薪酬激励分析[D].中国政法大学,企业管理,2013,硕士.
[8]许晓明.论民事诉讼第三人制度[D].华中师范大学,民事诉讼法,2012,硕士.
[9]康楠.基于快速响应机制的应急物流选址问题研究[D].北京交通大学,物流工程,2013,硕士.
[10]申爱娟.转基因油菜W-4高油酸性状遗传及T-DNA整合位点分析[D].南京农业大学,作物遗传育种,2012,硕士.
[11]李宁.冲击危险煤层巷道防冲锚网索结构研究[D].中国矿业大学,采矿工程,2014,硕士.
[12]帕提姑·阿布都克热.新疆羊肉食用品质特性及相关影响因素的研究[D].新疆农业大学,食品科学,2012,硕士.
[13]杨敏,汪云甲.面向数据挖掘的矿山数据仓库技术研究[A].中国测绘学会.全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(上)[C].中国测绘学会:,2003:1.
[14]王霞.纳税人税权研究[D].湘潭大学,经济法,2003,硕士.
[15]瞿婷.七宝镇商城商贸公司薪酬管理改革案例研究[D].华东理工大学,工商管理(专业学位),2013,硕士.
[16]黄宁.论新课程环境下语文课堂教学改革的对策[D].湖南师范大学,教育,2003,硕士.
[17]戚艳红.新型磁流变阻尼器结构设计与性能分析[D].北京交通大学,结构工程,2013,硕士.
[18]李源军.雾中输电线路绝缘子交流放电特性及闪络过程研究[D].重庆大学,电气工程,2014,硕士.
[19]胡广嘉.新型城镇化发展中的融资问题探究[D].华中师范大学,农村与区域发展,2014,硕士.
[20].全国部分上架《生命科学仪器》图书馆名录[J].生命科学仪器,2014,Z1:77-78.
[21]刘庆元.语篇翻译中的语境分析[D].湖南师范大学,英语语言文学,2003,硕士.
[22]秦芳.论职业经理人管理素质的有效培养途径[D].山东财经大学,企业管理,2013,硕士.
[23]赫寅.大五人格测验与无领导小组讨论的结果相关性研究[D].北京交通大学,2014.
[24]李协.基于电磁传感网的无源定位关键技术研究[D].解放军信息工程大学,军事通信学,2012,硕士.
[25]谢纪刚,王枭.PE投资定价与会计信息的相关性检验——以创业板制造业公司为例[J].财会月刊,2014,04:28-32.
[26]王可,刘继行,孙兴伟.螺旋水套与轴向水套水冷系统流固耦合对比分析[J].组合机床与自动化加工技术,2014,11:46-48.
[27]李雅琼.基于weka的web文本挖掘的研究和实现[D].郑州大学,计算机软件与理论,2013,硕士.
[28]王芳.现代乡村生活题材水墨人物画创作浅谈[D].中南民族大学,设计艺术学,2013,硕士.
[29]徐钰明.高光谱遥感影像异常检测与分类技术研究[D].杭州电子科技大学,控制理论与控制工程,2013,硕士.
[30]赵晶张福蓉崔一许永斌陈明权春善范圣第.嗜水气单胞菌群体感应信号分子AI-2的细胞外生物合成及活性检测[J].微生物学通报.
[31]郭利强.重臂克令吊液压系统仿真研究[D].江苏科技大学,船舶与海洋工程(专业学位),2014,硕士.
[32]王伟.表达H5N1禽流感病毒HA基因重组腺病毒的构建及免疫保护性研究[D].东北农业大学,预防兽医学,2013,硕士.
[33]王春光.并联式混合动力拖拉机能量管理策略研究[D].河南科技大学,车辆工程,2014,硕士.
[34]周莹.某校学生信息管理系统的设计与实现[D].厦门大学,软件工程,2014,硕士.
[35]王宇飞.国民党军队山西敌后抗战研究[D].西南大学,中国近现代史,2014,硕士.
[36]胡云生.冷战后美国对新兴大国崛起的认知[D].上海外国语大学,外交学,2012,硕士.
[37]郑静霞.对中国划设东海防空自卫区报道的批评性话语分析[D].外交学院,外国语言学与应用语言学,2014,硕士.
[38]田乃松.高校后勤电子商务在线营销研究[J].长沙铁道学院学报(社会科学版),2004,04:207-209.
[39]郭文革,陈珽.不完全信息下的最终报价仲裁[J].控制与决策,1995,01:40-44+79.
[40]梁英权.氨基酸添加和响应面优化促利迪链霉菌抗真菌物产生研究[D].天津大学,制药工程,2013,硕士.
[41]万书雅.陕西省电力公司财务人员培训体系研究[D].西北大学,工商管理(专业学位),2014,硕士.
[42]华阳.山西地区唐墓初探[D].吉林大学,考古学及博物馆学,2004,硕士.
[43]王宏,李晓兵,余弘婧.基于NOAA/AVHRRNDVI监测中国北方典型草原的生长季及变化[J].植物生态学报,2006,03:365-374.
[44]EsraaMohammedMohammedIbrahim.Applying Swarm Intelligence Algorithms in Wireless Sensor Networks Energy Optimization[D].湖南大学,ComputerScienceandTechnology,2011,硕士.
[45]张鹏侠.劳动价值论研究[D].东北师范大学,2007.
[46]刘列.荧光原位杂交技术在骨髓增生异常综合征诊断中的应用[D].广西医科大学,内科学,2013,硕士.
[47]斯丽莎.法向承力锚拖曳安装过程整体模拟[D].浙江大学,岩土工程,2012,硕士.
[48]何静娴.石墨烯/铜系功能复合材料的控制合成及性能探究[D].西北师范大学,无机化学,2013,硕士.
[49]赵海龙.便携式卫星天线控制系统的设计与研究[D].北华航天工业学院,电子与通信工程,2014,硕士.
[50]王允利.我国离婚损害赔偿制度研究[D].安徽大学,法律,2014,硕士.
- 下一篇: 一种基于双曲线模型的车道线跟踪检测算法设计与实现
- 上一篇: 某药店管理系统的设计与实现