基于搭配强度的复句关系词自动标识方法研究
【摘要】目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复句的自动标识更加重要,但复句的自动标识及其艰难,目前很少有人涉及。关系词在复句中是一个重要组成部分,一个句子的逻辑语义就主要体现在关系词上,因此,自动标识复句关系词是识别复句的关键环节。但是,复句中的“准关系词”有时充当关系词,有时又不充当关系词,所以要实现计算机自动标识复句关系词也非常困难。搭配强度是指两个词之间相互吸引的程度,搭配强度越大意味着这两个词共现的概率越大。搭配强度大、共现频率高的两个词我们就称作它们具备搭配关系。本文对复句中的关系词自动标注是针对具有搭配关系的关系词来进行的。对于现代汉语复句关系词的自动标识,一般有基于规则的方法、基于统计的方法以及规则和统计相结合的方法。本文提出的方法是基于大规模语料库的,完全基于统计的方法。本文首先基于复句关系词本体知识库,提取已经经过分词标注处理的复句中的准关系词,然后设计一种搭配强度的评估方法先判别从复句中提取出来的多个准关系词是否符合搭配关系。其中,搭配强度的评估方法主要是基于对大规模语料库的统计,统计出关系词的出现频率、搭配关系词的搭配距离、共现频率,基于这些信息计算出搭配关系词的搭配强度,观察其是否满足一定的阂值,然后判定它们之间是否存在搭配关系。在判别了搭配关系后,在搭配环境下对这两个准关系词进行自动标识。先将待标注的准关系词及其上下文语境分为标注为关系词和不标注为关系词的两个序列,利用相对词频,分别计算它们和搭配词的搭配强度,然后进行比较,取较大值的标注结果,从而完成准关系词的自动标识。
【作者】宋林森;
【导师】胡金柱;
【作者基本信息】华中师范大学,计算机软件与理论,2014,硕士
【关键词】复句;关系词;自动标识;搭配强度;相对词频;
【参考文献】
[1]许金立.基于商圈理论的商业地产项目定位研究[D].北京交通大学,2008.
[2]李俊阳.基于三方博弈的中国铁路运力资源优化配置研究[D].北京交通大学,2014.
[3]闫辉.miRNA-182对成年大鼠药物性聋损伤的保护及机制[D].第四军医大学,耳鼻喉科学(专业学位),2014,硕士.
[4]尚欣鑫.国际资本市场私募基金法律问题研究[D].大连海事大学,国际法学,2004,硕士.
[5]王环.养血祛风汤治疗寻常型银屑病血虚风燥证的临床观察[D].黑龙江中医药大学,中医外科学,2013,硕士.
[6]李坤.杭州文化产业竞争力评价与提升路径研究[D].浙江理工大学,区域经济学,2014,硕士.
[7]张昌英.90后新生代农民工的抗逆力[D].华东师范大学,社会工作与管理,2013,硕士.
[8]杨琦.基于多传感器信息融合的管网泄漏定位[D].东北石油大学,通信与信息系统,2013,硕士.
[9]荆福霞.应用Déjà Vu X2的翻译实践报告[D].鲁东大学,英语笔译(专业学位),2014,硕士.
[10]李凤杰.中学生时间管理倾向在应激交互作用模型中的调节作用[D].内蒙古师范大学,心理健康教育(专业学位),2012,硕士.
[11]王海艳.基于消费者信任的企业道德对消费者响应影响的研究[D].浙江理工大学,企业管理,2014,硕士.
[12]卢俊颖.试论同人小说中的“玛丽苏”现象[D].杭州师范大学,文艺学,2013,硕士.
[13]王剑.社会主义法治视阈下的包容性增长研究[D].华东交通大学,马克思主义基本原理,2013,硕士.
[14]付鹏鹏.美国纽约州州立研究型大学学生资助情况分析[D].华东师范大学,高等教育学,2013,硕士.
[15]贺花.秦川牛肌肉生长发育相关基因和蛋白质的筛选及其初步鉴定[D].西北农林科技大学,动物遗传育种与繁殖,2014,博士.
[16]宋根法,袁洪金,王卫华,高希勤,叶道凡.赛汉塔拉地区横波资料处理[J].石油地球物理勘探,1988,04:489-496+516.
[17]孙梦琳.李约瑟问题及其转换[D].中原工学院,科学技术哲学,2012,硕士.
[18]吴正平,关治洪,吴先用.基于一致性理论的多机器人系统队形控制[J].控制与决策,2007,11:1241-1244.
[19]王雄,程宗佳.来自饲料厂和养殖场生产第一线的若干问答(十二)[J].饲料工业.2005(03)
[20]任显东.牦牛蹄部的结构及动脉分布[D].甘肃农业大学,临床兽医学,2013,硕士.
[21]连建珑.波速及其变化对水力过渡过程的影响研究[D].长安大学,市政工程,2013,硕士.
[22]李璇.我国居民收入分配差距与税收政策研究[D].山西财经大学,财政学,2013,硕士.
[23]李君.安徽省农村信息化发展研究[D].安徽大学,情报学,2013,硕士.
[24]张冲.计及热电负荷转换的电网节能调度研究[D].哈尔滨工业大学,电气工程,2013,硕士.
[25]任玉茂.基于MODBUS协议的电力仪表监控系统[D].杭州电子科技大学,电路与系统,2014,硕士.
[26]王芳.钢管混凝土拱桥拱助早龄期徐变分析[D].北京交通大学,防灾减灾与防护工程,2013,硕士.
[27]宋志强.Mn-Fe基磁制冷材料的批量制备工艺与性能研究[D].内蒙古师范大学,凝聚态物理,2013,硕士.
[28]陈吕平.论我国水路交通突发事件应急机制建设[D].宁波大学,公共管理,2013,硕士.
[29]于春娟.陕铁院测绘实训基地三维可视化系统的研究[D].长安大学,道路与铁道工程,2014,硕士.
[30]张晏植.教权与世俗社会冲突对欧洲近代宪政的影响[D].新疆大学,法学理论,2013,硕士.
[31]王传琦.高氨氮工业废水处理中试研究[D].苏州科技学院,市政工程,2012,硕士.
[32]张建超.胃食管结合部腺癌预后的影响因素分析[D].山东大学,肿瘤学,2013,硕士.
[33]张轶雯.冬凌草甲素对CYP450酶的影响及其机制研究[D].中南大学,药学,2014,博士.
[34]乔爱春.倍他乐克在急性心肌梗死合并糖尿病中的应用[D].山西医科大学,心血管内科,2003,硕士.
[35]徐欣茹.中小企业知识资本与技术创新能力关系研究[D].南京师范大学,企业管理学,2012,硕士.
[36]吕勇杰.企业年金缴费确定型计划的利率模型优化研究[D].大连理工大学,社会保障,2013,硕士.
[37]肖辉煌.中医辨证论治联合除幽汤治疗幽门螺杆菌(Hp)相关性胃炎临床观察[D].福建中医药大学,中医内科学,2014,硕士.
[38]吴冬梅.温州市现代农业园区建设与发展对策研究[D].浙江大学,作物(专业学位),2012,硕士.
[39]童佳.最优(v,W,1,Q)光正交码的存在性[D].广西师范大学,基础数学,2013,硕士.
[40]朱阿敏,刘业政,韩建妙.基于优化协同过滤与加权平均的群推荐方法[J].计算机工程与应用.
[41]孙巍.基于互联网的学校用电管理系统设计与实现[D].西安电子科技大学,计算机技术,2011,硕士.
[42]刘智钰.合景和城—延安风景城市建构方法初探[D].长安大学,城市规划与设计,2013,硕士.
[43]尹自立.高性能混凝土早龄期自收缩与开裂敏感性的研究[D].浙江工业大学,2012.
[44]丁云鹏.自噬特异性基因beclin-1在胃癌血管生成拟态中的表达及作用机制[D].苏州大学,普通外科学,2014,硕士.
[45]唐婉.国内外紫薇资源在北京地区的越冬能力研究[D].北京林业大学,园林植物与观赏园艺,2013,硕士.
[46]毛国栋.钢筋混凝土框架结构在地震作用下破坏机理的研究[D].西安科技大学,结构工程,2014,硕士.
[47]王记冰.汉语女性隐喻人际修辞研究[D].四川外国语大学,英语语言文学,2014,硕士.
[48]王帆.国内市场分割对我国企业出口行为的影响研究[D].复旦大学,国际贸易学,2012,硕士.
[49]党国举,王淼,王昭勍,李海燕,张全生.石墨烯修饰玻碳电极对多巴胺的电催化氧化[J].高等学校化学学报,2014,12:2680-2687.
[50]俞云良.折流式旋转床性能的研究[D].浙江工业大学,2004.

- 下一篇: 大众传媒低俗化对青少年价值观的影响及其对策
- 上一篇: Ugi反应合成新型多取代异喹啉酮类衍生物