基于决策树的汉语复句关系词自动识别中规则挖掘方法研究
【摘要】对汉语复句中关系词的自动标识是中文信息处理中的一个研究难题,本课题组前期已经研究的“基于规则的复句关系词自动标识系统”所使用的规则是通过人工的方式挖掘的。该系统是通过对大量语料的分析,得出一些关于复句中关系词自动标识的结论,’然后进一步总结整理得到形式化的规则表示形式。通过这些规则能够对部分复句进行关系词的自动标识,但是由于规则的有限、复句的无限,以及复句种类繁多,所以使得该系统不能做到对任意复句中的关系词进行正确地自动标识。因此,利用计算机自动挖掘技术来进行规则的自动挖掘,以实现对任意复句关系词的自动标识,是中文信息处理中关于汉语复句及其关系词自动识别研究的重要研究内容之一。通过对现有规则库中的规则进行分析得出,一条完整的规则包含约束条件部分和标识结果部分。想要根据某类句型挖掘出一条新规则,就必须对该句型中的所有准关系词进行标识,而标识的结果就是判定出该准关系词是否为关系词,也即基于规则对准关系词进行分类。因此,本文在基于规则的基础上,将决策树分类算法融合进来,对基于决策树的关系词自动识别中规则挖掘方法进行了研究。首先利用准关系词查询规则库,对查询出的数据进行预处理,构造成数组形式,然后采用多种不同方式对里面的缺省值进行补齐,利用处理之后的完整数组构建决策树,最后利用后剪枝的方式对决策树进行简化。根据构建决策树的数组里面的约束条件挖掘出标识所需信息,并存储准关系词在决策树中标识时所经过的路径,最后综合整理标识结果以及标识过程,挖掘出新规则。本文实验中所有的复句全部来源于华中师范大学语言与语言教育研究中心构建的汉语复句语料库。通过对实验结果的分析可知,利用决策树的方式能够对那些不能利用现有系统进行标识的关系词进行高准确率的标识,并且能够挖掘出有效的新规则,达到完善规则库的目的。
【作者】向磊;
【导师】胡金柱;
【作者基本信息】华中师范大学,计算机软件与理论,2014,硕士
【关键词】中文信息处理;复句关系词;决策树;复句关系词自动标识;规则自动挖掘;
【参考文献】
[1]白丽红.丰台一中教师业务信息管理系统的设计与实现[D].首都师范大学,现代教育技术,2014,硕士.
[2]楼凤娟.激光熔覆的温度及应力分析和数值模拟[D].浙江工业大学,2009.
[3]魏红.高介电环氧树脂复合材料的制备及性能研究[D].吉林大学,2014.
[4]黄幼佩.血清降钙素原检测在肝衰竭患者中的诊断价值[D].福建医科大学,内科学,2014,硕士.
[5]廖奇.新型缓释与促释肥料制备方法探讨[D].合肥工业大学,化学工艺,2013,硕士.
[6]李雯雯.基于项目的学习在高中信息技术课程中应用的研究[D].扬州大学,现代教育技术,2011,硕士.
[7]廉英琦.弱界面粘结的纤维增强金属基复合材料细观力学分析[D].南京航空航天大学,航空宇航推进理论与工程,2004,硕士.
[8]刘文敏.保定市小学生常见病状况及学校管理对策研究[D].河北大学,教育管理,2013,硕士.
[9]贾彩红.低木质素含量的转基因毛白杨(Populus tomentosa)的获得与毛白杨4CL基因启动子的克隆[D].河北农业大学,森林培育,2004,硕士.
[10]杨永刚.从肾论治胸痹心痛病及导师经验总结[D].北京中医药大学,中医内科学,2013,硕士.
[11]李军伟.全自动站场信息无线语音提示系统[J].铁道通信信号.2005(05)
[12]曹聿明.地震记录道信号在时间域逐次分离的方法[J].石油地球物理勘探,1995,05:688-692+718.
[13]鄢琪.The Impacts of Religious Differences on the Translation of Chinese Religious Expressions into English[D].中国政法大学,英语语言文学,2013,硕士.
[14]姜波.镧系元素掺杂对BiFeO_3薄膜结构和性能的影响[D].济南大学,材料科学与工程,2012,硕士.
[15]王娟娟.思想政治教育视阈下大学生精神动力培育研究[D].沈阳师范大学,思想政治教育,2014,硕士.
[16]高悦.体现品牌的企业网站形象设计研究[D].吉林大学,设计艺术学,2014,硕士.
[17]王璐.神经心理学视角下的口译工作记忆的实证研究[D].上海外国语大学,英语语言文学,2012,硕士.
[18]刘敏.西安市排舞运动的开展与实践研究[D].西安体育学院,体育教育训练学,2013,硕士.
[19]陈彪.浙江省基本公共文化服务均等化研究[D].浙江大学,2009.
[20]宋进博.鄂尔多斯盆地青平川油田十甲区块长4+5、长6储层特征研究[D].西北大学,能源地质学,2013,硕士.
[21]彭相如.产业集群中的技术创新研究[D].江西财经大学,技术经济及管理,2004,硕士.
[22]方源松.玉米苗饲养的稻纵卷叶螟对水稻的适应力及温湿度对卵和初孵幼虫的影响[D].南京农业大学,农业昆虫与害虫防治,2013,硕士.
[23]胡耀华,蒋丹东,贾欣乐.广义预测船舶航向控制[J].控制与决策,1998,02:61-64+69.
[24]陈蔓.多元智能理论视角下小学英语教学及实践研究[D].信阳师范学院,学科教学,2014,硕士.
[25]刘蓓璇.唐山评剧艺术及其唱腔音乐研究[D].内蒙古大学,音乐学,2014,硕士.
[26]郑雁,荆留纪,刘少桐.大型六头直廓环面蜗杆副的设计与制造[J].一重技术.1996(02)
[27]罗冬明,刘金龙,王群峰,袁惠敏,钱东.RGO-InVO_4纳米复合材料的制备及作为锂离子电池负极材料的应用[J].湖南师范大学自然科学学报,2013,04:43-48.
[28]任晶.利用窄带成像技术观察毛细血管形态在结直肠息肉样病变鉴别诊断中的价值[D].辽宁医学院,内科学,2012,硕士.
[29]司冠华.我国金融结构与经济增长关系实证研究[D].山东财经大学,统计学,2013,硕士.
[30]张传斌.基于CAN总线的移动机器人分布式控制系统研究[D].山东大学,控制科学与工程,2013,硕士.
[31]乐晓波,孙丰玉.粗糙集理论的一种新扩充模型[J].长沙交通学院学报,2003,04:19-23.
[32]易中,袁承志.北京市轨道交通昌平线与北京地铁8号线联络线工程建筑施工扬尘分析[J].建筑技术开发,2011,03:54-56.
[33]孔三江.空间大型可展天线与卫星间的刚—柔耦合多体动力学分析[D].西北工业大学,机械设计及理论,2004,硕士.
[34]杨峰.一种可变胞并联机构的多维隔振平台研究[D].山东大学,机械设计及理论,2013,硕士.
[35]朱丽梅.石墨烯在电化学生物传感器中的应用[D].上海大学,2012.
[36]李凡.基于内容的短信智能分类系统的设计与实现[D].东北大学,计算机系统结构,2010,硕士.
[37]赵大维.蓝舌病病毒VP3、5、7蛋白及小反刍兽疫病毒H蛋白的原核表达及其抗原性分析[D].南京农业大学,临床兽医学,2011,硕士.
[38]李双柱.新型超支化共轭聚合物三阶非线性光学性能研究[D].复旦大学,光学工程,2012,硕士.
[39]张一弛.云计算环境下的“测试即服务”模式及其实现[D].华中师范大学,情报学,2013,硕士.
[40]马丽.内蒙古师范大学附属中学信息技术校本教材设计[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[41]倪喆.简阳市土地利用/覆盖变化及其生态环境效应研究[D].成都理工大学,自然地理学,2013,硕士.
[42]王晶芳,王智冬,李新年,胡涛,蒋卫平,王明新,向孟奇,李焕明.含特高压直流的多馈入交直流系统动态特性仿真[J].电力系统自动化,2007,11:97-102.
[43]徐发仪.热值指数仪标定气样配制计算[J].冶金自动化,1988,02:58-59.
[44]王洋.静电除尘器运行故障诊断方法和实时监测技术的研究[D].大连理工大学,2003.
[45]郑芳燕.长三角地区城市金融竞争力的比较分析[D].浙江财经学院,金融学,2013,硕士.
[46]张苍松.基于RSSI的室内定位算法优化技术[D].西北大学,计算机应用技术,2014,硕士.
[47]余芯怡.论农村土地流转中的权利冲突与协调[D].华侨大学,民商法学,2014,硕士.
[48]刘文华.地佐辛对妇科腹腔镜手术病人恢复期的影响[D].吉林大学,临床医学,2013,硕士.
[49]万兵勇.宝德科技集团战略管理研究[D].华中师范大学,工商管理(专业学位),2014,硕士.
[50]张溪.761例先天性女性生殖系统发育异常临床分析[D].河北医科大学,妇产科学(专业学位),2013,硕士.

相关推荐
- 小麦抗逆相关转录因子bZIP和NAC基因的功能研究
- 10月25日
- 股份有限公司章程设限股权转让问题研究
- 06月30日
- 高速三维数据扫描机系统设计与研究
- 07月31日
- 天津市出口贸易结构优化研究
- 05月21日