基于Helmholtz原理的中文新词识别
【摘要】在新词识别领域,研究者的研究阶段处于有效的新词特征挖掘和新词检测模型选择。现有的新词特征主要包括语言知识特征和统计特征。常用的语言知识特征有前后缀、串长,统计特征有词频、互信息、左熵、右熵、色子矩阵(Dice)。新词,为何新?“新”可以跟时间对比,在某个时间点之前新词从未出现过,这个时间点后新词出现了,并被人们广泛使用,但新词出现的这个时间点很模糊,无法具体界定。针对新词时间分布特性难以描述的问题,本文提出一种量化新词时间分布特性的方法,并用于新词检测。本文采用候选新词词频与Helmholtz原理相结合来量化新词的时间分布特性。词频体现人们某段时间对某个词的使用频度,本文将词的时间分布特性量化为语料中文档词的词频分布。Helmholtz原理观察事件是否远偏离事件发生的随机分布,如果事件观察结果明显偏离随机分布,则该事件是有意义的。文档词的词频分布是Helmholtz原理的观察对象,新词在连续时间段内从无到出现,然后被广为传播使用表现为新词的词频剧增,相比于词典词的词频分布,候选新词的词频分布可能会被Helmholtz原理观察为偏离随机分布的事件。本文解决了时间分布特性量化的难题,并用于新词检测。在实验阶段,采用支持向量机(SVM)作为新词检测模型,融合互信息、左熵、右熵、Dice的组合特征做实验的Baseline,新词识别准确率为85.6093%。在Baseline的基础上,新词特征增加串长、词频,新词识别的准确率为87.5328%。在此基础上,新词特征增加以词频与Helmholtz原理相结合的时间分布特性,新词识别的准确率为91.5822%。
【作者】杨玲亭;
【导师】侯宏旭;
【作者基本信息】内蒙古大学,计算机科学与技术,2014,硕士
【关键词】新词识别;词频;Helmholtz原理;SVM模型;
【参考文献】
[1]陈雅婷.理解、欣赏、联想、创造[D].福建师范大学,英语语言文学,2004,硕士.
[2]韩海萌.信息时代的指南针——数据挖掘[J].河南省情与统计,2002,04:34-35.
[3]苗瀚予.论科技异化及其对我国构建和谐社会的影响、对策[D].山东财经大学,马克思主义中国化研究,2012,硕士.
[4]陈春银,郭威男,马建莉,林杉,王标兵.原位聚合尼龙11/石墨烯氧化物纳米复合材料的等温结晶和熔融行为[J].高分子材料科学与工程,2012,09:100-104+108.
[5]陈明.直播水稻群体生产力的形成特点及其品种类型差异研究[D].扬州大学,生态学,2012,硕士.
[6]闵峰.移相调压最优SPWM控制逆变器的研究[D].南京航空航天大学,电力电子与电力传动,2003,硕士.
[7]MichaelWatkins,张在明.ERTMS安全性研究第五篇GSM-R系统要求[J].铁道通信信号.2003(10)
[8]赵华.小企业非理性财务行为研究[D].东北大学,会计学,2010,硕士.
[9]高玮婧.废旧冰箱硬质聚氨酯材料的资源再利用[D].北京交通大学,2013.
[10]刘畅.沈阳地铁人因问题案例研究[D].大连理工大学,工商管理(专业学位),2013,硕士.
[11]朱晓利.吉林油田长春采油厂采油系统成本控制研究[D].吉林大学,会计,2012,硕士.
[12]翟景亮.DjVu系统中基于形态学的汉字图像预处理研究[D].哈尔滨工程大学,计算机应用技术,2012,硕士.
[13]李俊.南四湖地区水地球化学特征及影响因素[D].中国地质大学(北京),矿物学、岩石学、矿床学,2014,硕士.
[14]李影.电子商务网站个性化推荐技术研究与实现[D].华侨大学,计算机技术(专业学位),2013,硕士.
[15]刘恩清,宋忠臣,祁恒江,刘振忠,徐英辉,马照东.接管马鞍形大厚度焊缝焊接技术研究及其实施[J].一重技术.1997(02)
[16]孙大明,陈开友,谭峰.基于碳纳米材料修饰电极的亚硝酸根电化学检测[A].中国化学会环境化学专业委员会、中国环境科学学会环境化学分会、中国毒理学会分析毒理专业委员会.第六届全国环境化学大会暨环境科学仪器与分析仪器展览会摘要集[C].中国化学会环境化学专业委员会、中国环境科学学会环境化学分会、中国毒理学会分析毒理专业委员会:,2011:1.
[17]董婷.移动支付用户持续使用意愿研究[D].南京大学,情报学,2013,硕士.
[18]肖庆华.论教育学视野的惩罚[D].江西师范大学,教育学原理,2004,硕士.
[19]袁鸣悦.建筑物区分所有权之共有权客体[D].沈阳师范大学,民商法学,2014,硕士.
[20]苏薇.鸡蛋壳膜N-乙酰神经氨酸的制备及对幼年大鼠学习记忆能力的影响[D].吉林大学,食品工程,2014,硕士.
[21]韩志刚.多层递阶方法理论与应用的进展[J].控制与决策,2001,02:129-132+185.
[22]洪硕镭.中小城市文化建筑群设计研究[D].北方工业大学,建筑与土木工程,2014,硕士.
[23]李锦容.盒装王老吉2013年整合传播方案设计[D].浙江大学,新闻与传播(专业学位),2013,硕士.
[24]刘婧.工学跨学科博士生培养模式研究[D].哈尔滨工业大学,教育经济与管理,2014,硕士.
[25]周炳俊.船舶调距桨推进系统的建模仿真及选型设计[D].大连海事大学,控制理论与控制工程,2013,硕士.
[26]耿涛,卢广山,张安.基于直觉模糊证据合成的多传感器目标识别[J].控制与决策,2012,11:1725-1728+1734.
[27]姜慧.高管团队成员变更对企业绩效影响的实证研究[D].辽宁大学,企业管理,2012,硕士.
[28]方素君.CYP2C19*2和CYP4F2基因多态性对华法林维持剂量及稳态血药浓度的影响[D].福建医科大学,药理学,2014,硕士.
[29]温宜萍.CDC50A阳性细胞在卵巢癌细胞系及原代细胞中干细胞特性的鉴定及相关研究[D].北京协和医学院,妇科,2014,博士.
[30]周月琴.室内燃气泄漏爆炸力及影响因素的研究[D].山东建筑大学,供热供燃气通风及空调工程,2013,硕士.
[31]孙贻君.我国OFDI逆向技术溢出对自主创新能力的影响分析[D].南京财经大学,国际贸易学,2012,硕士.
[32]钟石泉.物流配送车辆路径优化方法研究[D].天津大学,2007.
[33]丁瑶玫.四连杆曲柄飞剪设计研究[D].燕山大学,机械工程,2014,硕士.
[34]王晓茹,K.M.Hopkinson,J.S.Thorp,R.Giovanini,K.Birman,D.Coury.利用Agent实现新的电网后备保护[J].电力系统自动化,2005,21:61-66.
[35]蒋丹彤.以不变的信仰奏响爱国主旋律——浅谈当代谍战剧[J].声屏世界,2015,03:38-40.
[36]杨影.三维超声评估二尖瓣成形患者二尖瓣器改变的研究[D].吉林大学,临床医学,2014,硕士.
[37]党文辉,李辉,王璞,彭海琳,刘忠范.拓扑绝缘体和石墨烯纳米异质结构的合成与物性研究[A].中国化学会.中国化学会第27届学术年会第04分会场摘要集[C].中国化学会:,2010:1.
[38]盛海.装配式预应力连续梁的试验研究[D].合肥工业大学,结构工程,2004,硕士.
[39]徐毓军.基于工业以太网的电动执行机构的设计和开发[D].清华大学,控制理论与控制工程,2003,硕士.
[40]景林.系统动力学在环境可持续发展中的应用研究[D].北方工业大学,建筑与土木工程,2014,硕士.
[41]周志艳,罗锡文.农作物生产管理信息数据仓库维度建模初探[J].农业工程学报,2005,11:120-123.
[42]潘东麟.面向JIT生产过程的CAPP系统[D].天津大学,机械制造及其自动化,2004,硕士.
[43]吴忠智.过程控制的机型选择[J].计算机应用研究.1985(04)
[44]庄夏莲.肝脏局灶性病变的三维超声造影研究[D].福建医科大学,影像医学与核医学,2014,硕士.
[45]武奕.多元智能理论指导下“学唱中文歌曲”课程的教学设计[D].辽宁大学,汉语国际教育,2012,硕士.
[46]马雪生.公司价值管理基本框架构建研究[D].河北大学,2005.
[47]程鸿超.应用于MIMO-OFDM广播信道的相关旋转预编码技术研究[D].西安电子科技大学,空间信息科学技术,2012,硕士.
[48]蒋静漪.金属/金属氧化物纳米复合材料的制备及其光电应用[D].南京邮电大学,2014.
[49]寇汝强.台塑集团华亚公司分销渠道策略研究[D].大连理工大学,工商管理,2003,硕士.
[50]赵甲芳.环形二级倒立摆的稳定控制研究[D].曲阜师范大学,系统分析与集成,2013,硕士.
- 下一篇: 基于LabVIEW的螺旋压力机测力系统研究
- 上一篇: 基于CPN的WCDMA协议一致性测试研究