汉语逗号与冒号的自动分类识别研究
【摘要】标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究,主要内容包括以下三个方面:首先,提出了一种基于句子的分词与词性标注信息进行汉语逗号自动分类的方法。核心工作是特征的筛选与抽取。我们分别采用最大熵模型和CRF模型构建逗号分类器,实现对汉语逗号的七元分类与识别。实验结果显示,使用CRF模型的识别正确率要高于使用最大熵模型的识别正确率,且这两种模型的分类精度都非常接近基于句法分析方法的分类精度,证明本文提出的方法是可行的。其次,提出了一种针对汉语冒号的标注体系与识别方法。本文收集了含有大量汉语冒号的语料,并在对汉语冒号的使用方法进行统计与分析后,制定了汉语冒号的七元分类的分类标准,然后在分词与词性标注的语料上,进行汉语冒号七元分类标签的人工标注。本文使用规则法和最大熵模型法实现冒号的自动分类与识别,并将基于规则法进行冒号自动分类与识别的实验作为本文的基准系统。实验结果表明,基于最大熵模型的自动识别正确率明显高于基准系统的自动识别正确率。最后,本文研究了通过添加其他标点符号的分类标签作为新特征的方法,来提高汉语逗号自动分类与识别的正确率。通过对CTB6.0语料的统计与分析发现,汉语冒号和分号都对逗号的自动分类识别结果存在影响。经实验验证:分别添加汉语冒号与分号分类标签作为新特征时,可以不同程度的提高汉语逗号七元分类的自动识别正确率,当同时添加这两种标点符号的分类标签作为一组新特征时,逗号七元分类的自动识别正确率将再次被提高。
【作者】谷晶晶;
【导师】周国栋;李中国;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】篇章分析;标点符号识别;最大熵模型;CRF模型;
【参考文献】
[1]谭政红.基于旅客服务特性的客运专线旅客列车开行方案研究[D].西南交通大学,交通运输规划与管理,2013,硕士.
[2]付海东.压力式粮食水分在线检测系统的设计与研究[D].吉林农业大学,农业电气化与自动化,2012,硕士.
[3]徐步飞.鄂尔多斯市民族文化产业发展政策选择[D].内蒙古大学,公共管理,2014,硕士.
[4]倪淑芹.我国企业环境会计报告及其相关问题研究[D].天津工业大学,企业管理,2004,硕士.
[5]孟秉林.相干的次声频率段电信号源研究[D].中北大学,测试计量技术及仪器,2014,硕士.
[6].第19次全国焊接学术会议论文题录[J].机械制造文摘(焊接分册),2014,05:43-48.
[7]杜盼盼.衍生金融工具的应用对上市公司经营业绩的影响研究[D].天津财经大学,会计学,2012,硕士.
[8]李超.有机太阳能电池给受体界面和电极界面性质的研究[D].苏州大学,高分子化学与物理,2014,硕士.
[9]魏进,金新民,荆龙,杨涛.微网监控系统的设计与实现[J].电测与仪表,2014,02:1-5.
[10]姚子明.后路全脊椎切除治疗重度脊柱畸形围手术期并发症及相关危险因素分析[D].山东大学,临床医学,2013,硕士.
[11]荣泉泉.差异发展教学理念下高校课程考试改进研究[D].华中师范大学,教育经济与管理,2014,硕士.
[12]赵思辰.我国商业银行跨国并购的动因和风险分析[D].武汉理工大学,国际贸易学,2012,硕士.
[13]张海霞.山西省独立学院大学生理想信念教育研究[D].山西财经大学,马克思主义中国化研究,2014,硕士.
[14]邱占芝,张庆灵.具有数据包丢失的奇异网络控制系统指数稳定性[J].控制与决策,2009,06:837-842.
[15]冉兴隆.高空风能发电牵引翼伞动力学与控制研究[D].国防科学技术大学,航空宇航科学与技术,2012,硕士.
[16]张金玲.浅析秦派二胡作品《曲江随想》的创作手法及演奏技法特色[D].西安音乐学院,二胡演奏,2013,硕士.
[17]许雅萌.上流式曝气生物滤池(UABACF)处理PVA退浆废水的实验研究[D].东华大学,环境工程(专业学位),2014,硕士.
[18]刘捷.淮河流域某地区人体特征污染物内暴露监测与人体遗传损伤效应监测[D].华中科技大学,公共卫生,2013,硕士.
[19]刘联杰.产D-乳酸菌株的选育及发酵过程优化[D].湖北工业大学,发酵工程,2014,硕士.
[20]赵丹青.对北京市三所小学体育校本课程情况的调查[D].北京体育大学,体育教育训练学,2013,硕士.
[21]刘洋.基于业主满意度的蓝馨公司客服质量提升研究[D].兰州理工大学,工商管理,2014,硕士.
[22]何颖.现代服务业“营改增”问题研究[D].云南财经大学,税务(专业学位),2014,硕士.
[23]张登禄.基于蛋白质组学研究氧化还原相关基因在前列腺癌耐药中的作用及调控机制[D].山东大学,生物化学与分子生物学,2014,博士.
[24]于姝.企业岗位胜任力测评问题研究[D].东北财经大学,2005.
[25]褚福强.美味黑粉菌与菰草互作的细胞学研究[D].浙江大学,植物病理学,2012,硕士.
[26]刘媛.含裂纹体构件的疲劳断裂可靠性[D].武汉理工大学,工程力学,2004,硕士.
[27]张大鹏.哈尔滨地区玉米蚜虫发生规律研究[D].黑龙江大学,农业推广,2012,硕士.
[28]余博,刘小龙,任兴武,李柏松.年产10万吨发动机铸件车间设计[J].中国铸造装备与技术,2015,02:51-56.
[29]陈涵,刘会金,李大路.基于高阶累积量Burg自适应算法的间谐波估计[J].电力系统自动化,2008,21:72-76.
[30]张馨心.完善我国网络问责环境研究[D].西北大学,行政管理,2013,硕士.
[31]宋猛.南京国民政府体育法制研究[D].南京师范大学,体育学,2012,硕士.
[32]杨晓江,张洪波,王彬,杨杰,梁红兵,彭国中.唐钢FTSC工艺薄板坯连铸生产实践[J].河南冶金.2004(05)
[33]倪家栖.公共租赁住房租金定价研究[D].湖南师范大学,社会保障,2013,硕士.
[34]梁雨霏.基于数据挖掘的网络优化[D].北京邮电大学,通信与信息系统,2013,硕士.
[35]李根福.化学图表在知识生成和整合中的功能[J].中学化学教学参考,2005,Z2:41-43.
[36]王俊璇.受载条件下岩石电阻率特性的理论与试验研究[D].重庆交通大学,岩土工程,2012,硕士.
[37]陆欢欢.水土流失易发区划定研究[D].南京农业大学,环境科学,2013,硕士.
[38]孙志敏.基于多种通信方式的远程文件传输系统的设计与实现[D].兰州大学,电子与通信工程,2012,硕士.
[39]赵杨.溶液聚合法制备聚酰胺微球[D].华侨大学,高分子化学与物理,2013,硕士.
[40]郭峰华.体育教育专业学生就业心理期望存在的问题与对策的研究[D].华中师范大学,体育,2014,硕士.
[41]迟广宇.无过渡层的超薄类金刚石磁头保护膜结构和性能研究[D].哈尔滨工业大学,材料加工工程,2013,硕士.
[42]郑恩娜.韩国初高中汉语教材的汉语词汇与韩语汉字词比较分析[D].东北师范大学,语言学及应用语言学,2012,硕士.
[43]蒋睿.基于VC.NET的公路土工格栅加筋土挡墙软件开发[D].电子科技大学,软件工程(专业学位),2011,硕士.
[44]曾红兵,何勇,吴敏,冯智勇.时变时滞Lurie非线性系统绝对稳定新判据[J].控制与决策,2010,03:346-350.
[45]王超群.人工林立地质量评价系统的研建[D].北京林业大学,森林经理学,2013,硕士.
[46]段艳玲.论金融不良资产处置市场创造[D].武汉理工大学,企业管理,2003,硕士.
[47]陈宏友,徐国华.江苏滩涂围垦开发对环境的影响问题[J].水利规划与设计.2004(01)
[48]姚敏.基于RFID监狱犯人活动定位系统的设计与实现[D].浙江工业大学,2012.
[49]黄琦金,沈文锋,宋伟杰.反应喷墨打印技术及其在功能材料领域的研究进展[J].化工进展,2015,05:1332-1339.
[50]付雪莲.诺斯卡品对卵巢癌顺铂耐药株SKOV3/DDP凋亡作用的研究[D].河北医科大学,妇产科学,2013,硕士.
相关推荐
- 50kJ液压模锻锤控制系统的研究
- 10月30日
- 惯组电源板参数测试系统设计
- 11月01日
- 坐标法齿轮齿形误差测量方法研究与精度分析
- 11月09日
- 九里香叶总黄酮及其单体镇静催眠作用的药效学研究
- 07月28日