中文评论文本情感分析研究
【摘要】随着Internet的日益普及和广泛应用,越来越多的网民开始在Internet上发表自己的观点,意见和评论。网络上的这些评论文本包含了大众群体对热点事件的态度,或者消费者对所购买的商品或者服务的情感态度等。这些信息对国家政府,商业组织以及个体消费者都有重要的价值。然而,网络上的数据规模极其庞大,并且其中很多的语句都是杂乱无章、语言不规范、无结构化的等。如何在海量的评价文本中分析出情感信息成为研究热点之一。评价搭配的抽取和倾向性分析是文本情感分析研究的重要基础任务。在线商品评论是指消费者在网络上用文字的形式表达对自己购买的商品或服务的体验和观点。这些信息对于商家和消费者都具有重要的商业价值,然而网上的很多的评价语句是散乱且海量的,用人工的方法进行情感分析几乎是不可能的,本文以在线评价语句为研究对象,对其使用自然语言处理技术进行情感分析,进而获得评价搭配和评价对象的倾向性。本文的主要研究内容和创新点如下:(1)针对评价搭配的抽取问题,本文提出了一种改进的基于核心句的评价搭配抽取方法。目前常用的评价搭配的抽取方法主要有两类:一类是基于语言特征利用机器学习模型的方法抽取评价搭配;另一类是使用基于规则或模板的方法识别评价搭配。上述两类方法中,句法分析都在评价搭配识别方面起着重要的作用,然而由于中文评价语句的不规范性,会导致句法分析结果不准确,最终影响评价搭配的抽取效果。针对这个问题,本文用提取评价语句核心句的方法有效的提高了中文评价语句的规范性,提高了句法分析的准确率。同时在处理复杂的语句时,本文着重分析了评价对象之间以及评价词之间的并列关系,提高了评价搭配抽取的召回率。实验结果表明,本文提出的方法取得了不错的抽取效果,验证了本文提出的方法是有效的,具有较好的应用价值。(2)针对评价对象的倾向性分析的问题,本文采用基于情感词语义加权的方法进行倾向性分析。评价对象的倾向性分析属于属性级倾向性分析,基本上都以词典为基础,在倾向性分析中,尤其是网络评价语句中会经常出现网络词汇,然而由于使用词典很难识别网络词汇。针对这个问题,本文使用了常用情感词置换网络词汇的方法有效的解决了网络词汇难以识别的问题。另外,针对中文评价文本中经常出现的包含隐含的评价信息的语句的问题,本文制定了潜在评价信息抽取规则,该方法有效的解决了评价语句中潜在评价信息难以识别的问题。实验结果显示本文提出的方法在覆盖率和准确率上都有所提升,验证了本文提出方法的有效性。
【作者】刘涛;
【导师】赵鹏;
【作者基本信息】安徽大学,计算机软件与理论,2014,硕士
【关键词】评价搭配抽取;核心句;依存分析;倾向性分析;语义加权;
【参考文献】
[1]王伟伟.基于表面增强拉曼光谱的在线检测研究[D].苏州大学,物理化学,2014,硕士.
[2]张凤强.慢性萎缩性胃炎中医证型与胃蛋白酶原Ⅰ、Ⅱ的相关性研究[D].河北医科大学,中医内科学,2013,硕士.
[3]郑翔,丁琪,李佩.经济法课程教学中的问题与混合式教学模式的运用[J].吉林省教育学院学报(上旬),2015,03:76-78.
[4]单巧芬.论信用证下议付行的法律地位[D].宁波大学,经济法(专业学位),2014,硕士.
[5]许如意.数据仓库在一拖股份公司经济责任制中的应用[D].郑州大学,2003.
[6]石美遐.民主管理应当成为一种企业文化[J].中国劳动关系学院学报,2014,06:1-5.
[7]焦翠翠.三江平原典型湿地植被的空间分布格局研究[D].首都师范大学,地图学与地理信息系统,2013,硕士.
[8]丁赟.韩国语境下对外汉语中级视听说课程设计[D].渤海大学,汉语国际教育(专业学位),2014,硕士.
[9]崔志艳.塞来昔布合成方法与杂质研究[D].河北科技大学,药物化学,2013,硕士.
[10]王钰.体现文学性的初中语文文学作品教学研究[D].青岛大学,课程与教学论,2013,硕士.
[11]王丽娜.商业分析新领域:超越交易[J].深圳特区科技,2004,Z4:52-54.
[12]高鹏.在速度谱解释中遇到的两个问题[J].石油地球物理勘探,1985,01:110-111.
[13]周艳利.Nrf2在溃疡性结肠炎患者中的表达及其与氧化应激的关系[D].河北医科大学,内科学,2013,硕士.
[14]马莹莹.高速公路经营者安全保障义务研究[D].贵州民族大学,法律,2014,硕士.
[15]徐博华.MN公司内部控制评价及改进[D].内蒙古大学,工商管理,2012,硕士.
[16]刘慧敏.直齿轮滚轧成形工艺设计及数值模拟[D].山东大学,材料加工工程,2013,硕士.
[17]李婉梅.环保非诉行政执行研究[D].华侨大学,法律,2013,硕士.
[18]李莉.我国高新技术产业技术溢出效应研究[D].山东师范大学,区域经济学,2013,硕士.
[19]徐文娟.艺术品市场管理模式及市场拓展策略分析[D].天津大学,高级工商管理,2013,硕士.
[20]潘忠忠.基于动态门限和方向性十字的运动估计算法研究[D].浙江工商大学,通信与信息系统,2014,硕士.
[21]姜礼燔.生态环境污染对养虾业的影响及防治对策[J].现代渔业信息.1994(07)
[22]戴小军.对脉冲多普勒雷达干扰技术研究与实现[D].江苏科技大学,信号与信息处理,2013,硕士.
[23]蒋波.中国证券市场小盘股投资策略与管理研究[D].中南大学,2004.
[24]张敏芝.医院信息化建设研究[D].苏州大学,公共卫生(专业学位),2012,硕士.
[25]陈晓云,胡运发.规则加权的文本关联分类[J].中文信息学报,2005,04:52-59.
[26]袁青云.基于多变量统计方法的控制系统性能评价方法的研究[D].东北大学,控制理论与控制工程,2010,硕士.
[27]善孝玺.西北省会城市低碳发展水平研究[D].兰州大学,人文地理学,2013,硕士.
[28]段阿力.公共图书馆开展老年读者服务的实践与思考[D].安徽大学,图书情报,2013,硕士.
[29]李丽杰.论污染造成海洋环境损害的国家求偿[D].大连海事大学,国际法学,2004,硕士.
[30]汪文生,王立杰.应用商务智能技术探索采掘业ERP系统研究的新途径[J].煤炭经济研究,2005,08:31-33.
[31]赵彩芹.从颜真卿《三稿》看其行书艺术特色[D].曲阜师范大学,美术学,2013,硕士.
[32]冯雪磊.制备工艺和元素添加对Zr-Cu基大块非晶合金性能的影响[D].兰州理工大学,材料物理与化学,2014,硕士.
[33]张东波.植物三维信息检测及视觉伺服控制技术研究[D].中国农业大学,2014.
[34]王振友,谢青松.人工智能学科的发展[J].山东工程学院学报,2001,04:1-6.
[35]夏婷.手性三齿Schiff-base配体及其负载化配体催化的不对称Henry反应[D].浙江工业大学,2013.
[36]安丽.代谢综合征患者血清醛固酮水平的变化及相关性研究[D].广西医科大学,内分泌与代谢性疾病(专业学位),2013,硕士.
[37]王凯南.天津市基层群众性体育健身团队组织管理现状及对策研究[D].天津体育学院,体育人文社会学,2013,硕士.
[38]王振.DTN网络中基于最优停止理论的机会主义路由算法研究[D].湖南大学,计算机科学与技术,2011,硕士.
[39]林舜江,刘明波.暂态电压安全预防控制优化的轨迹灵敏度法[J].电力系统自动化,2010,04:12-17.
[40]陈雷.我国债券市场的内部结构及影响因素分析[D].吉林大学,数量经济学,2004,硕士.
[41]史鸿鑫,沈海民,武宏科,项菊萍,陈立军.聚甘油全氟壬烯基醚的合成与表面性能[J].高校化学工程学报,2014,04:805-811.
[42]张靖悦.VEGF、PDGF-A和Ki-67在大肠癌组织中的表达及其临床意义[D].青海大学,内科学,2013,硕士.
[43]王宽振.基于机器视觉的大空间建筑火源定位方法研究[D].西安建筑科技大学,控制理论与控制工程,2013,硕士.
[44]朱芸芸.口译活动中译员对用户期望的调研报告[D].广东外语外贸大学,翻译(专业学位),2013,硕士.
[45]吴德会.基于质量信息集成的智能质量控制技术研究[D].合肥工业大学,2006.
[46]何燕.《放射性污染防治法》三项基本制度研究[D].湖南师范大学,法学理论,2004,硕士.
[47]任亨.基于MQTT协议的消息推送集群系统的设计与实现[D].中国科学院研究生院(沈阳计算技术研究所),计算机技术,2014,硕士.
[48]罗涛.基于HNC-210A技术的数控车床改进设计原理及其应用研究[D].南昌大学,机械工程,2012,硕士.
[49]孙越.中国当代基督徒艺术家的绘画艺术解读[D].西南大学,美术学,2014,硕士.
[50]刘利平.基因模式的PICA获取及基于Boosting的模式分类[D].西安电子科技大学,计算机应用技术,2004,硕士.
- 下一篇: 石墨烯基纳米复合材料的制备及光电性质研究
- 上一篇: 职业乞丐社会治理的政府职能研究
相关推荐
- 孟子与亚里士多德德性思想比较研究
- 06月09日
- 中药注射剂企业的创新战略
- 03月26日
- 硒化铅胶质量子点表面电学性质改性及霍尔效应仿真研究
- 10月30日
- 程序错误定位系统的框架设计与实现
- 02月21日