酒店在线评论的情感倾向挖掘方法应用研究
【摘要】愈来愈多的在线消费用户开始浏览大量的网络评论来了解产品和服务的口碑,帮助自己做出可靠的决策。同时网络客户评论作为反馈机制也帮助了服务提供商改进其服务从而获得竞争力。但是,网络评论数量的飞速增长,使得信息内容越来越庞杂,造成客户评论中有用信息难以获取的后果,尤其使得客户难以在短时间内获得对于人物、事件、产品的观点和态度。因此,迫切需要一定的技术手段来使这一过程变得更为准确而便捷,此时“评论挖掘”应运而生并吸引了众多研究者进行学习和研究。评论挖掘主要涉及情感倾向分析、特征挖掘、主观内容识别等;其中情感倾向性分析目的是通过挖掘和分析文本中的立场、观点、情绪、好恶等主观信息,对文本中的主观态度进行判断,涉及人工智能、机器学习、数据挖掘、自然语言处理等多个领域。在英文评论研究领域,研究者已初步取得一些成果,而针对中文网络用户评论的研究却仍处于起步阶段。随着中国电子商务在世界领域内的崛起,亟需关于中文评论中有用信息的自动提取的先进技术。本文以中文网络中对形成旅游预订决策非常重要的酒店评论为研究对象展开探讨。酒店在线评论是非常具有代表性的,与其它在线评论不同的是其更受客户的依赖,对客户是否进行产品预订或购买起到决定性作用;它是顾客对酒店服务质量的真实感知,学术界已有利用其进行酒店服务质量研究的相关成果,但多采用内容分析法,不能对评论进行批量处理,成果应用大受限制。基于以上问题,本文采用机器学习的方法针对网络评论文本进行情感倾向性分析研究,旨在为中文领域内的客户和企业提供更为方便和科学的评论挖掘工具。本文采用开源爬虫框架从携程网客户评论获取语料并按六种不同的评价对象类别进行分类;重点详细介绍了语料库的预处理,包括中文分词和去无用词;然后选用随机森林降序排列特征提取方法和SVM标准分类器,结合本文提出的客户评论情感模型在R语言环境中实现了多种算法分类结果的进一步改善;实验结果表明该计算路径下得到的分类效果更好、准确率更高,不仅克服了文本分析中高维稀疏的数据问题及训练集中的噪声问题,并具有稳定的面向海量web文本切分的实用性能,实验结果还表明这种分类后的倾向性分析更能准确和细致地反映客户的立场和观点,帮助管理者快速地掌握客户对于酒店各个方面的喜爱或者厌恶程度,具有实际的意义。
【作者】刘希良;
【导师】莫赞;
【作者基本信息】广东工业大学,管理科学与工程,2014,硕士
【关键词】在线评论;情感倾向分析;机器学习;随机森林;SVM;
【参考文献】
[1]都智恩.冲击物形状和速度对激光焊三明治板变形性能的影响[D].兰州理工大学,结构工程,2013,硕士.
[2]姚海军.宝安体育场屋盖系统运营安全监测[D].华南理工大学,桥梁与隧道工程,2014,硕士.
[3]李娅.对医学生《临床肿瘤学》课程学习需求的调查研究[D].云南大学,高等教育学,2012,硕士.
[4]李向军.群体决策中的一致性若干问题研究[D].西安电子科技大学,管理科学与工程,2004,硕士.
[5]戴军.GM-CSF与bFGF在矽肺发生发展中的表达及临床意义[D].苏州大学,免疫学,2014,硕士.
[6]叶睿.基于混沌序列和DFT的数字图像水印方法的研究[D].华南理工大学,计算机应用技术,2014,硕士.
[7]孙杰.数据挖掘技术在零售业领域中的应用研究[D].东北财经大学,2003.
[8]董佩.中学生英语写作连贯性研究[D].河北师范大学,学科教学,2012,硕士.
[9]张朝霞.中国传统生死智慧及其现代意义[D].华东师范大学,马克思主义理论与思想政治教育,2002,硕士.
[10]王洪一.PLC数据采集模块的设计[D].内蒙古科技大学,控制理论与控制工程,2013,硕士.
[11]记者汤润清.唐山招商注重带动力强大项目[N].河北日报,2013-05-27009.
[12]楼建锋.侵彻半无限厚靶的理论模型与数值模拟研究[D].中国工程物理研究院,2012.
[13]吴胜.三阶和五阶微分方程的Legendre-Petrov-Galerkin谱元法[D].华侨大学,基础数学,2013,硕士.
[14]王惠珍.不同春小麦和春蚕豆基因型对低磷胁迫的适应机理[D].甘肃农业大学,作物栽培学与耕作学,2003,硕士.
[15]崔静.血液肿瘤患者微粒血浆水平及其促凝活性的研究[D].北京协和医学院,内科学,2013,博士.
[16]文俊伟.虚拟交叉韧带手术中的模型表达及切割仿真[D].广东工业大学,机械电子工程(专业学位),2014,硕士.
[17]曾紫乔.家具展会展示空间导向系统设计研究[D].中南林业科技大学,设计艺术学,2013,硕士.
[18]张晓名.广州市番禺区行政复议与信访互动关系研究[D].吉林大学,公共管理,2014,硕士.
[19]周小英.三维拓扑绝缘体表面量子波导及输运性质研究[D].湖南师范大学,2014.
[20]王斐波,谢乔昕.FDI流入、融资约束与出口溢出效应[J].科技管理研究,2014,22:97-101.
[21]王波,高克宁,张斌.基于粗集理论的数据过滤方法的研究[J].计算机工程与应用,2005,12:175-176+179.
[22]张勇.足球团队凝聚力心智模型研究[D].西南交通大学,企业管理,2013,硕士.
[23]李颖超.TLR2与TLR4配体预处理对角膜基质细胞抗烟曲霉菌炎症反应的影响[D].山东大学,眼科学,2013,硕士.
[24]刘凤琴,方羽.中小企业客户关系管理的系统分析[J].经济问题,2002,11:48-50.
[25]钱培元.HT公司发展战略研究[D].西北大学,工商管理(专业学位),2012,硕士.
[26]陈俊蛟,黄英,黄海舰.超级电容器电极材料研究进展[J].材料开发与应用,2015,01:90-95.
[27]刘淑欣.机电集成电磁蜗杆的加工技术研究[D].燕山大学,机械工程,2014,硕士.
[28]杨力.无线局域网环境信息感知协议的设计与实现[D].西安电子科技大学,通信与信息系统,2012,硕士.
[29]卞昊.合同能源管理在N公司的应用及分析[D].宁夏大学,工商管理(专业学位),2014,硕士.
[30]胡瑞.快变信道下的OFDM系统载波频偏估计研究[D].广东工业大学,信号与信息处理,2013,硕士.
[31]任丽娜.刑事庭前会议制度研究[D].内蒙古大学,法律,2013,硕士.
[32]刘瑾.基于量子神经网络的PID参数控制研究[D].广东工业大学,应用数学,2013,硕士.
[33]凌东.存储:为通信保驾护航[J].中国电信业,2004,09:63-64.
[34]朱延华.偶测血压变异度及臂围对血压测值的影响[D].江西医学院,内科学,2003,硕士.
[35]李伟.国外反恐科技现状及趋势研究[J].中国安防产品信息,2005,03:8-13.
[36]樊秀莉.ISO9000质量管理体系认证对矿山发展的影响[J].有色金属(矿山部分).2005(02)
[37]肖明.WWW科技信息资源自动标引的理论与实践研究[D].中国科学院文献情报中心,2001.
[38]王立宏,吴耿锋.信息表的离散格研究[J].模式识别与人工智能,2004,01:11-16.
[39]任会启.汉语智障儿童动词论元结构的研究[D].南京师范大学,语言学及应用语言学,2012,硕士.
[40]赵涛.甘肃省文化产业投融资对策研究[D].兰州大学,工商管理,2012,硕士.
[41]刘家顺.高速铁路风积土地基震(振)陷变形研究[D].辽宁工程技术大学,岩土工程,2012,硕士.
[42]傅明玉.有限理性与农户参加新农保的行为逻辑研究[D].华侨大学,公共管理,2014,硕士.
[43]刘忠民,俞小莉,沈瑜铭.发动机排气热量测量方法[J].农业机械学报.2007(07)
[44]赵国玉.加快邮电发展,为开发西部、开发新疆提供优质的通信服务[J].世界电信.1998(05)
[45]王顺体.具边界源耦合的退化方程组的临界曲线[D].吉林大学,基础数学,2013,硕士.
[46]薛明志,钟伟才,刘静,焦李成.正交Multi-agent遗传算法及其性能分析[J].控制与决策,2004,03:290-294.
[47]吉海燕.表面微纳米精细结构的构建及其性能研究[D].江苏大学,2012.
[48]张大龙.基于组态技术的玉米果穗烘干监控系统的设计[D].甘肃农业大学,农业电气化与自动化,2013,硕士.
[49]刘立新.论我国纳税评估体系的构建[D].吉林大学,马克思主义理论与思想政治教育,2004,硕士.
[50]庄庆泰.连续钢箱梁桥整体稳定及抗倾覆性能研究[D].长安大学,桥梁与隧道工程,2013,硕士.
- 下一篇: H资产管理公司银川营业部金融支持方式研究
- 上一篇: 宁夏城镇化发展现状、归因分析及路径选择研究