基于LDA的文本聚类在高校网络舆情分析中的应用研究
【摘要】随着互联网技术的飞速发展和使用人群的快速增加,越来越多的人群通过互联网来表达自己观点。尤其是大学生使用互联网更加的频繁,互联网已经成了大学生表达他们意见的主要载体。在本文中,对网络舆情的理论、网络舆情信息的收集、网络舆情数据的预处理、网络舆情数据的分析和常见的文本聚类算法进行了全面的描述和分析。首先,研究了基于高校论坛的网络舆情信息采集和数据预处理技术。通过对高校论坛网站的数据获取方式的分析,提出了基于AJAX的动态网页获取技术。同时根据高校论坛的网页的结构信息,设计了基于DOM技术的网页清洗方法。采用盘古分词系统提供的API,对抓取的数据进行中文文本分词。传统的聚类算法通常是建立在通过词频建立文本向量来计算文本间的相似度的基础上,忽略了文本间具有潜在的语义关联的可能性。而且,传统的聚类算法因为是以词频来构建空间向量,维度过高,计算结果不够准确。鉴于以上的缺陷,本文提出了基于结合LDA主题模型和空间向量模型来计算文本的相似度的聚类算法。LDA主题模型是一个文本潜在主题的概率生成模型,可以解决文本之间语义的关系,同时,LDA主题模型具有强大的降维能力,可以提高聚类结果的准确度。本文提出的基于LDA主题模型和空间向量模型相结合来计算文本相似度的聚类算法,不仅解决了传统的文本聚类的深层语义信息丢失的问题,同时解决了LDA主题模型因为过分降维使得维度过低,从而使得文本区分能力不够的问题。依靠上述的研究成果,本文设计高校网络舆情分析原型系统的总体架构和各个功能模块,并通过VS2010进行开发实现,验证了本文的研究成果。
【作者】王少鹏;
【导师】张媛;
【作者基本信息】首都师范大学,计算机应用技术,2014,硕士
【关键词】高校网络舆情;数据清洗;LDA主题模型;空间向量模型;聚类分析;
【参考文献】
[1]何雨.CO_2气体保护焊短路过渡信号的处理与分析[D].天津大学,材料加工工程,2004,硕士.
[2]李宗飞.南京国民政府时期的河南省救济院研究[D].郑州大学,中国近现代史,2013,硕士.
[3]叶建位.大型实时数据库关键技术及系统构架[D].浙江大学,2005.
[4]叶凡.基于光谱匹配的高光谱识别技术研究[D].成都理工大学,计算数学,2013,硕士.
[5]王建刚.Securinine作为GABA_A受体拮抗剂的离子作用机制[D].青岛大学,生理学,2004,硕士.
[6]王评.人工免疫算法研究及其在数据挖掘上的应用[D].福州大学,2005.
[7]周宏伟.一种节能低温余热带式振动污泥干燥技术的研究[D].苏州大学,机械电子工程,2014,硕士.
[8]张莉.科普文本翻译实践报告[D].重庆大学,2013.
[9]黄艳辉,刘震,陈婕,郭志峰,武彦,孙志鹏.利用地震信息定量预测烃源岩热成熟度——以琼东南盆地乐东—陵水凹陷为例[J].石油地球物理勘探,2013,06:985-994+1016+853.
[10]姜晔.街巷文化—公共视野下的包头底层民众生活研究(1871-1937)[D].内蒙古大学,中国近现代史,2014,硕士.
[11]张帅.川中高石梯构造灯影组优质储层形成机制研究[D].成都理工大学,矿物学、岩石学、矿床学,2013,硕士.
[12]宋虎堂.英国自然主义文学研究在中国[J].广西社会科学,2014,02:156-159.
[13]李斐.网络问题学习行为量表编制研究[D].华中师范大学,教育技术学,2013,硕士.
[14]蔡苏亚.改进的最优链路状态路由协议算法[J].计算机与现代化,2014,08:106-109.
[15]王奇.基于DNA折纸的DNA复制的原子力显微术研究[D].中国科学院研究生院(上海应用物理研究所),生物工程,2014,硕士.
[16]周冬锁.鄂尔多斯市服务型矿政管理电子政务系统设计[D].西安科技大学,工商管理,2014,硕士.
[17]王新.鹅源新城疫病毒的分离鉴定及灭活疫苗的制备和免疫程序的优化[D].吉林农业大学,兽医,2012,硕士.
[18]李微.非均相Fenton催化剂氧化降解废水中DMF技术研究[D].浙江大学,2014.
[19]孙永春.中国创业板IPO绩效及其影响因素的实证研究[D].湖南工业大学,管理科学与工程,2012,硕士.
[20]刘娜.中国近代普通中小学科学教师构成及质量发展研究[D].东北师范大学,教育史,2012,硕士.
[21]莫永亮.冬水田转稻麦轮作对温室气体排放的影响[D].华中农业大学,环境科学,2014,硕士.
[22]赖冬麟.典型棉针织染整企业水网络的分析与设计[D].河北工程大学,市政工程,2012,硕士.
[23]张丽君.注册会计师审计质量存在的问题及对策研究[D].首都经济贸易大学,会计学,2013,硕士.
[24]黄慧佳.四川省电力公司技术技能培训中心数据备份与恢复系统的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[25]张慧.企业集团资金管理模式研究[D].北京交通大学,2009.
[26]李建平.跌撞石墨路,何日见曙光?[N].中国矿业报,2013-11-19A06.
[27]庞庆超.以陕北民歌为素材创作作品的研究[D].西安音乐学院,作曲和声,2013,硕士.
[28]杨枝尧.婚内夫妻共同财产分割制度研究[D].上海社会科学院,民商法学,2012,硕士.
[29]武智.基于声学探测结果的西江梧州江段鱼类资源保护策略研究[D].大连海洋大学,捕捞学,2014,硕士.
[30]邓菲.三种云南民族药的化学成分研究[D].云南中医学院,中药学,2012,硕士.
[31]王金蕴.青娥方对破骨细胞性骨吸收调控作用的实验研究[D].福建中医药大学,中西医结合临床,2014,硕士.
[32]杨晶,黄建辉,詹学明,李鑫,杜丽华,李凌浩.农牧交错区不同植物群落土壤呼吸的日动态观测与测定方法比较[J].植物生态学报,2004,03:318-325.
[33]张博,李璞.中外监督机制分析及其对公安内部监督的借鉴意义[J].广州市公安管理干部学院学报,2014,03:25-29.
[34]王伟.日常需求的匮乏与满足[D].山西师范大学,中国现当代文学,2014,硕士.
[35]李广财,吴亚龙,杨兆军.零度弧齿锥齿轮加工工艺简介[J].一重技术.2004(02)
[36]BianiGermainK(毕阿尼).肺炎衣原体膜表面蛋白(OMP)基因重组质粒的构建与表达[D].浙江大学,内科学,2004,硕士.
[37]付东洋.局域网出口安全检测系统的设计与实现[D].成都理工大学,2003.
[38]张欣昕.美国总统演讲的隐喻分析[D].曲阜师范大学,外国语言学及应用语言学,2013,硕士.
[39]唐梦醒.基于固态纳米孔的蛋白质BSA单分子检测及红曲菌中桔霉素和MonacolinK合成基因的研究[D].南昌大学,微生物学,2014,硕士.
[40]李俊秋.基于TRIBON的船体结构焊接计划数据重构研究[D].江苏科技大学,船舶与海洋结构物设计与制造,2014,硕士.
[41]马婧.滩头木版年画在现代室内装饰中的运用研究[D].中南林业科技大学,设计艺术学,2013,硕士.
[42]赵新华.种植密度对不同玉米品种生长及产量的影响[D].吉林大学,农业推广,2012,硕士.
[43]张晓娟.电石渣与煤掺烧固硫的实验研究[D].东北大学,环境科学,2010,硕士.
[44]孟亮.半滑舌鳎精子发生相关基因的研究及大菱鲆免疫相关EST的筛选[D].中国海洋大学,海洋生物学,2014,博士.
[45]刘子剑.伺服系统在线参数自整定及优化技术研究[D].哈尔滨工业大学,电力电子与电力传动,2014,硕士.
[46]杭小树,熊范纶.具有成本约束和噪声数据信息表的知识约简方法[J].模式识别与人工智能,2001,03:280-284.
[47]徐法波.高速网络中检测超点的紧凑算法研究[D].大连海事大学,计算机科学与技术,2013,硕士.
[48]潘成燕.Butein衍生物设计、合成及抗抑郁活性研究[D].浙江海洋学院,食品加工与安全(专业学位),2014,硕士.
[49]李正强.功能化倍半硅氧烷和铝离子荧光探针研究[D].山东大学,高分子化学与物理,2013,硕士.
[50]陈爱生.教学研究型大学内部管理改革的策略选择[J].南昌航空大学学报(社会科学版),2014,04:78-84.
- 下一篇: 预合金粉对金刚石节块性能影响研究
- 上一篇: 如何打造钢铁工业安全稳定的原料供应链?