微博数据预处理及话题检测方法研究
【摘要】随着互联网的迅速发展,微博作为一种新的网络媒体形式,在人们获取信息、传递信息、检索信息等日常网络行为中扮演着越来越重要的角色。与传统媒体数据相比,微博文本简短,支持实时转发评论,并且话题传播速度快,这使得微博数据成为新的研究对象。微博话题检测技术是研究如何对大量的微博数据信息进行管理分类,已经成为当前微博研究的热点之一。本文从微博数据的采集、微博数据短文本预处理、微博话题检测方法三个方面进行研究。采集相关微博数据,并结合微博的文本简短性和结构化信息特征,在传统话题检测方法基础上,对微博数据预处理和微博话题检测方法进行了探讨。主要工作内容如下:基于微博开放API接口采集相关微博数据。在微博采集数据方面,介绍了网络爬虫技术和基于微博开放平台的微博数据获取方案。通过数据获取实验分析两种数据采集方法的优缺点,表明微博开放平台获取数据方法更好。所以,采用通过程序调用微博API接口获取本文的实验数据。针对微博短文本,提出一种新的基于多语言翻译的文本特征扩展方法。在微博数据短文本预处理方面,提出了一种有效的扩充数据特征表示方法,即通过翻译机器的多种语言表达增加文本特征数量。我们从其他语言中获得的额外知识丰富简短文本特征,然后利用矩阵分解技术进行短文本整合和维数约减,这在一定程度上解决了短文本挖掘中存在的问题。改进单增量聚类算法用于微博话题检测。在传统话题检测方法的基础上,结合微博文本简短的特点和微博结构化信息的特征,对单增量聚类算法进行了改进。采用相似度最大阈值和最小阈值策略,并利用微博文本间转发评论关系和微博用户间好友关系,提出MB-SinglePass微博话题检测算法。实验证明该算法检测效果更佳。
【作者】李妍;
【导师】赵书良;
【作者基本信息】河北师范大学,计算机应用技术,2014,硕士
【关键词】短文本预处理;微博数据;话题检测;数据采集;
【参考文献】
[1]李明哲.基于施工风险评估的桥梁工程保险费率厘定优化研究[D].长安大学,建筑与土木工程(专业学位),2014,硕士.
[2]董素馨.企业亚文化综述[J].企业改革与管理,2014,04:49-50.
[3]马良慧.新窑煤矿安全风险管理研究[D].西安科技大学,工商管理,2014,硕士.
[4]王丽.ETUDES DES ELEMENTS SURREALISTES DANS NADJA[D].西安外国语大学,法语语言文学,2014,硕士.
[5]崔菊.融合中国古典园林艺术的现代公共建筑院落形态空间设计研究[D].安徽建筑大学,城市规划与设计,2012,硕士.
[6]徐均.西部地区基础设施建设及投融资机制研究[D].中央民族大学,中国少数民族经济,2004,硕士.
[7]胡敏 崔晶炜.CRM离普及有多远[N].中国高新技术产业导报,2003/12/02.
[8]杜广伟.一类Kirchhoff板模型与Timoshenko模型解的动力学性质[D].曲阜师范大学,应用数学,2013,硕士.
[9]刘鑫,许华荣,胡占义.基于GPU和Kinect的快速物体重建[J].自动化学报,2012,08:1288-1297.
[10]李红梅.从接受美学视角看《台北人》的白先勇自译本[D].重庆大学,外国语言学及应用语言学,2014,硕士.
[11]王大龙.拉萨至贡嘎机场高速公路水泥稳定碎石路用性能研究[D].长安大学,道路与铁道工程,2013,硕士.
[12]侯淑玲.EB病毒感染与淋巴瘤基因组不平衡改变的研究[D].山西医科大学,分子微生物免疫,2003,硕士.
[13]齐军.5α还原酶抑制剂对前列腺癌诊断标记PSA的影响[D].内蒙古大学,生物工程,2014,硕士.
[14]邵治家.6106柴油机工作过程的数值模拟及优化[D].大连理工大学,2008.
[15]谢瑶.“导学”教学模式研究调查报告[D].华中师范大学,学科教学,2013,硕士.
[16]马静.从《都柏林人》看乔伊斯笔下的城市书写[D].西北民族大学,比较文学与世界文学,2012,硕士.
[17]姚丽君.纳米多孔金属及复合物在葡萄糖检测中的应用研究[D].吉林大学,材料学,2013,硕士.
[18]徐梦琦.二次电源自动测试系统的设计与实现[D].南京航空航天大学,电路与系统,2012,硕士.
[19]徐妙君,谭小球.商业智能中的数据挖掘研究[J].浙江海洋学院学报(自然科学版),2005,03:88-90.
[20]苏建徽.光伏水泵系统及其控制的研究[D].合肥工业大学,2003.
[21]欧阳明丽.过渡金属氧化物纳米粒子的电容性能研究[D].吉林大学,物理化学,2013,硕士.
[22]陈金燕.发作期癫痫脑电信号的自动检测方法研究[D].华东理工大学,控制科学与工程,2013,硕士.
[23]王霞.数据仓库与数据挖掘技术在学生就业信息分析中的应用研究[D].中山大学,软件工程,2013,硕士.
[24]李如忠,周爱佳,童芳,吴亚东,张萍,喻佳.合肥市城区地表灰尘重金属分布特征及环境健康风险评价[J].环境科学,2011,09:2661-2668.
[25]刘代平.钢铁物流园区装卸搬运设备优化配置研究[D].西南交通大学,物流工程,2013,硕士.
[26]张国灿.税源专业化管理模式下税收执法风险管理研究[D].云南财经大学,公共管理,2014,硕士.
[27]万树怡.表现:无法抑制的冲动[D].天津大学,建筑设计及其理论,2004,硕士.
[28]邢艳东.道路交通事故受害人社会救助基金请求权问题研究[D].吉林大学,法律,2014,硕士.
[29]胡鑫.相信生命及其教育价值[D].首都师范大学,教育学原理,2014,硕士.
[30]刘春雨.公文事务语体的翻译策略[D].黑龙江大学,翻译,2013,硕士.
[31]卢扬.弗洛姆人性思想及其时代价值探析[D].吉林大学,国外马克思主义研究,2014,硕士.
[32]王沪生,王珏.铁路改革过程中竞争的可控与充分[J].中国铁路.2003(02)
[33]王军,董方军.美国金融危机对我国经济的影响及启示[J].中国城市经济,2009,01:82-87.
[34]邹乐.基于富营养化水体修复的凤眼莲控养对水体生态环境的影响[D].南京农业大学,植物营养,2012,硕士.
[35]张亚洲.基于卡罗尔模型的中国企业社会责任状态研究[D].北京交通大学,2014.
[36]汪亚娟.基于iTRAQ技术的盐(NaCl)胁迫下黑果枸杞蛋白质组学研究[D].兰州大学,植物学,2013,硕士.
[37]肖伟联.恒运电厂烟气脱硫半干法改湿法技术经济分析[D].华南理工大学,动力工程,2012,硕士.
[38]徐佳.腹腔镜下直肠癌根治术与开腹手术近期疗效对比分析[D].广西医科大学,普通外科学(专业学位),2013,硕士.
[39]沈旭娇.超高压处理对盐水鸭货架期的影响[D].南京农业大学,食品科学,2012,硕士.
[40]顾善雯.扩张型企业财务危机影响因素的实证研究[D].云南财经大学,会计学,2013,硕士.
[41]WYCheZhihong.A Relevance Theoretical Account for Audiovisual Translation: Desperate Housewives as a Case[D].西安外国语大学,外国语言学及应用语言学,2014,硕士.
[42]杜庆东,徐凌宇,赵海.基于神经融合算法的水电厂压力引水系统的辨识[J].控制与决策,2001,S1:787-790.
[43]赵晖.电网集团资金集中管理信息系统的设计与实现[D].湖南大学,软件工程,2013,硕士.
[44]王霞.中小银行风险管理研究[D].西安理工大学,技术经济及管理,2004,硕士.
[45]王冰.我国当前证券市场的税制优化研究[D].首都经济贸易大学,财政学,2014,硕士.
[46]胡春涛.从完整封闭走向支离多元[D].安徽师范大学,美术学,2004,硕士.
[47]周皓.吉林省汽车产业集群研究[D].吉林大学,区域经济学,2013,硕士.
[48]陈鸿奋.髋臼后柱顺行拉力螺钉置钉导航系统的研制与应用[D].南方医科大学,骨外科学,2012,硕士.
[49]刘琼.19世纪末20世纪初外国资本对俄国石油工业的影响[D].辽宁大学,世界史,2012,硕士.
[50]刘香荣.芫荽香味成分分析及稳定性研究[D].中南林业科技大学,森林食品加工与利用,2013,硕士.
- 下一篇: 问题驱动型教学模式在运筹学中的应用
- 上一篇: 视频插值ELA算法在图像去噪中的应用研究