BBS网络热点话题发现

BBS网络热点话题发现

作者:师大云端图书馆 时间:2016-04-21 分类:参考文献 喜欢:2645
师大云端图书馆

【摘要】我国互联网信息技术发展迅速,互联网资源日益繁杂,而网络中海量的数据信息资源却没有被充分利用。互联网资源主要以HTML文本形式表示,因此采用文本挖掘技术可以高效低获取网络信息资源。作为文本挖掘技术的重要组成部分,文本聚类算法是目前国内外学者研究的热点和难点。本文采用“中华网BBS”中8个版块的数据集为研究对象,开展了对两种经典文本聚类算法Single-Pass和K-means的应用研究,分析了两种算法存在的不足并对其进行改进,得到了可靠的数据结果,证明了改进算法的可行性。主要工作如下:1.详细介绍了BBS文本数据(树状结构和表状结构)的采集过程,着重阐述了BBS文本的预处理过程,包括特征项的选取、BBS数据清洗以及BBS文本表示,获得了文本向量特征项的权值矩阵。2.详细介绍了经典增量式聚类算法Single-Pass的特点,针对该算法中“聚类质心不唯一”的缺陷提出“设定唯一聚类质心”的改进方案,降低了算法的时间复杂度;针对“算法聚类中心随机性强”的不足提出了“不断优化聚类中心”的改进方案,使得聚类中心的代表性更强。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典Single-Pass算法的聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。3.详细介绍了经典划分式聚类算法K-means的特点,针对该算法中“聚类中心难以确定”的不足提出“选择最优聚类质心”的改进方案,改进后的算法得到了可靠的聚类质心。最后,基于“中华网BBS”文本数据对改进后的算法进行验证、分析,并与经典K-means算法聚类结果进行对比,得到了更为理想的实验结果,表明算法可行有效。4.在改进后的Single-Pass和K-means算法的数据预处理步骤中设置“回收类”,用于存放BBS中的无关帖,深入分析表明“回收类”中的无关帖包括广告贴、垃圾帖、图片贴等,并着重阐述了“回收类”中“其他话题贴”演化为未来“热帖”的可能。
【作者】马国栋;
【导师】李慧;
【作者基本信息】首都师范大学,教育技术学,2014,硕士
【关键词】Web数据挖掘;话题发现;Single-Pass;K-means;

【参考文献】
[1]王伟.沪市A股收益率研究[D].宁波大学,数量经济学,2012,硕士.
[2]孙舒.Google和Yahoo的阿拉伯语搜索效果对比分析[D].北京外国语大学,阿拉伯语语言文学,2013,硕士.
[3]李俊成.人际自立对社会排斥后攻击行为的调节作用及其脑机制[D].西南大学,基础心理学,2014,硕士.
[4]孟晓晔.风障对大跨桥梁挡风性能的研究[D].北京交通大学,防灾减灾及防护工程,2013,硕士.
[5]徐华友.A公司发展战略研究[D].电子科技大学,2004.
[6]代沅兴.挖掘机机器人化实验系统的研究与开发[D].东北大学,机械制造及其自动化,2009,硕士.
[7]田太强.施肥与耕作对紫色土坡耕地地表径流氮磷流失及作物产量的影响[D].西南大学,水土保持与荒漠化防治,2014,硕士.
[8]葛腾.PHC静压管桩土塞效应的研究[D].沈阳建筑大学,岩土工程,2013,硕士.
[9]温春音.我国创业板上市公司治理结构与企业成长性关系研究[D].吉林财经大学,会计学,2014,硕士.
[10]苑佳.基于小波变换的模态参数识别及模态动画显示技术的研究[D].燕山大学,机械设计及其理论,2014,硕士.
[11]朱宏达.全球价值链下波司登的国际化模式研究[D].苏州大学,国际商务(专业学位),2014,硕士.
[12]陈一墨.诡异梦魇—论当代写实主义画家奥德·奈卓姆的绘画[D].渤海大学,美术学,2013,硕士.
[13]新苏布达.赤峰市蒙古语方言地理学研究[D].内蒙古大学,中国少数民族语言文学,2014,硕士.
[14]蔡兴旺.秸秆发酵剂的研究[D].天津科技大学,发酵工程,2004,硕士.
[15]吴方舟.双语杂志编译探析[D].上海外国语大学,翻译(专业学位),2014,硕士.
[16]殷广庆.梁式桥有限元模型建立与修正及其应用[D].大连理工大学,防灾减灾工程及防护工程,2013,硕士.
[17]苏业芹.相伴素理想的性质及其研究[D].西南交通大学,基础数学,2014,硕士.
[18]崔海春.基于模式的离散事件系统故障诊断方法[D].吉林大学,计算机软件与理论,2013,硕士.
[19]王洪.雷达卫星资料在高分辨率区域数值预报中的应用研究[D].中国气象科学研究院,气象学,2014,硕士.
[20]朴庭贤.河北石湖金矿金、银矿物的赋存状态及成矿机理[D].中国地质大学(北京),矿物学、岩石学、矿床学,2014,硕士.
[21]王洪斌,李仙粉,任福民,许兆义,刘建华.环烷酸铈消烟助燃剂改善内燃机有害排放的研究[J].农业机械学报.2003(04)
[22]戴永红.砀山酥、鸭梨结果枝条特性与果实品质关系研究[D].南京农业大学,农业推广,2011,硕士.
[23]伏文.高分子/无机纳米复合材料的制备及其性能研究[D].合肥工业大学,2013.
[24]付硕章.洪湖湿地植物储碳、固碳能力及营养元素积累研究[D].湖北大学,生态学,2012,硕士.
[25]袁亮.辐射法建立建筑网测量工艺研究[J].石油规划设计.1993(03)
[26]陈莹.合作学习——英语课堂教学的一种有效途径[D].福建师范大学,教育,2003,硕士.
[27]颜宏文,马瑞,龙际珍,颜宏斌.数据挖掘中判定树算法SLIQ的设计与应用[J].计算机工程,2005,06:60-62.
[28]何剑.纳米结构BiFeO_3光催化降解有机污染物及其光电化学性能研究[D].苏州大学,材料物理与化学,2013,硕士.
[29]张栋,蔡开元.模糊推理的函数变换观点[J].控制与决策,2002,05:595-598+603.
[30]崔羽杭.大学英语词汇移动学习的实证研究[D].延安大学,课程与教学论,2014,硕士.
[31]张伟瑞.基于graph-cuts的脑组织自动提取方法[D].南昌航空大学,生物医学工程,2013,硕士.
[32]班宇鑫.CuAlNi合金马氏体成核的分子动力学模拟[D].哈尔滨工业大学,固体力学,2014,硕士.
[33]王艳辉.网络著作权间接侵权责任研究[D].吉林大学,法律,2013,硕士.
[34]钟敏.伦理型领导对员工创造力影响的实证研究[D].浙江大学,2013.
[35]汪庆森.模型移植及其在浸出过程建模中的应用研究[D].东北大学,控制理论与控制工程,2011,硕士.
[36]汪全立.国有股减持的理论分析与对策研究[D].湖南大学,政治经济学,2003,硕士.
[37]汤罗英.明德“三生课堂”教学模式的实践与探索[D].湖南师范大学,学科教学(专业学位),2014,硕士.
[38]毛文明,鲁翠涛,季魏红,贾建敏,郑俊海.浙江省50种高校学报影响力分析[J].温州医科大学学报,2014,06:463-469.
[39]杨娇.重庆市会展业发展现状及影响因素研究[D].重庆工商大学,产业经济学,2014,硕士.
[40]何冬冬.基于进化算法的细胞神经网络模板设计[D].华南理工大学,计算机技术,2012,硕士.
[41]张怡蕾.我国海上维权力量整合研究[D].大连海事大学,行政管理,2013,硕士.
[42]王珍.机构投资者参与公司治理的效应分析[D].广东财经大学,会计学,2014,硕士.
[43]李雪静.汤婷婷《女勇士》中的后现代主义特征[D].河北师范大学,英语语言文学,2012,硕士.
[44]姚宝珠.采空区下回采巷道围岩破坏机理及控制技术[D].中国矿业大学(北京),采矿工程,2014,博士.
[45]张巍.气压制动系统ABS硬件在环测试平台研究[D].武汉理工大学,车辆工程,2013,硕士.
[46]刘春慧.A集团财务管控优化方案设计[D].北京交通大学,2014.
[47]陈伟.基于顾客感知的民营快递企业服务质量评价实证研究[D].广东外语外贸大学,企业管理,2013,硕士.
[48]胡加林.袋装砂井处理软粘土路堤地基沉降与稳定性研究[D].浙江大学,建筑与土木工程,2004,硕士.
[49]王攀科.长距离引水工程施工进度控制研究[D].华北水利水电学院,水利工程,2012,硕士.
[50]贾立伟.航空叶片数控加工变形分析与控制方法研究[D].西安工业大学,机械制造及其自动化,2014,硕士.

相关推荐
更多