互联网文本信息挖掘与个性化推荐的研究

互联网文本信息挖掘与个性化推荐的研究

作者:师大云端图书馆 时间:2015-09-01 分类:硕士论文 喜欢:3630
师大云端图书馆

【摘要】随着互联网技术的发展,网站的普及以及大量文本数据的出现,互联网已经成为了人们获取信息资源的一条重要渠道。但是网络数据成千上万,一个人无论如何用多久的时间也不可能完成对整个互联网的探索。因此简化对网络的探索过程,提高网络信息的检索效率就成为了当前网络时代的研究方向。好的信息挖掘方法可以提高人们的信息检索效率,能够提供准确、及时、可靠的网络信息汇总,提供适合人们阅读的摘要。同时,随着网络技术的发展,越来越多的网站出现了不需要人工搜索,就可获得信息的新途径,这些新途径就是信息推荐。在合适的时机,给合适的对象提供相关信息或相关产品推荐,能够提升用户浏览兴趣,提高网站的服务体验,并且增加用户对网站的粘度。推荐方法是继搜索引擎之后的又一大信息获取方法,该方法在未来有着很大的应用前景,不但对于互联网新闻消息、相关文本推荐有帮助,而且在电子商务、公司产品推广以及新产品扩展和传播等领域均具有重要的应用价值。鉴于此,本论文结合交叉学科的研究方法,针对现有互联网文本信息的特点提出网络热点话题发现算法以及网络自动摘要生成模型,并且通过研究网络用户之间的兴趣联系和用户偏好进而提出个性化推荐算法。本文分别从互联网文本数据采集与处理、文本信息聚类算法、热点信息挖掘、网络新闻摘要提取方法、协同过滤推荐算法、基于社团关系的信息推荐等方向和角度,对互联网的文本数据挖掘及个性化推荐进行了研究。论文的主要研究内容如下:1.研究了互联网文本信息采集与预处理技术,中文分词与聚类方法,并针对互联网文本信息的特点,提出了一种网络热点事件的发现算法。该方法通过引入文本词语的突发度量值,结合词语位置对权重的影响因素,完善了词语权重计算的准确度。此外,本文提出一种基于预设密度的聚类算法,该算法通过以相似的文本为核心的类簇,获得合理划分的文本主题。从而在不需要事先指定事件数的情况下,自动发现该时间段内的热点事件。实验结果表明,该算法在发现互联网热点事件的检测中有较好的效果。2.研究了对网络文本信息自动生成摘要的方法。该方法使得文本信息得以压缩,使用摘要的形式来表示文本,从而可以提供用户快速获取文本的主要内容。通过分析了互联网新闻自动摘要的特殊情况,针对多文本信息的摘要,提出了摘要主题的概念。局部主题就是在把互联网新闻划分成句子后,根据分层聚类形成的结果,产生的信息集合。其次,利用互联网新闻常附有人工评论信息的条件,进一步提高文本摘要的准确度。通过将新闻正文及评论的语句映射为网络节点,再引入网络中分析节点权重的HITS算法,来计算处于不同位置的句子的影响力。根据评论信息对新闻正文语句的影响程度,改进传统算法中计算这些语句的权重大小,进而影响了摘要句的选取。实验表明,使用评论信息的摘要算法比没有使用评论信息的摘要算法的效果更好。该研究为互联网条件下的信息抽取和自动摘要以及未来进一步的文本信息压缩提供了基础。3.研究了基于协同过滤的推荐算法。在传统的协同过滤基础上,改进了协同过滤推荐算法中的用户相似度计算,进而提高了推荐的准确度。通过考虑不同用户的共同喜好,以及他们各自偏好对相似度的影响,进而提出一种基于对数的相似度计算公式。并且在实际应用中,使用微博数据检验了改进后的推荐算法。对微博聚类形成不同的话题类,然后获得用户与这些话题类的关系网络,从而利用改进的协同过滤算法做推荐。实验的结果表明,基于微博数据的推荐能够有效的命中验证集中的数据,具有良好的推荐效果。新的推荐算法与传统的协同过滤算法相比,较大幅度的提高了推荐准确率,具有更好的个性化推荐效果。4.从推荐系统的角度出发,通过提出了两种不同社团形成模型,研究在不同社团形成条件下的适合的推荐方法。对此,提出了两种适合社团内相似度计算的模型,并与传统相似度模型对比,测试了几种相似度计算模型在以社团为推荐条件下的实际应用效果。实测中,以公认的Movielens数据集为验证数据,验证了基于社团形成的模型不但在推荐的准确度,以及推荐的多样性等方面都优于传统的热传导模型及概率传递模型。通过比较两种社团形成的模型,发现非严格划分的社团模型,与严格划分社团模型相比,拥有更高的推荐准确度与推荐多样性值。因此该种模型更适合推荐系统,尤其适合为个性化推荐提供服务。
【作者】温源;
【导师】刘云;
【作者基本信息】北京交通大学,通信与信息系统,2014,博士
【关键词】话题发现;自动摘要;聚类算法;协同过滤;个性化推荐;

【参考文献】
[1]刘芳亭.完全性前置胎盘52例临床分析[D].吉林大学,临床医学,2013,硕士.
[2]唐志平,吴志斌.关于提升广东电信宽带业务运营效率的若干思考[J].广东通信技术.2005(06)
[3]陈丽媚.广东移动茂名分公司人力资源外包研究[D].西安科技大学,工商管理,2013,硕士.
[4]彭博.解放战争时期《东北日报》副刊研究[D].沈阳师范大学,中国现当代文学,2013,硕士.
[5]康文军.多线速OTN城域网的业务疏导研究[D].南京邮电大学,光学工程(专业学位),2013,硕士.
[6]章长东.我国现有TN低压系统改进措施的刍议[J].电气工程应用.1987(01)
[7]曹曦元.我国公务员职位分类制度研究[D].吉林财经大学,行政管理,2014,硕士.
[8]李岩松,刘君.自适应光学电流互感器的信号处理方法[J].电力系统自动化,2008,10:53-56.
[9]杨成梧,陈雪如,邹云.变系数2-D线性离散系统在一般模型下的状态响应及其观控性[J].自动化学报,1991,05:551-558.
[10]徐志民.开窗减压术治疗单囊型成釉细胞瘤的临床研究[D].吉林大学,口腔医学,2013,硕士.
[11]白灿.中国共产党思想道德传统的传承载体研究[D].河北师范大学,思想政治教育,2014,硕士.
[12]宋雷.外语院校交叉学科建设研究[D].四川外国语大学,课程与教学论,2013,硕士.
[13]任乾睦.石墨烯/介孔二氧化硅二维纳米复合材料的制备及其结构控制[D].华东理工大学,化学工艺,2014,硕士.
[14]董雪.沙冬青平茬技术及刈割后生理生化特性研究[D].内蒙古农业大学,水土保持与荒漠化防治,2013,硕士.
[15]许峰,吴玲芳,林善,王鸿艳,滕毅,柳志强,郑裕国.发酵冬虫夏草菌丝体中虫草多糖含量的检测及结构鉴定[J].基因组学与应用生物学,2014,06:1294-1302.
[16]朱天培.加强党的执政能力建设的实践及其理论思考[D].苏州大学,政治学理论,2013,硕士.
[17]陈建剑.石墨烯改善环氧树脂基/碳纤维复合材料界面性能的研究[D].江南大学,纺织工程,2012,硕士.
[18]刘文胜.网络广告不正当竞争的法律问题研究[D].华东政法学院,法律,2003,硕士.
[19]张晓飞.制造型企业系统化管理体系研究[D].天津财经学院,企业管理,2004,硕士.
[20]苏航.化工企业环境风险评价与突发环境事件应急预案研究[D].浙江大学,2014.
[21]余晓诗.论卡森·麦卡勒斯作品中的孤独—认同综合症[D].上海外国语大学,英语语言文学,2012,硕士.
[22]黄欠.安徽省战略性新兴产业竞争力评价研究[D].安徽大学,企业管理,2013,硕士.
[23]王研.高纤维即食玉米片生产新工艺的研究[D].吉林农业大学,粮食、油脂及植物蛋白工程,2012,硕士.
[24]高林.《领导者:芮成钢专访》中的对话分析[D].大连海事大学,外国语言学与应用语言学,2013,硕士.
[25]吴卓.定向诱导间充质干细胞向心肌细胞方向分化过程中Nkx2.5的表达[D].广西医科大学,组织学与胚胎学,2013,硕士.
[26]于将.城市供电系统设备缺陷管理的数据模型[J].高电压技术,2001,S1:27-28.
[27]原露露.煤炭上市公司治理结构对社会责任影响研究[D].山西财经大学,会计学,2013,硕士.
[28]高丹,李晓红.近年来我国网络信息组织研究述略[J].图书情报知识,2004,05:63-65.
[29]胡庆有.含大规模风光互补电力的电力系统动态经济调度研究[D].西南交通大学,电力系统及其自动化,2013,硕士.
[30]胡万聪.非公有制企业党建工作机制研究[D].中共中央党校,党的学说与党的建设,2013,硕士.
[31]王苹.西南联大师范学院师范教育的历史研究(1938-1946)[D].云南师范大学,高等教育学,2013,硕士.
[32]田茂义,卢秀山,张燕,马锦.基于Oracle的“数字城市”基础地理空间数据库的实现[J].测绘科学,2005,03:80-82+7.
[33]王磊.基于改进离散粒子群算法的作业车间调度方法研究及应用[D].浙江工业大学,2012.
[34]李洪江,冯敬海,曲晓飞.阶段性投资最优规模问题的实物期权方法[J].控制与决策,2003,05:590-592+596.
[35]程昔武,周宗超.关于会计电算化教学的若干问题探讨[J].中国会计电算化,2001,10:38-39.
[36]金持中.基于改进的EMD滤波的电力系统低频振荡Prony分析[D].西南交通大学,轨道交通电气化与自动化,2014,硕士.
[37]高涛.幂律流体在内管做轴向往复运动的偏心环空中的非定常流[D].大庆石油学院,油气田开发工程,2004,硕士.
[38]严盟.数字图像脉冲噪声去除方法研究[D].华中师范大学,计算机应用技术,2013,硕士.
[39]王巍,李善平.电子政府一般性体系结构的研究[J].决策借鉴,2001,06:42-44.
[40]王若,王妙月.一维全资料CSAMT反演[J].石油地球物理勘探,2007,01:107-114+132-133+125.
[41]邱雪芹.机器人微创手术器械研制及手术操作性能分析[D].哈尔滨工业大学,机械电子工程,2013,硕士.
[42]李玲君.从肝论治功能性消化不良的文献研究[D].甘肃中医学院,中医内科学,2014,硕士.
[43]陆斌.前路手术对颈椎稳定性影响的生物力学研究[D].第四军医大学,外科学,2004,硕士.
[44]李春宏.中国玉米种子市场分析[D].中国农业大学,农业经济管理,2004,硕士.
[45]李盼.包容性发展取向下的县级政府竞争优化研究[D].华中师范大学,行政管理,2012,硕士.
[46]胡磊.基于IMS智能终端的智能家居系统研究与实现[D].广东工业大学,模式识别与智能系统,2014,硕士.
[47]马星星.英语新闻中话语标记语的使用对比研究[D].新疆大学,英语语言文学,2013,硕士.
[48]陈亚慧.我国现行庭审直播规制问题探讨[D].湖南师范大学,法律(专业学位),2014,硕士.
[49]李英.巴彦淖尔市开发绿色食品问题的研究[D].内蒙古农业大学,农业经济管理,2004,硕士.
[50]程九思.证券组合系统性风险研究[D].吉林大学,金融,2014,硕士.