基于聚类分析的网络用户兴趣挖掘方法研究

基于聚类分析的网络用户兴趣挖掘方法研究

作者:师大云端图书馆 时间:2015-09-06 分类:期刊论文 喜欢:1546
师大云端图书馆

【摘要】网络应用的深入发展使网络信息服务系统的服务模式从集中统一的被动型向分布式个性化的主动型演进。实现这种服务模式转换的一个前提条件是对网络用户需求规律的深入理解,进而依据这些规律指导信息服务系统的信息资源组织与调整,使用户的需求信息与系统提供的尽可能一致。网络用户兴趣作为网络用户信息需求规律的一种形态,是构造新一代信息服务系统中资源组织自适应机制的工作基础。本文围绕用户兴趣模式提取这一目标,以用户访问的网页中文文本信息为对象,利用复杂网络理论、图论、随机过程理论、人工免疫网络原理及中文语义计算等方法与技术,较为深入的研究基于文本聚类的用户兴趣挖掘算法及相关问题,以期在降低聚类算法的计算复杂度,实现软聚类及探索新的处理方法等方面进行有益的尝试。主要研究内容包括下述四个方面:(1)用户兴趣挖掘模型。网络用户兴趣模式是用户个体和用户群体使用网络行为规律的描述,网络兴趣挖掘模型则是获取用户兴趣模式的一组规范处理流程。针对Web用户访问Web站点的行为过程,本文依据全信息理论中的信息过程模型,提出了一种网络用户兴趣挖掘概念模型,其核心是从信息认知角度描述挖掘用户兴趣模式的处理过程,这种信息认知是由语法认识和语义认知二个层次来描述。该挖掘模型的重要特点是将多层次多角度的用户兴趣处理过程统一到一个框架中。为了具体指导网络用户兴趣挖掘工作,文本给出基于聚类分析的用户兴趣模式及迁移模式的挖掘模型。应用实践表明所提出两个模型是合理的。(2)文本聚类中的降维处理算法。针对文本特征集维数较大这一典型问题,利用小世界网络模型具有描述自然界和人造系统的动态属性和结构特征之间关系的特点,本文采用K-最近邻耦合方式构造文本词语网络图,该文本词语网络中的节点表示文本中的词语,边表示词语间的某种空间距离上的相邻关系。引入词语聚类系数变化量和平均最短路径变化量度量词语的重要性。通过计算词语的这两个变化量来确定词语是否存在小世界特征,进而实现特证词的选择。该方法的特点从基于空间距离的文本组织结构中选择特征词。实验结果表明该方法是有效的,为文本特征提取提供一条新的解决途径。(3)文本聚类算法研究。虽然已有许多成熟聚类方法较好地实现文本聚类分析,但由于词语的多义性,文本特征的稀疏性以及文本类别分布的多样性,使得聚类结果很难保证生成文本类别与人们所期望的类保持高度一致。为此,仍需从多种技术途径研究聚类算法。鉴于传统基于优化方法的聚类算法普遍存在需要事先知道聚类类别数,对类边界不清晰的数据处理不当及易陷入局部极大等问题,将人工免疫系统(ArtificalImmuneSystem,AIS)方法引入到文本聚类处理之中,提出自适应多克隆聚类算法,其主要处理环节是引入重组算子来增加抗体种群中个体的多样性,以扩大解的搜索范围,避免过早出现早熟现象;引入非一致变异算子增强局部求解的自适应性,优化局部求解性能,加快解的收敛速度;用亲和度函数调节聚类类别。另外,利用Markov链证明算法的收敛性。针对文本数据,对上述算法进行适当的裁剪,提出基于人工免疫网络的文本聚类算法,实验结果表明算法聚类的有效性高。现实生活中许多事物都可以用一个复杂的网络来描述,在这些实际网络中都存在着一个共同的性质:社团结构。复杂网络中的社团结构发现本质上就是网络上节点的聚类处理,本文将复杂网络理论中的方法引入到文本聚类分析中,提出基于社团结构发现的文本聚类算法,利用知网(Hownet)语义相似度计算公式,定义文本相似性度量方法,依据文本相似性构造文本关联图,利用称为Newman聚类算法实现文本的聚类分析。这种方法的特点是可处理大规模问题。针对目前的大多数文本聚类算法都将文本进行严格归为一类和计算复杂度高的问题,考虑后缀树模型能有效的表示特征词间的关系、具有增量式更新以及遍历时间短等特点,本文将后缀树模型引入文本聚类中,提出了基于语义计算的后缀树聚类算法,该算法通过对特征词语义相似度和权重的判断构建后缀树,选择基类节点构造基类连通图,求解树连通性以便实现聚类处理。为了降低算法的时间和空间复杂度,进一步提出基于语义后缀网的聚类算法,本算法的改进之处是:通过计算特征词间的语义相似度来构建后缀网,使后缀网的节点数和分支数减小,并通过特征词的权重判断来选择基类。实验结果表明这两种算法都能实现文本的软聚类,时间复杂度小,且聚类的类簇标识可读性强。(4)网络用户兴趣模式及变迁模式发现。用户兴趣模式实际形式是用一组有显著类别的特征词集合组成。本文通过计算文本簇中的大部分文本中出现同一个词语或者出现一类词义相似的词语的词频来选择生成用户兴趣模式的。用户兴趣的迁移模式是用户兴趣模式随时间动态变化的一种描述。针对文本存在多主题性这一问题,提出了一种基于隐马尔可夫原理的用户兴趣序列获取方法,该方法以用户访问序列和用户兴趣为对象,建立基于用户兴趣序列的隐马尔可夫模型,采用其解码问题相关算法实现用户最优兴趣序列的获取。采用序列模式挖掘算法获得用户兴趣序列的频繁模式。这些频繁模式就是用户兴趣的迁移模式,其本质是一种具有顺序特征的用户兴趣关联规则。为了提高挖掘效率,采用基于频繁链表-存取树(FlaAT)结构的挖掘算法获取频繁模式,该算法的优点是处理速度快且能通过更新FlaAT结构实现序列的增量式挖掘。实验表明所提方法是可行的,挖掘出的用户兴趣迁移模式不仅能够表现出用户兴趣的变化,也能够反映出用户兴趣之间的关联和变化规律。
【作者】马力;
【导师】焦李成;
【作者基本信息】西安电子科技大学,电路与系统,2012,博士
【关键词】网络用户兴趣;兴趣挖掘模型;特征降维;文本聚类;语义相似度计算;

【参考文献】
[1]王清.妇女家庭地位研究[D].华中师范大学,社会学,2013,硕士.
[2]徐全坤,李伟,刘宏伟,林勇刚.120kW水平轴潮流能发电机组载荷计算[J].海洋技术学报,2014,04:92-97.
[3]郝煦雯.青岛口岸外贸业态嬗化分析[D].中国海洋大学,国际商务(专业学位),2014,硕士.
[4]刘振雄.云南水果庙铅锌矿高精度磁测可行性研究[D].成都理工大学,固体地球物理学,2013,硕士.
[5]王周峰.基于形状记忆合金的结构裂缝自修复理论研究[D].兰州理工大学,建筑与土木工程,2014,硕士.
[6]董非.隧道施工安全管理系统设计与实现[D].长安大学,计算机技术(专业学位),2014,硕士.
[7]伍学艳.低氧预适应对自体原位肝移植大鼠血清内毒素水平及肠道TLR4表达的影响[D].扬州大学,外科学,2012,硕士.
[8]梁云.北京市南水北调应急供水水质水量联合调控方案研究[D].东华大学,环境科学,2013,硕士.
[9]王学敏.3003铝合金搅拌摩擦焊组织与性能研究[D].燕山大学,材料工程,2013,硕士.
[10]甄丽卿.江西畜牧业发展研究[D].江西农业大学,农村与区域发展,2012,硕士.
[11]李孔青.海外关于中国村民自治研究评析[D].中共广东省委党校,马克思主义中国化研究,2013,硕士.
[12]赵立军.鸦胆子油乳对卵巢癌模型鼠组织MRP-1/CD9、integrinα5作用机制的实验研究及补肾消癥法的临床观察[D].黑龙江中医药大学,中医妇科学(专业学位),2013,硕士.
[13]姜久春,文锋,温家鹏,郭宏榆,时玮.纯电动汽车用锂离子电池的建模和模型参数识别[J].电力科学与技术学报,2010,01:67-74.
[14]周健.全业务运营环境下永州移动渠道策略研究[D].湘潭大学,工商管理,2011,硕士.
[15]赵桂平.折射率梯度引起反转的光自旋霍尔效应研究[D].湖南大学,2012.
[16]刘洪伟.基于案例推理的球团矿专家系统的研究与实现[D].东北大学,控制理论与控制工程,2009,硕士.
[17]刘婕.中国现代城市规划科学研究的历史研究(1949-1977)[D].武汉理工大学,建筑历史与理论,2013,硕士.
[18]谭慷.光纤光栅的设计、制备及其在超宽带技术中的应用[D].华中科技大学,光电信息工程,2013,硕士.
[19]宋艳.高校思想政治理论课教学中的师生互动研究[D].华中师范大学,思想政治教育,2013,硕士.
[20]廉同莹.自组织理论视域中的我国民间志愿者组织的成长[D].华中师范大学,中外政治制度,2012,硕士.
[21]陈雪红.胶质细胞源性神经营养因子受体alpha1结构与功能关系的探讨[D].青岛大学,病理生理学,2003,硕士.
[22]王晨.全面抗战前(1912-1937)河北外来物种引进分析[D].河北师范大学,中国近现代史,2013,硕士.
[23]杨纪元.氧化锌纳米棒/纳米管阵列的制备及其在染料敏化太阳能电池中的应用[D].华侨大学,材料物理与化学,2013,硕士.
[24]胥通奇.钢筋混凝土结构强度中心运动与结构扭转的相关性研究[D].内蒙古科技大学,防灾减灾工程及防护工程,2013,硕士.
[25]江涛.农业措施对褐飞虱发生的影响及其机理[D].扬州大学,农业昆虫与害虫防治,2011,硕士.
[26]石春景.报纸对微博的使用状况研究[D].辽宁大学,新闻学,2012,硕士.
[27]周宇倩.山西省农业现代化发展研究[D].山西财经大学,国民经济学,2014,硕士.
[28]何东炯.实施内容管理打造媒体核心竞争力[J].中国传媒科技,2003,05:56-58.
[29]苟军,孙德有,赵忠华,任云生,张学元,付长亮,王晰,魏红艳.满洲里南部白音高老组流纹岩锆石U-Pb定年及岩石成因[J].岩石学报,2010,01:333-344.
[30]魏炜.甜橙果肉回收工艺优化及超高压处理对其品质影响研究[D].西南大学,食品科学,2014,硕士.
[31]易思利.新型苝酰亚胺类衍生物及含铱聚合物的设计、合成与性能研究[D].宁波大学,无机化学,2013,硕士.
[32]成小飞.我国不动产统一登记制度探析[D].苏州大学,法律(专业学位),2014,硕士.
[33]王浩欣.哈尔滨银行农村金融服务创新研究[D].吉林大学,农业推广,2012,硕士.
[34]纪誉.潍坊市区域经济发展差异化研究[D].西北农林科技大学,农村与区域发展,2012,硕士.
[35]周春光.数字音频信号监测设备设计研究实践[D].辽宁科技大学,控制工程,2012,硕士.
[36]陈静.生物质炭保水剂的吸水保水性能研究及其对玉米生长的影响[D].南京农业大学,土壤学,2013,硕士.
[37]陈敏.脑出血后血肿周围组织AQP9表达与脑水肿[D].重庆医科大学,神经病学,2004,硕士.
[38]苏中,马少平,杨强,张宏江.基于Web-LogMining的N元预测模型[J].软件学报,2002,01:136-141.
[39]谢麟阁,张叡琼.区域搜索法自动绘制根轨迹和补根轨迹[J].自动化学报,1988,01:76-79.
[40]朱会民.论我国检察委员会制度[D].山东大学,法律(专业学位),2012,硕士.
[41]王爽.东风农工商公司内部控制存在的问题及对策[D].首都经济贸易大学,工商管理(专业学位),2013,硕士.
[42]项功达.大学生“村官”生存状况调查分析[D].华东理工大学,公共管理(专业学位),2013,硕士.
[43]李诗言.胃旁路术治疗2型糖尿病机制的研究[D].吉林大学,外科学,2014,硕士.
[44]张平淡,何晓明.环境技术、环境规制与全过程管理——来自“十五”与“十一五”的比较[J].北京理工大学学报(社会科学版),2014,01:19-26.
[45]刘文帅.非财务指标对企业信用评级的影响研究[D].天津财经大学,金融学,2012,硕士.
[46]韩猛.我国刑法个罪立法之考察[D].华东政法学院,刑法学,2003,硕士.
[47]周南南.中国地区纺织产业竞争力评价研究[D].河北大学,区域经济学,2014,硕士.
[48]贺伟柏.东莞职业教育改革成效研究[D].华中师范大学,教育管理,2012,硕士.
[49]王国权.民间借贷治理的法律问题研究[D].华侨大学,法律,2013,硕士.
[50]胡立后.《神曲》中双希文化冲突与但丁的意图[D].南京师范大学,比较文学与世界文学,2012,硕士.

相关推荐
更多