基于bit化深度差序列的XML文档聚类问题研究
【摘要】信息技术的给现代生活所带来的影响是巨大的,从互联网和接入互联网的各种移动设备以及他们之间所组成的庞大数据网络每时每刻都在产生海量的数据,不同设备和网络之间也产生了大量的数据交换请求,由于这些不同数据源产生的数据之间存在格式和结构等方面的差异,因此就需要一种统一的标准格式作为媒介实现数据交换。XML就是这样一种可以使用的工具。XML是扩展可标记语言的简称,是一种日益广泛采用的标准化数据存储和数据交换方案。目前国内外在对XML的研究上已经取得了许多成果,但大多数的研究对象都是静态的XML文档,忽略了XML文档之间所存在的动态变化过程。事实上,在实际应用中,作为数据交换工具而产生的XML文件往往是频繁变化的,而且这些频繁变化的XML文件都是从一个或几个原始的XML文档发展而来,这些文档中仅有部分结构是频繁发生变化。因此对这些动态变化的XML文档进行研究,挖掘他们之间所存在的静态信息以及动态变化过程将是十分有意义的。本文首先分析了XML文档数据挖掘的一般性方法以及目前的研究现状,针对目前对XML文档聚类算法中所存在的效率低的不足,提出了一种将XML文档结构信息转换为对应的线性bit化深度差值序列,对深度差值序列进行距离比较的方法——DepDS方法。该方法在静态XML聚类中对聚类效率有较大提升。进而尝试将该算法应用于动态XML文档聚类研究中。针对动态XML文档数据的时序性,本文提出了一种新的聚类方法——REDS方法,该方法采用相对熵的测量发现统一系列XML文档变化的时间线,然后利用图近似的办法来刻画XML文档结构的代表性结构组,然后将这个结构集作为该系列XML文档的代表,采用DepDS方法进行聚类。实验结果表明该算法能够实现预期的聚类效果。
【作者】王云峰;
【导师】李雄飞;
【作者基本信息】吉林大学,计算机软件与理论,2014,硕士
【关键词】相对熵;XML文档;聚类;数据挖掘;
【参考文献】
[1]王治宝,曾武,田宝仁.分布式控制系统(DCS)及其在冶金工业中的应用——第二讲DCS的网络通讯[J].冶金自动化,1993,02:44-48.
[2]王静莲,刘弘,李少辉.基于决策树的遗传算法在数据挖掘领域的应用[J].计算机工程与应用,2005,28:153-155.
[3]胡耿.履带起重机桅杆顶升装置计算分析[D].大连理工大学,机械工程(专业学位),2013,硕士.
[4]李爽.基于物质流和生态足迹的资源环境可持续发展分析与评价[D].河北师范大学,人文地理学,2014,硕士.
[5]崔波.中国特色政党制度社会整合功能研究[D].中共广东省委党校,中共党史,2013,硕士.
[6]慕大海.我国股东大会网络表决制度研究[D].江西财经大学,民商法,2013,硕士.
[7]冯兴杰,黄亚楼.知识发现中可继承性问题的研究[J].信息与控制,2005,02:249-252.
[8]赵军,龚智.铁路信号综合防雷中接地的具体作法[J].铁道通信信号.2007(10)
[9]冯毅.国内外网络信息安的全发展与启示[J].信息安全与通信保密.2001(10)
[10]闫德祺.当归贝母苦参丸联合顺铂的抗肿瘤疗效及促瘤细胞凋亡的分子机制研究[D].甘肃中医学院,中西医结合基础,2014,硕士.
[11]王斌.网络互穿结构高温自润滑复合材料的熔渗复合动力学研究[D].济南大学,机械设计及理论,2012,硕士.
[12]王婧文.在校大学生兼职的权利和义务问题研究[D].华中师范大学,教育学原理,2013,硕士.
[13]王振亚.WLAN优化系统的设计与实现[D].华中师范大学,电路与系统,2014,硕士.
[14]高海.论我国商业银行信贷风险的管理[D].中国海洋大学,金融学,2003,硕士.
[15]张晓丽.Carvacrol对两种重要植物病原真菌抑菌活性及其作用机制的初步研究[D].云南农业大学,农药学,2014,硕士.
[16]金玉红,王莉,尚玉明,高剑,李建军,何向明.超级电容器用石墨烯-聚苯胺复合材料的研究进展[J].化学通报,2014,11:1045-1053.
[17]马国强.料浆法制备SiO_2系和MgO系陶瓷涂层及性能表征[D].北京化工大学,材料科学与工程,2013,硕士.
[18]吴丽项,蔡志彬,陈晓林,刘立芬,朱丽芳,高从堦.新型聚(酰胺-脲-酰亚胺)反渗透复合膜的稳定性[J].高等学校化学学报,2015,04:765-771.
[19]汲飞.NGW型行星齿轮传动系统的参数化设计与建模[D].东北大学,机械设计及理论,2010,硕士.
[20]王红妍.辽宁西部地区城市中学武术教学现状调查与对策研究[D].辽宁师范大学,体育教育训练学,2011,硕士.
[21]金磊.城市绿色生态建筑与屋顶绿化[J].上海城市管理职业技术学院学报.2001(05)
[22]程玮玮.淀粉均相脱支化及其包结络合功能因子的研究[D].华南理工大学,制糖工程,2014,硕士.
[23]韩雪娜.右美托咪啶对神经病理性痛大鼠脊髓嘌呤受体P2X_4 mRNA和p38丝裂原活化蛋白激酶mRNA表达的影响[D].兰州大学,麻醉学(专业学位),2013,硕士.
[24]牛立科.化学过滤器在微电子行业的应用研究[D].北京建筑大学,供热、供燃气、通风及空调工程,2012,硕士.
[25]余阳.长春地铁十字换乘站开挖对临近高层建筑物影响的数值分析研究[D].吉林大学,道路与铁道工程,2014,硕士.
[26]郑颖慧.宋代司法官吏职务犯罪研究[D].河北大学,中国古代史,2003,硕士.
[27]李海霞.对外贸易、外商直接投资对浙江省经济增长影响的路径研究[D].山东财经大学,国际贸易学,2013,硕士.
[28]范明富.微创经皮椎弓根螺钉附加伤椎固定治疗无神经损伤胸腰椎骨折的临床研究[D].山东大学,骨外科(专业学位),2013,硕士.
[29]李致.知识库系统中的用户兴趣挖掘与推荐[D].北京交通大学,软件工程(专业学位),2013,硕士.
[30]程晓涛,刘彩霞,刘树新.基于关系图特征的微博水军发现方法[J].自动化学报.
[31]骆岗.微博对社会交往的影响研究[D].成都理工大学,科学技术哲学,2013,硕士.
[32]孙荟.《耳谈》中民间故事的研究[D].青海师范大学,中国古代文学,2012,硕士.
[33]刘巍.永远的理想主义者[D].沈阳师范大学,中国现当代文学,2013,硕士.
[34]宋政一,聂宏,赵军.线性离散切换系统的输出调节问题[J].控制与决策,2006,11:1249-1252+1274.
[35]孙影.电流模式Boost变换器中分叉与混沌现象的研究[D].东北农业大学,农业电气化与自动化,2013,硕士.
[36]李寒松.三种不同复方磺胺嘧啶混悬液在肉鸡的药动学及生物等效性研究[D].扬州大学,基础兽医学,2012,硕士.
[37]张洪涛.《操作机器人动力学》和《操作机器人控制》[J].自动化学报,1985,01:102.
[38]王莉.萧纲宫体诗研究[D].安徽师范大学,中国古代文学,2004,硕士.
[39]张沥桐.基于PWM整流器的电网谐波抑制及无功补偿研究[D].哈尔滨理工大学,电力系统及其自动化,2012,硕士.
[40]朱黎君,陈航娟,肖正群,李开波,陈奇灵.酪氨酸脱羧酶产生菌的筛选及脱羧条件研究[J].发酵科技通讯,2015,01:38-43.
[41]李振礼.基于双逻辑映射技术的低漏功耗标准单元包设计[D].宁波大学,电路与系统,2014,硕士.
[42]房传武.改良单开门加肌蒂移植预防硬膜外瘢痕粘连的试验研究[D].安徽医科大学,外科学,2004,硕士.
[43]韩翌.甘油碘化钾—电解联合法粗铟提纯研究[D].中南大学,有色金属冶金,2004,硕士.
[44]姚旺.强制采纳G2B电子政务价值对使用意愿的影响研究[D].哈尔滨工业大学,管理科学与工程,2013,硕士.
[45]李鹏.面向开发过程的MIS项目风险管理模型研究[D].山东师范大学,管理科学与工程,2013,硕士.
[46]王一.我国新股发行制度对IPO定价效率影响研究[D].东北大学,数量经济学,2010,硕士.
[47]吴挺.学校体育管理体制政策研究[D].沈阳师范大学,教育经济与管理,2014,硕士.
[48]薛立,薛达,罗山.名古屋风景林凋落物和凋落叶养分含量季节动态的研究[J].植物生态学报,2001,03:359-365.
[49]庄凯,张九根,黄亚光.中央空调冷冻水系统的优化控制与仿真[J].科技通报,2015,01:240-244.
[50]倪书华.金融监管法下的商业银行业务多元化[D].华东政法学院,法律,2003,硕士.
- 下一篇: 计算机光盘驱动器高速旋转盘片的解析动力学研究
- 上一篇: 基于主动学习的高效社区挖掘算法
相关推荐
- 发动机曲轴模锻件动平衡性能研究
- 10月06日
- 风险投资参与对企业IPO抑价影响的实证研究
- 07月01日
- 元素硫和CO_2对P110钢腐蚀行为的影响
- 10月26日
- 路易斯酸催化酯化方法及绿色氧化在合成酰胺化合物中的应用
- 03月22日