基于视觉信息和DOM树的Deep Web数据自动抽取
【摘要】随着互联网的飞速发展,其中已蕴含了海量的信息资源,涵盖了现实世界的各个领域。相对于SurfaceWeb,DeepWeb蕴含着更丰富的数据、拥有更多的访问量和更快的增长速度。但是DeepWeb页面是动态生成的,难以被传统搜索引擎索引到。因此,如何有效地获取和利用DeepWeb页面的数据成为一个重要的研究方向。DeepWeb数据通过查询结果页面表现出来,但是网页中的数据形式各异、缺乏结构性,便于用户浏览却难以利用。本文基于网页的视觉信息和DOM树结构,对DeepWeb查询结果页面的数据自动抽取进行了研究,主要研究内容如下:(1)定位数据区域。首先通过分析DeepWeb查询结果页面中数据区域的特点,找到能够使之定位的视觉特征。然后收集了相关页面作为样本,并对样本中的节点进行手工标注。通过Weka训练得到相应的决策树,最后使用该决策树对应的规则来定位数据区域。(2)抽取数据记录。这个过程分为两步:定位数据记录和去噪。第一步,根据网页中数据记录的DOM树的结构特点及其视觉特征,提出了数据记录定位算法,但是由此得到的节点中不仅包含了数据记录节点,还有少量的噪音;第二步,通过xpath定义了数据记录的相似度,并通过相似度比较进行去噪,从而得到数据记录节点。(3)对齐数据项。首先将数据记录划分成相应的数据项,然后为便于对齐设计了相应的数据结构,并基于xpath给出了对齐数据项的算法。(4)模板。针对数据区域、数据记录以及数据项各自的特点,提出了相应的模板。通过模板的使用,不仅在抽取过程中避免了大量重复的计算,提高了抽取速度,而且方便实现连续页面的数据项抽取。论文的创新点如下:(1)引入了xpath的概念,通过xpath定义了数据记录的相似度,从而进行数据记录的去噪。并通过xpath的比较完成了数据项的对齐。(2)提出了数据项粒度的概念,并给出了将数据记录划分为数据项的相应方法。在以上研究的基础上,设计开发了DeepWeb查询结果页面的数据自动抽取系统,并且解决了抽取过程中遇到的其他问题。如AJAX异步数据的抽取等。实验表明,本文方法可以快速、准确地从DeepWeb查询结果页面中抽取数据。
【作者】邹晓明;
【导师】张巍;
【作者基本信息】中国海洋大学,计算机系统结构,2014,硕士
【关键词】DeepWeb;视觉信息;DOM;数据抽取;xpath;
【参考文献】
[1]邓荣艳.广西木犀属、桂花品种资源调查及其开发利用[D].南京林业大学,植物学,2004,硕士.
[2]徐永红.多维数据模型与OLAP实现[J].中国金融电脑,2004,11:49-52.
[3]徐晓红.新中国中学历史课程标准文化史内容选择的价值取向研究[D].西南大学,课程与教学论,2013,硕士.
[4]吴岳.TNF-α在兔持续性牵张脊髓损伤脑脊液中的变化[D].桂林医学院,外科学,2012,硕士.
[5]刘晓洁.基于RAROC模型的中小企业信用担保定价研究[D].贵州财经大学,金融,2013,硕士.
[6]冯悦.大庆市四县农村剩余劳动力转移问题研究[D].黑龙江八一农垦大学,农村与区域发展,2014,硕士.
[7]乔向东.综合数据业务平台业务逻辑执行模块的设计与实现[D].北京邮电大学,业务网络智能化(专业学位),2013,硕士.
[8]李鹏飞.基于元胞自动机的公交线路建模与优化研究[D].北京交通大学,2014.
[9]邱均平,马力.发展与深化:2014年中国研究生教育及学科专业评价报告的产生与分析[J].评价与管理,2014,02:26-41.
[10]陈林.十四冶建设集团发展战略研究[D].云南财经大学,工商管理(专业学位),2014,硕士.
[11]东丽.集团公司人力资源管控模式研究[D].北京物资学院,劳动经济学,2014,硕士.
[12]陈伟玉.三亚市古树名木资源调查与景观分析[D].中南林业科技大学,林业,2014,硕士.
[13]刘祥桢.东乡铜矿深部软岩巷道加固对策研究及应用[D].南昌大学,岩土工程,2012,硕士.
[14]刘腾福.Android平台基于任务重要性的功耗管理策略研究[D].中国科学技术大学,计算机系统结构,2014,硕士.
[15]郭彦娇.朱鹮(Nipponia nippon)粪便中类固醇激素的研究[D].北京林业大学,野生动植物保护与利用,2013,硕士.
[16]辛颖.Web服务在EGO365电子商务网站中的应用研究[D].东华大学,2005.
[17]王洪伟.便携式卫星通信地球站卫星跟踪技术的研究与实现[D].南京邮电大学,电子与通信工程(专业学位),2013,硕士.
[18]张丽.新课程背景下落实初中语文对话教学研究[D].西南大学,课程与教学论,2013,硕士.
[19]颜聪亚.FGFR1,Survivin在乳腺浸润性导管癌中的表达及意义[D].河北医科大学,肿瘤学,2013,硕士.
[20]党晓霞.国有公共医疗服务机构激励机制研究[D].西北工业大学,马克思主义理论与思想政治教育,2004,硕士.
[21]司梅梅.新型吲哚类衍生物和DPP-Ⅳ抑制剂的抗糖尿病作用及其机制研究[D].浙江大学,药理学,2014,博士.
[22]王厚荣.基于校园文化加强思想政治教育的机制研究[D].东北石油大学,思想政治教育,2013,硕士.
[23]庄润森.城市公众健康素养快速评估与短信干预系统的构建与应用研究[D].南方医科大学,军事预防医学,2014,博士.
[24]张赞.我国中小商业银行差异化发展策略研究[D].辽宁大学,金融学,2012,硕士.
[25]黄金荣.数据仓库技术在现代金融中的应用[J].金融与经济,2005,07:73-74.
[26]石美君.预约合同的认定研究[D].厦门大学,民商法学,2014,硕士.
[27]杨晔.网上教学资源挖掘与文本自动分类系统[J].广东工业大学学报,2005,02:79-82.
[28]孔垂华,胡飞.植物化学通讯研究进展[J].植物生态学报,2003,04:561-566.
[29]杨李扬.基于GPRS的分布式电源监控子站系统的设计[D].南昌大学,电力系统及其自动化,2014,硕士.
[30]沈雯.发光功能化纳米材料及其在化学发光免疫分析中的应用[D].中国科学技术大学,分析化学,2012,博士.
[31]凌虹.苏霍姆林斯基以人为本的学校管理理念研究[D].内蒙古师范大学,教育经济与管理,2012,硕士.
[32]郭立山.小水电开发管理及其实证研究[D].河海大学,2003.
[33]李现亭.基于地—空通信链路的RAKE接收技术研究[D].西安电子科技大学,信号与信息处理,2004,硕士.
[34]关旭鹏.分布式舰载雷达目标跟踪和数据融合仿真[D].哈尔滨工业大学,信息与通信工程,2014,硕士.
[35]郭军涛.呼吸机测控系统的研究[D].中国人民解放军军事医学科学院,生物医学工程,2004,硕士.
[36]洪子泉.VCG-CARD心电向量图图形自动分析识别系统[J].自动化学报,1991,01:112-114.
[37]曹亮.基于B/S架构的展会销售管理系统设计与实现[D].大连理工大学,软件工程(专业学位),2013,硕士.
[38]武雨川.半套结工艺的空间造型在女装设计中的运用研究[D].东华大学,艺术设计(专业学位),2014,硕士.
[39]刘松林.论新时期民办教育政策的变化及实践[D].中共中央党校,中共党史,2004,硕士.
[40]刘佳.新型吸附材料的制备及其对痕量金属离子吸附性能的研究[D].兰州大学,分析化学,2013,硕士.
[41]贾丹平.测温式光纤电流互感器的研究[D].沈阳工业大学,2008.
[42]刘冲.不同碳源物质对土壤酶活性及烤烟品质的影响[D].河南农业大学,烟草学,2012,硕士.
[43]成文虎.色谱技术在石油化工及食品工业中的应用研究[D].新疆大学,化学,2013,硕士.
[44]何丽.消费视域下的青春婚恋题材电视剧研究[D].重庆工商大学,传播学,2014,硕士.
[45]花维青.基于商业智能相关技术的云南省烟草专卖局(公司)经济运行系统研究[D].昆明理工大学,2003.
[46]白帆.山西地区发育性髋关节脱位533例特征分析[D].山西医科大学,护理学,2013,硕士.
[47]马千里,郑秋宝,王顺晃,王尚君.高炉过程机数据处理系统中通信和报表功能的实现[J].冶金自动化,1997,06:41-43.
[48]刘有书.嫖宿幼女罪案研究[D].黑龙江大学,法律,2013,硕士.
[49]黄辉.元功能理论视角下的《沁园春·长沙》英译比较研究[D].湖南工业大学,外国语言学及应用语言学,2012,硕士.
[50]常敬先.CuO纳米材料的制备及薄膜光伏特性研究[D].兰州大学,集成电路工程(专业学位),2014,硕士.
- 下一篇: 中国农村消费品流通业效率研究
- 上一篇: 价值导向元记忆的价值顺序优先效应研究
相关推荐
- 曲面板材滚压拉伸成形工艺及数值模拟研究
- 12月13日
- 张景寿粉彩花鸟的艺术风格研究
- 02月05日
- 负压封闭引流联合人工真皮移植治疗难愈性创面的研究
- 11月25日
- 柏拉图的灵魂观及其现代意蕴
- 10月04日