非合作结构化深网数据源选择技术研究

非合作结构化深网数据源选择技术研究

作者:师大云端图书馆 时间:2015-10-23 分类:毕业论文 喜欢:4100
师大云端图书馆

【摘要】随着Web规模的不断扩大,用户准确地从中找到所要查询的Web数据源并进行查询是非常困难的事情。为了能有效地访问这些数据源,Web数据集成系统应运而生。由于在Web中,深网(DeepWeb)即不能通过超链接访问的资源集合,占据重要地位,因此如何对深网中的数据进行有效地集成检索,近几年来一直是信息检索和数据库领域关注的前沿问题。深网数据集成的数据源众多,数据源自治,数据动态变化,而且数据更不规范。这些特点给深网数据的有效利用提出了新的挑战。每个领域中都存在着大量的可供访问的深网数据源,但由于它们的接口不尽相同,因此集成检索系统需要对深网数据源的查询接口进行集成。当有了统一的集成接口之后,如果仅把集成接口上的用户查询经过简单转换后提交给每个具体的深网数据源进行检索,显然是不行的。因为这样不仅会造成查询代价过高,且难以保证查询结果的数据质量。基于以上原因,数据源选择成为了深网数据集成中的关键问题,它的目标在于通过查询很少量的数据源,获取满足用户查询需求的检索结果。深网数据源主要分为文本数据源和结构化与半结构化数据源两种类型。文本数据源通常可以被看作为一个由许多网页构成的“文件集”。结构化与半结构化数据源中存储的是由多属性组成的现实世界的实体,其中半结构化数据源中存储的主要是XML数据。目前多数研究成果是针对以上两类数据源选择,前者主要是把成熟的信息检索技术引入到文本数据源的选择过程中,依据数据源中词项与文档排序信息评判一个数据源的相关性,后者主要是通过挖掘蕴含在数据源中的结构化特征信息对数据源进行评价。文本数据源选择研究起步较早,已经取得了很多可喜的研究成果。近年来,商业化深网发展迅猛,对应的结构化与半结构化深网数据源选择的研究引起了越来越多的关注,总体来说,相关研究还处于起步阶段,主要还存在以下问题需要解决:(1)在依据相关性进行数据源选择的时候没有考虑数据源自身的质量,这样容易给后续数据集成工作,例如实体识别、数据融合等,带来繁重的负担。(2)已有的结构化与半结构化深网数据源选择的高质量研究成果均假设数据源是合作型的,即它们可以向用户提供其索引结构及全部数据,以方便构建数据源摘要,但是在现实情况下以上假设难以实现。因此,需要进一步研究,如何抓住抽样数据中蕴含的主题语义信息即主题词与主题词、主题词与子主题词、主题词与特征词之间存在的关联信息,构建非合作结构化深网数据源摘要,以便更好地满足用户的查询需求。(3)深网数据源是实时更新的,当数据源内容更新之后,数据源摘要必然也需要做相应的调整,然而已有研究还未涉及非合作结构化深网数据源动态摘要更新问题。(4)用户经常会提交一个既包含检索型关键词又包含约束型关键词的混合类型关键词查询,其中检索型关键词表达了用户的主体查询意图,约束型关键词用于表达在用户主体查询意图基础上的约束条件,常用离散值表示。已有结构化深网数据源选择方法构建的摘要还未考虑以上查询需求。由于当前结构化深网的应用较为广泛,本文主要针对非合作结构化深网数据源选择,围绕以上四个方面,具体研究了以下内容:(1)数据源质量的评价。数据源质量评价关键是建立相应的评价模型,本文首先依据用户反馈获取推荐数据源与拒绝数据源集合;然后通过计算分析两集合数据源在各客观维度上的得分,依据相差度与重叠度设计数据源质量核心维度评价模型;通过支持向量机(SVM)训练建立质量评价模型;最后采用多个领域的数据评测方法的性能。(2)面向检索型关键词查询的数据源选择。首先,采用基于回溯下钻的无偏抽样方法获取具有代表性的数据源抽样数据,再依据词性、词频、位置、覆盖范围等因素设计针对数据源抽样数据的主题词获取方法;利用主题语义信息分析,获取每个数据源抽样数据中各主题词对应的特征词;面向检索型关键词查询需求,依据主题词与主题词、主题词与特征词之间的关联构建数据源摘要,并基于此摘要给出相应的数据源选择策略。其次,给出主题空间选择方法,以及基于所建摘要的数据源评价策略。最后,依据领域数据源主题词更新的相关性结合抽样技术,给出基于抽样的动态摘要更新算法。(3)面向混合类型关键词查询的数据源选择。当构建了面向检索型关键词查询需求的数据源摘要之后,为了有效地实现面向混合类型关键词查询的数据源选择,在数据源摘要中还需要增加一些表征特征词与约束型属性离散值相关的信息。本文通过主题词与特征词之间的关联,特征词在约束型属性离散值上的记录分布直方图,以及直方图之间的关联,构建数据源的混合摘要,对数据源中各类型属性进行有效地概括。其中,针对直方图关联的特点,给出直方图之间的约束相关性得分计算方法以及基于混合摘要的数据源评价策略。本文的创新性工作主要体现在:(1)把用户反馈作为重要手段,提出了领域高质量数据源选择方法。已有的基于质量的数据源选择方法通常依据经验选择统一的质量维度,因此不同领域下数据源选择的准确性有较大差异。本文依据用户反馈的推荐、拒绝数据源集合特征数据,获取用户推荐可信度,再结合数据源被选次数,获取准确的推荐数据源集合与拒绝数据源集合成员。通过引入重叠度、相差度两个指标分析推荐数据源和拒绝数据源质量维度特征,建立了维度重要性评价模型,动态地为每个领域的数据源选择不同的核心质量维度,从而建立相应的领域数据源质量评价模型。(2)构建了基于主题语义的非合作结构化深网数据源的层次化摘要,并提出了一种基于抽样的动态摘要更新方法。充分考虑主题语义信息以及同领域数据源主题更新的关联特性,通过建立主题词与主题词之间的关联、主题词与特征词之间的关联、主题词与子主题词之间的关联,构建了一种基于主题语义的数据源层次化摘要,该摘要不仅可以有效地表征数据源中的数据内容,而且反映了多关键词组合后的查询语义;在构建的数据源摘要的基础上,给出了面向检索型关键词查询的数据源选择策略。依据同领域数据源主题更新的关联特性,设计了主题空间变化率计算方法,可以有效地发现领域更新主题词、准确地度量数据源中某主题的变化程度,进而提出了一种基于抽样的动态摘要更新方法。(3)基于多类型属性的混合摘要可满足混合类型关键词查询的需求。通过建立主题词与特征词之间的关联、主题词与主题词之间的关联、每两个特征词在同一约束型属性上的直方图之间的约束关联,构建了数据源的混合摘要,可有效地对数据源中多类型属性进行特征概括;在构建的混合摘要的基础上,依据数据源混合摘要匹配查询中检索型关键词的程度与满足查询中约束型关键词约束条件的程度,给出了相应的面向混合类型关键词查询的数据源选择策略。
【作者】邓松;
【导师】万常选;
【作者基本信息】江西财经大学,信息管理与信息系统,2013,博士
【关键词】深网;数据源选择;用户反馈;主题语义;非合作;结构化;

【参考文献】
[1]朱晓星.文化对外宣翻译教学的影响[D].哈尔滨理工大学,英语语言文学,2012,硕士.
[2]方华京.控制系统鲁棒故障检测的l~1优化方法[J].自动化学报,2002,04:535-539.
[3]占书鑫.劳动争议调解制度研究[D].西南政法大学,民商法学,2012,硕士.
[4]滕秋银.论我国农村留守儿童委托监护制度的构建[D].广西师范大学,法律,2013,硕士.
[5]邱梅红.肺动脉高压大鼠心室间糖酵解代谢相关基因筛选和差异[D].吉林大学,内科学,2014,硕士.
[6]郑国林.丙烯酰胺降解菌的筛选及降解效果研究[D].扬州大学,环境科学,2012,硕士.
[7]徐燕华.风险社会和媒介化社会下的网络执政机制研究[D].西南政法大学,新闻学,2012,硕士.
[8]齐瑞普,付新.首矿机械厂质检中心钛元素化学分析方法攻关成功[J].冶金自动化,2008,02:15.
[9]申兰秀.汉语双音节兼类词中的汉韩同形词比较研究[D].青岛大学,汉语言文字学,2013,硕士.
[10]朱海蓉.论遗产继承中债权人利益的法律保护[D].华东政法大学,法律(专业学位),2012,硕士.
[11]杨梦晗.交流感应电机矢量控制及MATLAB仿真[D].吉林大学,无线电物理,2014,硕士.
[12]程玲.集装箱码头自动化作业管理系统的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[13]缪雪峰.可调谐多波长光纤激光器[D].杭州电子科技大学,信号与信息处理,2012,硕士.
[14]张伟光.云管理模式在零售行业运营的实践与应用[D].首都经济贸易大学,产业经济学,2014,硕士.
[15]王爽.英语专业学生写作策略使用的性别差异研究[D].华中师范大学,英语语言文学,2012,硕士.
[16]谢秀芳.过敏性鼻炎舌下免疫治疗疗效与中医体质类型的相关性研究[D].福建中医药大学,中西医结合临床(专业学位),2013,硕士.
[17]倪楠.G-0268舌下片新剂型的研究[D].中国人民解放军军事医学科学院,药剂学,2004,硕士.
[18]付建雄.转型跨越背景下山西省经管类本科生人才培养模式研究[D].山西财经大学,教育经济与管理,2013,硕士.
[19]袁兵锋.基于结构推覆分析的钢筋混凝土框架抗地震倒塌性能研究[D].长安大学,结构工程,2013,硕士.
[20]李亚萍.新医改视角下公立医院管理探析[D].云南大学,公共管理,2012,硕士.
[21]谷隽楠.我国政府对跨国公司社会责任践行监管的策略分析[D].山东大学,国际贸易学,2013,硕士.
[22]李新春,赵冬斌,易建强.一种末端任务给定的移动机械手动态路径规划方法[J].控制与决策,2007,02:184-188+194.
[23]王海军.对华侵略与近代日本经济述论[D].曲阜师范大学,世界史,2013,硕士.
[24]沈雯.冬凌草甲素介导胰腺癌BxPC-3细胞凋亡及对Caspase信号通路的影响研究[D].浙江中医药大学,中西医结合基础,2013,硕士.
[25]付纯菲.轨道交通无接触供电磁路耦合环节研究[D].西南交通大学,电力电子与电力传动,2014,硕士.
[26]吕红岩.高台子油田窄小河道砂体局部注聚试验技术[D].东北石油大学,石油与天然气工程(专业学位),2013,硕士.
[27]乔炳男.从原型批评角度研究罗伯特·弗罗斯特的诗歌[D].沈阳师范大学,英语语言文学,2013,硕士.
[28]王俊玲.论财务业绩报告的改进[D].东北财经大学,会计学,2003,硕士.
[29]陈威.基于数据稀疏表示的快速磁共振成像技术研究及应用[D].杭州电子科技大学,模式识别与智能系统,2014,硕士.
[30]赵学利.基于ComGIS的高速公路机电养护管理系统[D].河北科技大学,计算机技术,2014,硕士.
[31]鲍祺.硫酸盐还原菌腐蚀机理及复合杀菌剂的研究[D].中国科学院研究生院(海洋研究所),2012.
[32]陈甜甜.基于隐性知识的人力资源管理研究[D].天津大学,科学技术哲学,2013,硕士.
[33]杨敏科.灰色金融及其疏导[D].天津大学,2004.
[34]施巍巍.经验模态分解方法及其在语音识别算法中的研究[D].浙江理工大学,控制理论与控制工程,2014,硕士.
[35]阿依努尔·提力瓦力迪.博尔塔拉河流域土壤盐分空间变异性及其影响因素研究[D].新疆大学,环境工程,2013,硕士.
[36]李志鸿.雷神、雷法与清微道派研究[D].福建师范大学,宗教学,2004,硕士.
[37]詹阳.面向物流效率的岸边可移动式输油臂设计研究[D].天津大学,物流工程,2013,硕士.
[38]万新宇.思想政治课学习策略探究[D].东北师范大学,教育,2003,硕士.
[39]戚友翅.跨区域经营对我国城市商业银行效率影响分析[D].南京财经大学,金融学,2013,硕士.
[40]刘赛.浅谈装饰壁画与环境空间的相互关系[D].河北科技大学,艺术设计,2014,硕士.
[41]刘新元,刘文峰.浅谈当前管理信息系统建设对国有商业银行经营管理改革的支持[J].广西金融研究,2003,08:28-31.
[42]赵国成.日本产业节能对策刍议及对我国的启示[D].中国社会科学院研究生院,技术经济及管理,2003,硕士.
[43]马歆茹.云天化国际公司国际市场发展研究[D].云南大学,工商管理,2012,硕士.
[44]束志恒,陈德钊,陈亚秋.粗糙集方法及其在化学模式分类规则挖掘中的应用[J].分析化学,2004,07:879-883.
[45]刘珍.聚吡咯/石墨烯复合材料的制备及其用于超级电容器电极材料的性能研究[D].华中师范大学,化学工程,2014,硕士.
[46]娄安如,周国法.天山中段主要植被类型中种群的空间分布格局与环境的关系[J].植物生态学报,2001,04:385-391.
[47]豆力.重型牵引车空气悬架系统关键部件有限元分析[D].合肥工业大学,车辆工程,2013,硕士.
[48]李吉慧.跨座式单轨车辆转向架疲劳寿命分析[D].重庆交通大学,车辆工程,2012,硕士.
[49]杜佳兴.玉米纸筒钵苗移栽机关键部件设计及试验[D].东北农业大学,农业机械化,2013,硕士.
[50]张薇.小菜蛾对高温的生态学响应及昆虫高温相关基因数据库的构建[D].中国农业科学院,生物物理学,2014,博士.

相关推荐
更多