基于属性约简和属性加权的朴素贝叶斯分类算法的研究
【摘要】数据挖掘中有很多发现知识模式的方法,本文主要研究了其中的朴素贝叶斯分类模型。数据挖掘在当今互联网时代正发挥着越来越重要的作用,对人们的生产生活、社会的发展和经济的进步都有着巨大的推动作用。分类问题作为数据挖掘中最重要的问题之一也受到各界学者们的关注。朴素贝叶斯分类模型是一种被广泛知晓的分类问题解决方案,但其依然拥有着自身的局限性,即类条件独立性假设:不同的条件属性之间在类决策属性已知的条件下是相互独立的。同时,朴素贝叶斯分类模型认为各条件属性的类条件概率对分类的影响程度是相同的。这虽然简化了算法逻辑,降低了计算复杂度,但却是不完全符合现实生活的,因此导致了在很多应用场景中朴素贝叶斯分类模型不能有理想的分类结果。在结合粗糙集理论和信息论的基础上,本文提出了一种新的基于朴素贝叶斯的分类模型,该模型能够约简掉数据集中的冗余属性,同时计算约简后的各条件属性相对于决策属性的权重,将该权重融入到朴素贝叶斯分类模型中,达到提高朴素贝叶斯分类模型应用场景和分类精确度的目的。本文的主要研究内容有:首先,对贝叶斯理论和朴素贝叶斯分类模型做了研究和分析,介绍了贝叶斯决策准则、极大后验假设以及举例介绍了贝叶斯分类的过程。然后讲述了粗糙集基本理论,以及基于区分矩阵的正域约简算法,并简单介绍了信息论以及信息熵和条件熵的概念和计算方法,在此基础上引出了几种已经存在的利用信息熵和条件熵计算条件属性相对于决策属性重要度的公式,同时给出了利用这些公式来构造加权朴素贝叶斯分类模型的算法步骤。最后本文根据现有的粗糙集理论约简模型总结了利用粗糙集进行属性约简的一般思想,提出了一种基于粗糙集关联规则提取的新的属性约简算法,同时将该算法同已经成熟的加权朴素贝叶斯分类模型相结合,又构造了一种新的贝叶斯分类模型,本文称之为基于属性约简和属性加权的朴素贝叶斯分类模型(RW-NBC)。通过UCI数据集和在WEKA平台上的仿真实验,文章证明了本文所提出的两种算法模型的可行性和有效性。
【作者】魏会建;
【导师】徐沛娟;
【作者基本信息】吉林大学,计算机软件与理论,2014,硕士
【关键词】数据挖掘;贝叶斯;粗糙集;信息论;属性约简;属性加权;
【参考文献】
[1]巩瑞波.新中国成立初期东北农村卫生工作研究[D].吉林大学,中共党史,2013,硕士.
[2]唐广笛.全数字异步电机直接转矩控制系统的仿真与设计方法研究[D].湘潭大学,电力电子与电力传动,2003,硕士.
[3]马丽.GNSS卫星导航圆极化天线研究[D].华东师范大学,电磁场与微波技术,2013,硕士.
[4]刘曌懿.生态中心主义思想研究述评[D].内蒙古大学,科学技术哲学,2014,硕士.
[5]李功权.Mcl-1和IAPs家族蛋白介导肝癌细胞抗凋亡作用及其分子机制的研究[D].郑州大学,普通外科,2014,博士.
[6]赵玉贝.试论不真正连带责任在我国的确立[D].华侨大学,法律,2013,硕士.
[7]李上.高功率Tm:YAP板条激光器实验研究[D].哈尔滨工业大学,物理电子学,2013,硕士.
[8]戴剑,杨静晖,张楠,黄婷,王勇.聚丙烯/氧化石墨烯/辛基苯酚聚氧乙烯醚-10复合材料薄膜制备及改性[A].中国化学会、中国机械工程学会、中国材料研究学会.2014年全国高分子材料科学与工程研讨会学术论文集(上册)[C].中国化学会、中国机械工程学会、中国材料研究学会:,2014:2.
[9]梅陈南.药监数据元目录编制与维护研究[D].北京交通大学,2014.
[10]刘杜娟.财务报表信息与资产评估信息增量的价值相关性[D].北京交通大学,2014.
[11]谢斌.并联型有源电力滤波器谐波电流检测及控制策略研究[D].兰州理工大学,控制工程,2013,硕士.
[12]董文洁.大学生危机管理中思想政治教育的作用与途径研究[D].东北石油大学,思想政治教育,2013,硕士.
[13]丁建立,陈增强,袁著祉.基于自适应蚂蚁算法的动态最优路由选择[J].控制与决策,2003,06:751-753+757.
[14]张志龙.转向轮摆振引发的商用车整车振动特性研究[J].公路与汽运,2015,02:1-8.
[15]孔旻.孤僻林里闲开着鲜妍花[D].西南大学,中国现当代文学,2013,硕士.
[16]陈莹.熟手型幼儿教师角色游戏指导行为研究[D].南京师范大学,学前教育学,2012,硕士.
[17]李建华,张南风,李海军,刘伟嵬,王昭东.涟钢CSP轧后冷却控制系统改造[J].冶金自动化,2011,04:34-37.
[18]张红,金月,李生珠.变频恒压供水在钢厂浊环水循环系统中的应用[J].山东工业技术,2014,16:25-26.
[19]齐慧敏.甲基丙烯酸羟乙酯系列多孔材料的合成、改性及其应用研究[D].齐鲁工业大学,应用化学,2014,硕士.
[20]费佩.机构投资者持股对企业逃避税的影响[D].厦门大学,财政学,2014,硕士.
[21]朱文文.电力系统谐波检测与去噪方法研究[D].南京邮电大学,控制理论与控制工程,2013,硕士.
[22]李政伟,聂茹.数据仓库中元数据标准的研究[J].微机发展,2004,04:125-127.
[23]叶永睿.基于WEB方式的安全权限管理的研究与实现[D].北京邮电大学,计算机科学与技术,2013,硕士.
[24]孙波,徐丙垠,孙同景,薛永端,刘世光.基于暂态零模电流近似熵的小电流接地故障定位新方法[J].电力系统自动化,2009,20:83-87.
[25]卢成军.揭阳旧城改造帝景湾项目商业计划书[D].华南理工大学,高级管理人员工商管理(专业学位),2013,硕士.
[26]张祎.论建筑物区分所有之专有部分与共有部分的界定[D].西北大学,法学(专业学位),2014,硕士.
[27]程增庆,霍全明,彭苏萍,胡朝元,勾精为.利用三维三分量观测系统的优度选择各向异性成像有利区域[J].石油地球物理勘探,2004,03:322-326+247-369.
[28]王英.鸡传染性贫血病毒重组抗原间接ELISA诊断试剂盒的研制[D].中国农业科学院,预防兽医学,2004,硕士.
[29]葛双成,陈焕疆,丁晓.花状构造及其对油气勘探的意义[J].石油地球物理勘探,1993,04:453-461+512.
[30]王鼎.内部评级法在湖南农行信用风险管理中的应用研究[D].湖南大学,工商管理,2014,硕士.
[31]薛励锋.测井数据解编系统的设计与实现[D].吉林大学,软件工程,2012,硕士.
[32]黄普明,陈泓,鞠德航.遥感卫星数据传输系统新技术[J].空间电子技术.2002(02)
[33]高小莉.城市规划空间数据库管理系统设计[D].长安大学,测绘工程(专业学位),2014,硕士.
[34]叶晨洲,杨杰,耿道颖.应用数据挖掘技术从大脑胶质瘤病例中获取诊断知识[J].生物医学工程学杂志,2002,03:426-430.
[35]彭意.火针“火郁发之”法治疗带状疱疹急性期镇痛时效的临床研究[D].广州中医药大学,针灸推拿学(专业学位),2013,硕士.
[36]杨洪泉,李孝明,李成名.1∶25万地形图数据挖掘初探[J].测绘通报,2002,09:44-47.
[37]刘清.《尔雅新义》训诂研究[D].湖南师范大学,汉语言文字学,2013,硕士.
[38]刘薇.具有潜伏期和隔离项的传染病模型及预防接种策略[D].渤海大学,基础数学,2014,硕士.
[39]王晓,韩崇昭,万百五.两种新的有效的非线性系统最小二乘辨识算法[J].自动化学报,1998,01:97-103.
[40]张钰.基于微波辅助技术的牡丹籽油提取工艺研究[D].中南林业科技大学,食品加工与安全,2014,硕士.
[41]解红永.计及风功率扰动的电力系统强迫功率振荡研究[D].东北电力大学,电气工程,2013,硕士.
[42]姚静虹.AQP4基因对慢性高眼压小鼠视网膜神经胶质细胞GFAP表达的影响[D].南京医科大学,眼科学,2013,硕士.
[43]周浩.云南边境地区小城镇城市形象设计研究[D].昆明理工大学,2004.
[44]赵晋泉,王毅,李可文,方朝雄,黄文英.一种基于连续潮流的在线静态稳定综合评估方法[J].电力系统自动化,2010,04:18-22+28.
[45]赵天宝.论纠纷解决仪式的阈限及功能[J].江苏社会科学,2014,03:151-157.
[46]张晓云.Cu-Cr铁氧体的磁结构及阳离子分布研究[D].河北师范大学,凝聚态物理,2014,硕士.
[47]高素雯.导电聚合物对电极在TiO_2纳米管阵列基染料敏化太阳能电池中的应用[D].华侨大学,2014.
[48]郭建升.丹参对阻塞性黄疸内毒素血症及CD14mRNA表达的影响[D].山西医科大学,外科学,2002,硕士.
[49]冷松.变电站交直流在线监测系统研究与应用[D].华南理工大学,电气工程,2012,硕士.
[50]张健.卢梭与马克思平等思想比较研究[D].燕山大学,马克思主义哲学,2014,硕士.
- 下一篇: 基于小波域的数字图像多水印方法研究
- 上一篇: 基于水平集的医学图像分割算法研究
相关推荐
- 日光温室环境及作物生长监控系统的研究
- 11月16日
- 初中班主任口头批评语的可接受度调查研究
- 08月30日
- 一段加压酸浸二段加压中和处理硫化锌精矿试验研究
- 10月04日
- “退牧还草”工程中地方政府职能承担研究
- 12月30日