基于密度的局部离群点检测算法的研究与改进
【摘要】离群点是指数据集中和常规数据对象的产生机制完全不同的,不符合数据的一般规律,偏离常规数据对象的数据点,但是它们又可能包含着我们容易忽略的非常重要的信息。如在信用卡欺诈侦查、移动通讯等领域中,离群点是我们研究的主要对象。离群点会使我们从新的角度考虑问题,从而发现新的理论或者应用。离群检测技术具有重要的研究价值且广泛的应用在药物研究、用户行为分析、网络入侵检、股票证券交易、工业减损、金融等领域中。在金融分析中通过分析交易数据,检测是否存在金融欺诈;在市场分析中可用于确定极低或极高收入客户的消费行为,进而对客户分析、分类,然后对市场进行定向和预测;在医疗分析中在医疗分析中用于发现多种治疗方式的不寻常反应等。目前如何在大规模高维数据集中迅速有效地发现并处理异常对象成为一个很值得研究且很具有挑战性的问题。离群点检测的算法有很多,大体上可以分为:基于统计学的、基于距离的、基于密度的和基于偏移的离群点检测算法等。目前人工智能,机器学习和模式识别等领域发展越来越快,越来越多有效、新颖的离群点检测方法和技术也随之出现,包括自组织映射技术,人工神经网络技术,模糊粗糙集技术和分区技术等。然而现有的大多数离群点检测算法在一定程度上均存在一些缺点:检测精度不高,时间复杂度高,参数的设置对用户的依赖性比较强和算法的可伸缩性差等。针对大多数算法的检测精度不高,时间复杂度高局限性和算法的可伸缩性差的不足,本文在基于密度的局部离群点检测算法研究基础上提出了一种改进算法:(1)改进算法通过使用多组不同的参数得到不同的DBSCAN聚类结果,再对聚类结果进行整合,剪枝,得到初步异常数据集。使用多组参数进行聚类的目的是为了避免位于簇边缘的数据点被错剪,这样既能达到降低计算复杂度的效果,又能保证检测的精确度;(2)引入去一划分信息熵增量的概念,对数据对象的属性加权量化,给不同贡献度的属性分配不同的权值。之前的检测算法中属性的权值都是由专家决定的,有很大的人为因素,这就会对检测结果有很大的影响,去一划分信息熵增量就很好的解决了这一问题,也能更好地对高维数据集进行降维,使改进的算法对数据集维度有很好的伸缩性;(3)在DBSCAN的ε-邻域的查询过程中和计算局部离群因子的过程中使用邻域查询优化思想,能有效的缩小邻域的查询范围。(4)改进算法的有效性在真实数据集和模拟数据集的仿真实验中得到了验证。
【作者】赵新想;
【导师】王敬华;
【作者基本信息】华中师范大学,计算机软件与理论,2014,硕士
【关键词】数据挖掘;离群点检测;密度;离群度;
【参考文献】
[1]杨锦.论我国领导干部财产申报制度的完善[D].东北大学,中外政治制度,2010,硕士.
[2]刘彦泓.雪花莲凝集素基因转化菊花及转基因植株抗蚜性研究[D].辽宁师范大学,植物学,2003,硕士.
[3]余锐.基于嵌入式以太网全数字保护测试仪的研制[D].华北电力大学(北京),电力系统及其自动化,2003,硕士.
[4]王奚焯.战略性贸易政策在我国装备制造业的应用研究[D].山西财经大学,国际贸易学,2013,硕士.
[5]万智.原位智能目标生物识别拖曳式水下显微镜系统硬件设计[D].浙江大学,仪器仪表工程(专业学位),2013,硕士.
[6]冉照海.数字化校园规划与实践[D].长安大学,交通运输规划与管理,2013,硕士.
[7]何长汉.我国合同环境服务的法治化路径[D].广西师范大学,法律,2013,硕士.
[8]熊翥.一种剖面显示的幅度平衡程序[J].石油地球物理勘探,1982,06:78-79.
[9]李徐伟.土地流转中农民权益保护之探讨[D].复旦大学,法律,2012,硕士.
[10]张显库,杨盐生.不对称信息理论与非线性鲁棒控制算法[J].控制与决策,2005,11:43-46+52.
[11]王培.《八月之光》中克里斯莫斯悲剧的弗洛伊德式解读[D].吉林大学,英语语言文学,2014,硕士.
[12]李凡.基于拓扑抽象的网络安全事件模拟系统的设计与实现[D].哈尔滨工业大学,计算机技术,2014,硕士.
[13]李立新,谢巧云,袁荣昌,林静怀,狄方春,李大鹏.电网调度云灾备系统优化分析与设计[J].电力系统自动化,2012,23:82-86.
[14]王文龙.组加密传输虚拟专用网的设计与实现[D].华中科技大学,软件工程,2013,硕士.
[15]张琦.从一碳到多碳有机羧酸分子的水热合成研究[D].吉林大学,无机化学,2013,硕士.
[16]田雄飞.富士Lenic-G系列传动装置恒张力开卷控制系统的浅析[J].冶金自动化,1994,03:50-52.
[17]李飞1,张兴1,朱虹1,李浩源1,余畅舟1,邵章平1,周岩峰2.一种LCLLC滤波器及其参数设计[J].中国电机工程学报.
[18]易思利.新型苝酰亚胺类衍生物及含铱聚合物的设计、合成与性能研究[D].宁波大学,无机化学,2013,硕士.
[19]谢赞福,魏文国.信息安全设施中入侵检测技术探讨[J].计算机工程与设计,2004,03:390-393.
[20]史文虎.旅游房地产营销模式研究[D].西南财经大学,2003.
[21]肖迎.高中化学错题资源应用现状调查及策略研究[D].华中师范大学,学科教学,2014,硕士.
[22]钟金娣.直接液体燃料电池电催化剂的制备和性能研究[D].湖南大学,2013.
[23]李政.瑞替普酶在急性肺动脉栓塞溶栓治疗的疗效及安全性评价[D].河北医科大学,内科学(专业学位),2014,硕士.
[24]景艳娥.基于菲尔莫尔场景与框架理论的翻译认知过程探索[D].西北大学,英语笔译(专业学位),2014,硕士.
[25]王青云.留学生“了_1”和“了_2”的习得研究[D].安徽大学,语言学及应用语言学,2014,硕士.
[26]彭佳妮.我国公共档案馆建设研究[D].安徽大学,档案学,2013,硕士.
[27]朱晓燕.余氏消疕饮治疗血瘀型寻常型银屑病的临床疗效观察[D].浙江中医药大学,中医学(专业学位),2014,硕士.
[28]刘爱芝.苏联共产党执政方式的历史演变及其教训[D].湖南师范大学,科学社会主义与国际共产主义运动,2004,硕士.
[29]董乃平.蛋白组学中串联质谱定性多肽算法研究[D].中南大学,分析化学,2013,博士.
[30]马正清,李叔彦,曹淑璐,任少杰.关于H/PJ87式单100mm舰炮的改装可行性分析[J].一重技术.1997(03)
[31]闫珺.基于CGE模型的中国铁路基础设施投资波及效应研究[D].北京交通大学,2013.
[32]王斌.表面织构化活塞环/缸套摩擦学性能仿真及试验研究[D].北京交通大学,2014.
[33]张金花.非线性不确定广义时滞系统的保性能控制[D].东北大学,运筹学与控制论,2010,硕士.
[34]刘小虹.华菱钢铁铁矿石水路运输管理优化研究[D].湖南大学,工商管理,2014,硕士.
[35]吕金娥.新时期大学生德育教育问题研究[D].武汉理工大学,思想政治教育,2012,硕士.
[36]王仕俊.肾脏转运器(LifePort)在心脏死亡器官捐献(DCD)供移植中的应用[D].吉林大学,临床医学,2014,硕士.
[37]周斌,刘亚萍,贾焰.中间件及数据挖掘技术在风湿临床中的应用研究[A].中国计算机学会数据库专业委员会.第十九届全国数据库学术会议论文集(技术报告篇)[C].中国计算机学会数据库专业委员会:,2002:3.
[38]余春萌.普通高校体育学类单招学生学习行为与意识研究[D].山西师范大学,体育教育训练学,2013,硕士.
[39]张婷婷.低维Ga_2O_3纳米材料的可控合成、掺杂与发光性质研究[D].河北工业大学,材料物理与化学,2013,硕士.
[40]黄剑锋.无线衰落信道下MIMO-OFDM系统信道估计的研究[D].西安电子科技大学,通信与信息系统,2004,硕士.
[41]邹雪.功能化天然生物材料对铜、砷的吸附及应用研究[D].西南大学,分析化学,2014,硕士.
[42]李艳华.河北省城市新兴文化业态发展的问题与对策[D].河北经贸大学,行政管理,2014,硕士.
[43]聂凯.肝移植术后早期细菌感染的危险因素分析及动态检测TNF-α在其早期诊断中的意义[D].第二军医大学,外科学(专业学位),2013,硕士.
[44]王鹏.城乡居民社会养老保险一体化进程中的问题与对策研究[D].郑州大学,公共管理(专业学位),2013,硕士.
[45]杨震.个性化信息获取方法的研究[D].大连理工大学,2004.
[46]韩勇.盾构刀盘轻量化优化设计研究[D].西南交通大学,机械设计及理论,2013,硕士.
[47]朱瑞利.上海某污染场地地下水中三氯乙烷的自然衰减机制研究[D].华东理工大学,环境科学与工程,2014,硕士.
[48]高延红,庄华夏,李西宗,伍亚玲,刘如泰.水工混凝土氯离子侵蚀模拟的相似性研究[J].人民长江,2013,20:46-49+53.
[49]经玲,孙立.基于支持向量回归的供应链合作伙伴核心竞争力评价[J].微电子学与计算机,2005,08:124-126.
[50]李萍.小学作文教学中说写结合的有效策略研究[D].华中师范大学,学科教学,2014,硕士.
- 下一篇: 高中语文阅读教学策略探究
- 上一篇: 基于维基百科的概念图建模及其应用研究