基于密度的改进K-Means文本聚类算法研究
【摘要】伴随着信息技术和计算机网络的不断发展,每天有数亿的分布式信息被人们所共享。如何在这些海量的、异构的信息资源中快速而有效的检索出需要的信息成为人们日益关注的问题。知识发现和数据挖掘技术是解决这一问题的最新课题。文本聚类是文本发现和文本挖掘的最重要、最基本的功能之一,近年来文本聚类算法的研究取得了长足的发展和一系列的研究成果。目前常用的文本聚类算法有五类:基于划分的聚类算法,如最常用的K-means算法;基于层次的聚类算法;基于密度的聚类算法,如DBSCAN算法;基于网格的聚类算法和基于模型的聚类算法K-means算法是文本聚类算法中的最经典的基于划分的算法之一。其主要思想是随机选择K个初始中心点,将每个簇中心用该簇中数据的均值表示。这种算法具有时间复杂度低,实现简单等优点,对处理大数据集的可伸缩性较好。但是该算法也有比较明显的缺点:首先该算法的聚类效果对聚类初始中心的选择和设置过于敏感,极易导致聚类结果随之波动;其次是需要提前给定K值固定聚类个数;另外该算法在运行中容易陷入局部最优解。本文对传统的K-means算法加以改进,主要有两个方面的。首先基于距离和统计的思想对数据集中的孤立点进行了检测,先将数据点之间按最近距离升序排列,计算出所有数据点最近邻距离最大的几个数据点的最近邻距离差,以最大的距离差对应的距离值为半径对数据点的密度进行统计,将密度小于密度阈值的数据点进行统计学标准化值的检测,从而判断出数据集的强孤立点和部分弱孤立点并进行处理。其次提出一种可变步长的初始中心点选取算法。先将最近最小距离的数据点的平均距离计算出来,以此建立可变步长的半径空间,数据点的从小到大在半径空间中选取半径,对半径密度值进行计算,最终将半径密度最大最远的数据点作为初始聚类中心点进行输出。最后将基于距离和统计的孤立点检测算法和基于可变步长的初始中心选取算法结合到传统的K-Means聚类算法中,产生了基于密度的改进K-Means文本聚类算法。该算法通过对孤立点的检测和处理能避免传统K-Means算法容易陷入局部最优解的情况;又通过可变步长选取初始中心点能够提高传统算法的执行效率和聚类的质量。经过实验数据的检测证实该算法能从聚类效果和质量上都有所提高。
【作者】贾永娟;
【导师】安秋生;
【作者基本信息】山西师范大学,计算机应用技术,2014,硕士
【关键词】K-Means算法;可变步长;密度阈值;最近邻距离;
【参考文献】
[1]钟建坡.嵌入式检测仪及水中油含量检测技术研究[D].大庆石油学院,计算机应用技术,2004,硕士.
[2]王婷婷.在华美国跨国公司中美管理者决策行为的文化差异[D].对外经济贸易大学,英语,2004,硕士.
[3]李慧慧.关于“レか”和“だけ”的对比研究[D].吉林大学,外国语言学及应用语言学,2013,硕士.
[4]杨薇.合作学习在初中英语阅读教学中的应用[D].河北师范大学,学科教学,2012,硕士.
[5]王鑫.电商环境营销渠道与传统营销渠道冲突研究[D].首都经济贸易大学,企业管理,2014,硕士.
[6]安乐乐.地下停车场通风数值模拟及分析[D].辽宁工程技术大学,安全管理工程,2012,硕士.
[7]迟轩.基于协同过滤算法的推荐系统框架设计与实现[D].上海交通大学,软件工程,2013,硕士.
[8]周建文.红壤穿透阻力对玉米根系及水分关系的影响[D].华中农业大学,土壤学,2014,硕士.
[9]唐艳玲.技巧后的爱恨忧思——从《喧哗与骚动》叙事技巧看福克纳的南方情结[D].吉林大学,比较文学与世界文学,2004,硕士.
[10]李汝秋.足球在鲁西地区高校公共体育教学中的开展现状调查分析[D].苏州大学,体育教学(专业学位),2013,硕士.
[11]刘栓,汪淑廉,杨红伟,方艳芬,孙虎元,黄应平.电(类)Fenton体系阴极材料的研究进展[J].三峡大学学报(自然科学版),2012,02:90-95.
[12]王前波.企业可扩展的云存储技术研究[D].中北大学,通信与信息系统,2013,硕士.
[13]姜皓元.以国际法的视角看岛国沉没后其国际地位和海洋权利依旧存在[D].南京大学,国际关系,2013,硕士.
[14]马东明.基于STC12C5A60S2和ATT7026A无功补偿控制器设计[D].北方工业大学,电气工程,2014,硕士.
[15]王弟鑫.基于公交布局形式的公交线路间竞合关系研究[D].哈尔滨工业大学,交通运输规划与管理,2014,硕士.
[16]马文娟.TWIST2-ID2轴调控CML干/祖细胞生长和伊马替尼敏感性的研究[D].苏州大学,生物化学与分子生物学,2014,硕士.
[17]尉珊.初中诗歌教学内容探究[D].河北师范大学,学科教学,2014,硕士.
[18]肖明,谢胜利,傅予力.基于超平面法矢量的欠定盲信号分离算法[J].自动化学报,2008,02:142-149.
[19]李菲.搅拌磨机湿法制备纳米片状锌粉技术的工艺研究[D].华东理工大学,流体机械及工程,2014,硕士.
[20]张陆.绩效考核系统的设计与实现[D].北京工业大学,计算机技术(专业学位),2013,硕士.
[21]董建华.从CJPS高引用论文看高分子学科前沿[A].中国化学会、中国机械工程学会、中国材料研究学会.2014年全国高分子材料科学与工程研讨会学术论文集(上册)[C].中国化学会、中国机械工程学会、中国材料研究学会:,2014:6.
[22]张娣.可溶性HLA-G二聚体在体外抑制树突状细胞成熟和M1型巨噬细胞极化[D].华中科技大学,免疫学,2013,硕士.
[23]琚姗姗.银行新任基层管理者培训个案研究[D].华东师范大学,人力资源开发与教育,2013,硕士.
[24]张宏瑾.在机测量系统控制技术与测量数据提取[D].大连理工大学,机械工程(专业学位),2013,硕士.
[25]于妤.关于夫妻忠诚协议的法律思考[D].山东大学,法律(专业学位),2012,硕士.
[26]赵逢波.国际协会总部组成人员简介及联系方式[J].继续教育.2001(05)
[27]王涛.一类非线性系统的间接自适应输出反馈模糊控制[J].控制与决策,2000,02:161-164+185.
[28]邓静.林分生长的真实感动态模拟[D].中南林业科技大学,计算机技术,2014,硕士.
[29]邓国林.高校意识形态安全建设研究[D].苏州大学,思想政治教育,2013,博士.
[30]刘信伟.基于MMS影像的SIFT算法改进与实现[D].北京建筑大学,地图制图学与地理信息工程,2013,硕士.
[31]张晓鑫.多醛改性的环保型酚醛树脂胶黏剂[D].北京化工大学,材料科学与工程,2013,硕士.
[32]姚建华,李传康.激光表面强化和再制造技术的研究与应用进展[J].电焊机,2012,05:15-19.
[33]吕文涛.现代性背景下新具象绘画笔触语言特征[D].河北师范大学,美术学,2013,硕士.
[34]段金平.在建建筑物抵押权问题研究[D].烟台大学,民商法学,2014,硕士.
[35]杨振宁.基于钢—钢接触高频摩擦噪声试验及仿真研究[D].哈尔滨工业大学,车辆工程,2014,硕士.
[36]吴梅钗.马来西亚森美兰州基孔肯雅热关节炎证候和生存质量相关性研究[D].广州中医药大学,中医临床基础,2013,硕士.
[37]李萍.福州市魁岐大桥桥梁方案综述[J].中国集体经济(下半月).2007(12)
[38]周峰.证实数字签名理论的研究[D].西安理工大学,应用数学,2004,硕士.
[39]王若蛟.翼状胬肉中Survivin、VEGF、Cox-2表达及其相关性研究[D].北京协和医学院,临床医学,2014,博士.
[40]刘世新.制造业质量风险评估体系实证研究[D].山东大学,工业工程(专业学位),2012,硕士.
[41]章蓉.相分离法制备骨组织工程用CP/PLLA复合支架及性能表征[D].浙江大学,材料学,2004,硕士.
[42]马召贵,王尚旭,宋建勇.频率域波动方程正演中的多网格迭代算法[J].石油地球物理勘探,2010,01:1-5+164+167.
[43]傅晓云,李玮,吴剑锋.应用感性工学的老年人电动代步车车身造型设计研究[J].包装工程,2015,02:59-62+71.
[44]康增柱.强夯法加固填方地基的规律研究[D].中北大学,工程力学,2013,硕士.
[45]刘龙江.量子关联及其动力学的研究[D].山东大学,理论物理,2014,博士.
[46]郑建华,赵政.Web页面排序算法研究[J].微处理机,2003,05:33-35.
[47]郑智彬.福建省农村流通网络建设现状和对策研究[D].福建农林大学,作物,2012,硕士.
[48]欧阳孟强.康德“崇高”美学思想研究[D].安徽大学,美学,2013,硕士.
[49]谢科科.公设辩护人制度研究[D].复旦大学,法律,2012,硕士.
[50]高阳,李世卿,杨自厚.可逆冷轧机前馈最佳补偿的仿真研究[J].冶金自动化,1983,01:26-32.
- 下一篇: 英语专业不同水平学生跨文化敏感度对比个案研究
- 上一篇: “老苗”品牌市场营销策略研究
相关推荐
- 基于培训迁移理论的农村教师培训后期支持服务设计研究
- 08月14日
- 鄂尔多斯市东胜区实施“交巡警合一”警务机制设想
- 10月31日