中文文本自动分类的应用研究
【摘要】时代的飞速进步,信息技术的快速发展,信息获取的途径多样化、信息的表现形式多元化、信息容量的膨胀化,特别是网络上电子图书、电子信息等海量的电子资源,给予我们搜取信息极大地便利性,但同时也带来一个严峻的问题。怎样才能从如此庞大的信息库中准确快速的获取我们所需要的信息就是亟需解决的问题。目前,文本分类技术以其实用性受到了研究者的关注。文本分类也成为当前热门的研究课题之一。本文首先概述了中文文本分类的流程以及在分类流程中所涉及的相关理论:简要的分析了布尔模型、概率模型和向量空间模型这三种文本表示模型的表示原理以及各自的优缺点,其中重点描述了向量空间模型;对信息增益、文档频率、期望交叉熵、互信息和x2统计特征选择方法进行详细地介绍以及优缺点的比较,比较了常见文本分类算法Rocchio、朴素贝叶斯(NB)、支持向量机(SVM)、K最近邻(kNN)的优缺点,对分类器性能评价指标召回率、准确率和F1值等做了简单描述。其次深入分析了K最近邻算法,总结了近年来各研究对KNN算法改进方案,并针对其存在的问题,提出一种改进方案。新的方案引入拉推策略的思想,通过对误分样本的迭代分类,为每个类设置一个权向量,改进了相似度计算公式,从而提出一种改进KNN算法。最后,设计了四组对比实验,选取了较合适的特征维数和K值,实验证明,改进的KNN算法有较好的分类性能。
【作者】吴波;
【导师】朱昌杰;
【作者基本信息】淮北师范大学,计算机软件与理论,2013,硕士
【关键词】文本分类;KNN;拉推策略;权向量;
【参考文献】
[1]杜金.员工离职时间影响因素的实证研究[D].渤海大学,企业管理,2013,硕士.
[2]谢齐玥.农户降低氮肥施用量意愿的影响因素研究[D].沈阳农业大学,农林经济管理,2013,硕士.
[3]高茜.电子商务物流模式研究[D].内蒙古大学,工商管理,2012,硕士.
[4]匡琼.论“五四”翻译文学与中国文学的现代性[D].华侨大学,中国语言文学,2014,硕士.
[5]刘艳兰.全基因组关联研究中的上位性检测算法研究[D].湖南大学,计算机科学与技术,2012,硕士.
[6]吉祥.金砖四国汇率制度的选择:比较研究[D].复旦大学,世界经济,2012,硕士.
[7]陈国庆.基于VPVT控制算法的变风量空调系统的研究[D].福州大学,工业电气自动化,2003,硕士.
[8]李俊永.陕北地区中学物理课程资源开发与利用的调查及其对策研究[D].延安大学,课程与教学论,2014,硕士.
[9]曲民生.2011版新《课标》指导下的初中语文教学研究[D].鲁东大学,学科教学(专业学位),2013,硕士.
[10]高锋,吕中秀.矿山竖井信号微机检测与控制系统[J].冶金自动化,1996,01:43-45.
[11]马小茹.核壳及层状CuO-ZnO-Al_2O_3/分子筛的制备及其催化性能研究[D].西北师范大学,应用化学,2013,硕士.
[12]索晓岚.南京市老年公寓户外环境研究[D].南京农业大学,风景园林,2013,硕士.
[13]黄毅.智能Agent技术在图书管理信息系统中的研究与应用[D].广东工业大学,2004.
[14]李建青.电磁场化学气相沉积制备各向同性热解炭及微观结构研究[D].中南大学,2011.
[15]王红.可充锂空气电池关键材料研究[D].上海交通大学,2014.
[16]沈芳衣.服装品牌植入电影的营销沟通效果研究[D].浙江理工大学,服装设计与工程,2014,硕士.
[17]武健,何娜,徐殿国.重复控制在并联有源滤波器中的应用[J].中国电机工程学报,2008,18:66-72.
[18]蔡定葆,张群莉,MykolaAnyakin,RuslanZhuk,任博,姚建华.基于BP神经网络算法的Ti-6Al-4V激光NiAl-VC合金化的工艺研究[J].应用激光,2013,01:18-23.
[19]侯晨.泾河东庄水利枢纽工程岩溶地下水同位素水文地球化学特征[D].长安大学,水文学及水资源,2013,硕士.
[20]颜彪.膝痹通治疗早期膝骨关节炎的临床疗效观察[D].北京中医药大学,中医学,2014,硕士.
[21]武功孟.越南公职考试录用的存在问题研究[D].首都经济贸易大学,行政管理,2014,硕士.
[22]姜喆.俄语交际的言语策略与技巧[D].吉林大学,俄语语言文学,2004,硕士.
[23]高华颖.人乳铁蛋白(HLF)基因cDNA的细胞表达及精子介导转基因动物制备的研究[D].辽宁师范大学,细胞生物学,2003,硕士.
[24]吴清坤.基于波叠加法高速列车声场重构研究[D].北京交通大学,2014.
[25]彭珑.基于清开灵注射液解热作用的PK-PD结合模型研究[D].北京中医药大学,药物分析,2014,硕士.
[26]宋云珍.Olanzapine激活AMPK上调自噬减轻Rotenone对多巴胺能神经元的损伤[D].苏州大学,药理学,2014,硕士.
[27]马剑飞.溶液中阳离子和环糊精对沸石吸附诺氟沙星的影响研究[D].中国地质大学(北京),地质工程,2013,硕士.
[28]成威.住房反向抵押养老保险下的税收问题研究[J].甘肃金融,2014,09:30-34.
[29]曹卫东,房芗浓.数据挖掘在智能交通系统中的应用分析[J].计算机工程,2005,S1:91-92+95.
[30]毛瑞达,刘晓帆.时间与频率计测技术新动向[J].宇航计测技术.1990(03)
[31]朱红.孕母患自身免疫性甲状腺疾病对婴儿智能发育影响的研究[D].浙江大学,儿科学,2004,硕士.
[32]张炳轩.我国中小企业技术创新存在的问题与对策研究[D].武汉理工大学,产业经济学,2003,硕士.
[33]王力.铁路集装箱中心站关键资源调度优化理论与方法[D].北京交通大学,2014.
[34]杨荣.黔东南州文化产业若干问题研究[D].华中师范大学,农村与区域发展,2013,硕士.
[35]张小琴.初中数学课堂提问现状调查研究[D].西北师范大学,教育,2014,硕士.
[36]雍有,朱晶莹,卢滇楠,戈钧,刘铮.有机相温敏性脂肪酶催化剂的结构和催化特性[J].化工学报.
[37]李鸿儒,宋笑雪,魏平.信息系统诱导出的形式背景及其性质[J].工程数学学报,2005,06:24-28.
[38]李海龙.基于视觉/力传感器的机器人柔顺装配技术研究[D].燕山大学,机械电子工程,2014,硕士.
[39]叶建强.新型三电平拓扑结构有源电力滤波器的研究[D].哈尔滨工业大学,电气工程,2014,硕士.
[40]戚远方.人民币汇率变动对产业结构的影响[D].苏州大学,金融学,2013,硕士.
[41]张文丽.玉米幼苗对不同土壤水分条件的生理反应[D].河南大学,植物学,2004,硕士.
[42]林东海.220kV变压器全寿命周期成本建模方法研究[D].华侨大学,电气工程(专业学位),2013,硕士.
[43]宋春.吉林省防汛抗旱指挥系统建设问题研究[D].吉林大学,公共管理,2004,硕士.
[44]张磊.基于EtherCAT的主站通信控制器设计[D].广东工业大学,检测技术与自动化装置,2013,硕士.
[45]朱芳芳.Niavt14/徐州25重组自交系群体小麦纹枯病抗性QTL分析[D].南京农业大学,遗传学,2011,硕士.
[46]赵俊贤,吴斌,欧进萍.新型全钢防屈曲支撑的拟静力滞回性能试验[J].土木工程学报,2011,04:60-70.
[47]刘春辉.卡尔曼滤波在GNSS导航系统中的应用[D].北京邮电大学,通信与信息系统,2013,硕士.
[48]贺幸.微博影响力传播模型的改进与验证[D].中国科学技术大学,信息安全,2014,硕士.
[49]张平.我国新型农村社会养老保险主体制度研究[D].安徽大学,经济法学,2013,硕士.
[50]崔禾.济南城市文化墙的信息传播现状与传播效果研究[D].辽宁大学,新闻学,2012,硕士.
相关推荐
- 采用显微监控的可选区原子力显微镜研究
- 10月16日
- 两种植物多酚体外抑制希瓦氏菌和假单胞菌及抗生物被膜的研究
- 11月09日
- “似是而非”的“中国风”
- 08月29日
- 刘备形象的演变及其文化意蕴
- 03月15日