文本分类中特征选择和分类算法的研究

文本分类中特征选择和分类算法的研究

作者:师大云端图书馆 时间:2021-03-22 分类:硕士论文 喜欢:3117
师大云端图书馆

【摘要】近些年来,在信息技术和互联网的高速发展下,电子文本信息的数目迅速增长。人们可获得的信息越来越多。然而由于信息的杂乱无序,人们很难在浩瀚的数据中找到真正需要的信息。面对我们常说的“信息发达,知识贫乏”这样的局面,如何尽最大可能对这些信息进行有效的组织和管理成为信息处理研究中重要的研究之一,文本分类技术就是解决这一问题的有效方法。能够帮助人们非常高效并且准确的定位文本信息,为用户取得需要的信息提供强大的支持。本文详细介绍了文本分类的主要方面,涉及文本表示、文本特征提取方法、文本分类算法等相关技术。同时针对文本分类中涉及到的两个关键的技术(文本特征提取和分类算法)进行了详细的研究,具体内容包括以下几方面:(1)文本特征项提取方法的研究。分析了特征项提取的传统方法TF-IDF算法,并在此基础上提出了一种新的改进策略,以提高特征项提取的查全率和查准率。(2)分类算法的研究。分析了决策树和logistic回归分类算法的优缺点,决策树有较高的分类准确性但是在建树的过程中面对大量数据需要庞大的计算量。针对这个问题提出了基于logistic回归的决策树分类算法,在建树前先利用logistic回归算法进行数据的缩减,留下对分类影响最大的一些数据,提高建树的速度。(3)实验分析。基于对文本分类相关技术的深入分析研究,对文本提出的改进的特征项的选取方法和分类算法进行实验分析和验证。
【作者】龚瑞琴;
【导师】毕利;
【作者基本信息】宁夏大学,计算机软件与理论,2014,硕士
【关键词】文本分类;特征项选择;分类算法;

【参考文献】
[1]王昭磊1a,徐利杰2,王青1a,董朝阳1b.基于局部交叠异步切换的网络控制系统故障检测[J].控制与决策.
[2]衣帅.猫微卫星DNA标记遗传检测方法的建立及对虎皮猫群体遗传结构的分析[D].吉林大学,动物学,2013,硕士.
[3]张天勇.磷酸铁锂动力电池数字化均衡控制系统[D].哈尔滨理工大学,控制理论与控制工程,2012,硕士.
[4]刘文波.陕西省渭北东部岩溶水开采动态预测——裂隙—孔隙双重介质三维流模型[D].中国地质大学,环境工程,2003,硕士.
[5]郑新华谢利理刘丽卓杨亮璞.负压活门特性[J].中国机械工程,2014,22:.
[6]张家林,陶学中,白黎明.全自动引线键合机[J].自动化学报,1984,01:44-49.
[7]曾莉莉.基于铜绿假单胞菌群体感应苯磺酸氨氯地平增加抗菌效应的机制研究[D].福建医科大学,药理学,2014,硕士.
[8]李楠.蓖麻毒蛋白的提取分离技术研究[D].中南林业科技大学,发酵工程,2014,硕士.
[9]赵文博.井下胶带输送机的智能视频监测方法研究[D].西安科技大学,计算机应用技术,2014,硕士.
[10]徐凯.2DC/C复合材料的力学性能研究[D].哈尔滨工业大学,工程力学,2014,硕士.
[11]李琪.中学语文语言知识的调查与研究[D].广西师范大学,语言学及应用语言学,2014,硕士.
[12]明嵬.直流电弧数值模拟及等离子点火特性研究[D].大连理工大学,2007.
[13]王培祥.考虑空间热效应星载天线谐波传动特性研究[D].哈尔滨工业大学,机械工程,2014,硕士.
[14]张达奇,杨娟,李彦.卟啉类化合物与碳纳米材料非共价相互作用的研究进展[J].中国科学:化学,2014,02:216-228.
[15]孟晓春.Word与Adobe Acrobat PDF文档的水印算法研究[D].西安科技大学,通信与信息系统,2013,硕士.
[16]曾昱为.国际大宗商品市场对我国股票市场影响的研究[J].金融经济,2015,08:160-162.
[17]孙猛,吴宗之,张宏元.危险化学品公路运输事故原因分析与对策[J].中国安全科学学报.2003(08)
[18]刘艳艳.鲜乳细菌总数荧光定量PCR检测方法的建立[D].吉林大学,预防兽医学,2014,硕士.
[19]许达.基于谷歌地图的路径搜寻服务开发及其应用于R@MSES系统[D].哈尔滨工业大学,软件工程,2013,硕士.
[20]尹晓龙.中国新兴微电影广告研究[D].山东大学,设计艺术学,2013,硕士.
[21]王媛.“以房养老”方式的比较与实现研究[D].上海工程技术大学,社会保障,2011,硕士.
[22]梁雷江.顺9井区志留系柯坪塔格组下段储层评价研究[D].长安大学,矿产普查与勘探,2014,硕士.
[23]刘笑菲.机翼共形全极化阵列雷达自适应抗干扰与误差校正方法研究[D].西安电子科技大学,信号与信息处理,2012,硕士.
[24]杨铭贤.程控交换工程的话务量调查[J].电信工程技术与标准化.1993(03)
[25]樊莉莉.信息社会中国电子地图网站介绍与评测[D].河北师范大学,人文地理学,2004,硕士.
[26]陈凌云.创伤与写作疗法—《玛丽·巴顿》和《南方与北方》中盖斯凯尔夫人的创伤[D].郑州大学,英语语言文学,2013,硕士.
[27]韩星.鼻咽癌初治分期与颈淋巴结复发灶再治疗疗效的关系[D].广西医科大学,耳鼻咽喉头颈外科学(专业学位),2013,硕士.
[28]佘莹莹,方华京.基于有向网络的多智能体系统快速一致性[J].控制与决策,2010,07:1026-1030.
[29]卢东.房地产企业的市场营销策划研究[D].西南交通大学,工商管理,2003,硕士.
[30]石陶.分组密码算法SMS4的安全性分析[D].山东大学,计算机应用技术,2013,硕士.
[31]林峰.松材线虫与其携带细菌之间的共生关系[D].南京林业大学,森林保护学,2004,硕士.
[32]范卫娜.性别差异对高中生英语自主学习的影响及教学启示[D].河北师范大学,学科教学,2013,硕士.
[33]孙启迪.介质阻挡放电等离子体制备功能金属氧化物纳米材料的研究[D].天津大学,化学工艺,2013,硕士.
[34]陈丽红.异构数据库通用系统的设计[D].华侨大学,2001.
[35]陈光旭.医疗纠纷诉讼证据保全研究[D].西南政法大学,法律(专业学位),2012,硕士.
[36]郭元源,池仁勇,金陈飞.从集群网络位置看科技中介分类——以浙江省为例[J].科技进步与对策,2014,17:45-50.
[37]杨华.“师生互动、有趣、高效”:中职公共基础课课堂教学管理的实践研究[D].鲁东大学,教育管理(专业学位),2013,硕士.
[38]范铮.旋转机械振动在线监测系统的研究与开发[D].兰州理工大学,控制理论与控制工程,2014,硕士.
[39]徐铭杰.间数据挖掘模型和方法研究[J].河南纺织高等专科学校学报,2002,01:15-17.
[40]刘梦忆.纵向一体化对企业绩效和技术效率的影响——基于中国汽车上市企业的实证分析[J].广西财经学院学报,2014,03:62-66.
[41]沈泽勋.S公司建筑施工现场管理改进策略研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[42]李志娟.我国承接欧美服务外包影响因素研究[D].河北经贸大学,国际贸易学,2012,硕士.
[43]刘华.铁路车站分布与能力适应性分析[J].中国铁路.2006(08)
[44]王春.云南香格里拉阿热—铜厂沟地区成矿地质背景分析[D].成都理工大学,矿产普查与勘探,2013,硕士.
[45]刘凯.新型多频段微带圆极化天线的设计与应用研究[D].南京邮电大学,通信与信息系统,2013,硕士.
[46]蒋丽君.西藏少数民族干部素质教育问题研究[D].吉林大学,行政管理,2014,硕士.
[47]沈飞琼.康莱特联合吉非替尼对Lewis肺癌小鼠血管生成的作用及其机制研究[D].河北医科大学,肿瘤学,2013,硕士.
[48]陈燎.民营企业财务管理研究[D].西南财经大学,工商管理,2003,硕士.
[49]孙惠.“黄金时期”戏曲电影与新世纪戏曲电影比较研究[D].安徽大学,戏剧戏曲学,2014,硕士.
[50]姜先清.农村空巢家庭养老模式理性选择的探究[D].华中师范大学,社会工作,2014,硕士.

相关推荐
更多