中文短文本分类技术的研究与实现

中文短文本分类技术的研究与实现

作者:师大云端图书馆 时间:2022-07-26 分类:硕士论文 喜欢:1382
师大云端图书馆

【摘要】文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方法并不能很好用于处理短文本。本文首先总结了国内外针对短文本分类技术的研究现状,现有的短文本分类方法大多需要背景知识库的支持,但是这些分类方法的普适性不是很强,而且处理背景知识库需要耗费大量的精力。常见的短文本主要有论坛发帖、产品评论、手机短信以及微博等等。与传统长文本相比较,短文本具有自己鲜明的特点,比如长度很短、用词不规范、新词不断出现等等。对短文本进行分类研究具有重要现实意义,与长文本相比较,短文本具有自己的突出特点,本文提出了基于搜索引擎和LDA主题模型的短文本分类方法。然后,本文讨论了传统文本分类过程中重要的技术方法。包括文本的预处理,文本向量化表示,特征提取方法,常用分类方法等。同时指出这些方法需要改进的地方以便用于短文本的分类处理。接着,文章介绍了LDA主题模型。并在主题模型的基础上结合搜索引擎,对短文本进行扩充处理和向量化表示。通过实验验证,本文提出的方法能够有效表示短文本,提高短文本分类的效果。相信随着短文本分类技术不断的发展完善,短文本分类对于政府决策、网络信息监管、舆情引导等社会工作会起到广泛而深刻的意义。
【作者】熊大康;
【导师】郑诚;
【作者基本信息】安徽大学,计算机软件与理论,2014,硕士
【关键词】文本挖掘;短文本;文本分类;主题模型;

【参考文献】
[1]陈宇.生产、销售有毒、有害食品罪疑难问题研究[D].辽宁大学,法律,2012,硕士.
[2]李雪冰,马莉,丁世宏.一类新的二阶滑模控制方法及其在倒立摆控制中的应用[J].自动化学报.
[3]冯骥翔.财务凭证管理系统设计与实现[D].山东大学,软件工程(专业学位),2012,硕士.
[4]王丁.机务段生产调度信息共享平台关键技术的研究[D].武汉理工大学,机械工程,2012,硕士.
[5]罗元荪.大容量机组一级旁路减温减压阀的热应力和使用寿命[J].发电设备.1990(12)
[6]徐建玲.谚语中的方位词“上”、“下”的中日对照研究[D].南京农业大学,日语语言文学,2011,硕士.
[7]杜方凯.基于碳点的荧光传感器的制备与应用[D].华南理工大学,2014.
[8]张广斌.复方吡喹酮片对犬的安全性试验及临床疗效的研究[D].南京农业大学,兽医,2012,硕士.
[9]崔彦辉.Nafion/NH_4-X沸石复合质子交换膜的制备与表征[D].哈尔滨工业大学,材料学,2013,硕士.
[10]张哲明.阳离子双子表面活性剂吸附性能研究[D].东北石油大学,油气井工程,2013,硕士.
[11]黄俊亮.CELAY内部控制体系构建研究[D].西北大学,工商管理(专业学位),2012,硕士.
[12]刘东.用VHDL设计实现JPEG(基本系统)硬件编码器[D].西南交通大学,计算机应用技术,2003,硕士.
[13]霍燕燕.金属纳米结构的Fano共振及Spaser特性研究[D].华东师范大学,光学,2014,博士.
[14]钟慧.中国保险业寿险营销员管理模式研究[D].云南大学,工商管理,2012,硕士.
[15]徐茜.RDX/氟聚物体系与PEG/硝酸酯体系分子动力学模拟[D].南京理工大学,材料学,2013,硕士.
[16]朱逢乐.基于光谱和高光谱成像技术的海水鱼品质快速无损检测[D].浙江大学,生物系统工程,2014,博士.
[17]郭益维.食品安全事件中工程师的伦理责任分析[D].重庆大学,科技哲学,2014,硕士.
[18]耿金伶.LTE物理层PDSCH编码的快速算法研究与实现[D].北京邮电大学,通信与信息系统,2013,硕士.
[19]陈清汾.CysLT1基因敲除小鼠模型和H99-GFP菌株的制备以及CysLT1受体在小鼠脑微血管和海马中的分布[D].福建医科大学,细胞生物学,2014,硕士.
[20]张璞.夜间通风相变储能材料的适宜性研究[D].西安建筑科技大学,建筑技术科学,2013,硕士.
[21]吴芳芳.聚丙烯腈/氧化石墨烯复合物的制备及其性质研究[D].东华大学,2012.
[22]汪洋.我国上市公司内部控制缺陷信息披露的影响因素分析[D].北京交通大学,2013.
[23]石艳敏.基于进路控制过程的联锁软件高效率测试方法研究[D].北京交通大学,2014.
[24]王鹏.光滑鳖甲(Anatolica Polita)差减cDNA文库的构建和免疫相关蛋白基因的克隆[D].新疆大学,生物化学与分子生物学,2013,硕士.
[25]刘可.城市垃圾渗滤液的特性分析及厌氧处理试验研究[D].西安建筑科技大学,环境工程,2004,硕士.
[26]谭亮魁.数字地震仪磁带上记录号错录后的更正方法[J].石油地球物理勘探,1985,06:653+652.
[27]段欣.液体危化品储运码头高危作业风险分级研究[D].中国地质大学(北京),安全技术及工程,2013,硕士.
[28]彭石冰,江祖森,徐声杰.林地化学除草应用技术研究[J].林业科学研究.1993(04)
[29]王珍艳.新型高位阻手性卟啉的合成及其催化环氧化反应研究[D].华中师范大学,有机化学,2013,硕士.
[30]龚玲.碳纳米管阵列的转移及粘附性能研究[D].南京航空航天大学,材料学,2013,硕士.
[31]何章兴.全钒液流电池电解液添加剂和电极改性方法研究[D].中南大学,应用化学,2013,博士.
[32]朱子华.井岗霉素A对葡萄诱导抗性和保鲜作用的初步研究[D].河南农业大学,植物病理学,2004,硕士.
[33]董方军.铁矿石市场价格机制研究[D].北京交通大学,2010.
[34]孟琳琳.生态移民对牧民生产生活方式的影响研究——以敖力克嘎查为例[D].中央民族大学,社会学,2004,硕士.
[35]施学敏.1919年恽代英政治思想转变研究[D].湖北大学,专门史,2012,硕士.
[36]霍卫东,史士东.三种直接液化催化剂的活性和选择性对比研究[J].煤炭转化.2007(04)
[37]贾光华.生产者服务贸易对产业结构优化作用的研究[D].首都经济贸易大学,国际贸易学,2014,硕士.
[38]宋沙沙.高中数学新手与专家教师课堂提问的比较研究[D].华中师范大学,学科教学,2014,硕士.
[39]梁江.大豆异黄酮配伍叶酸对环磷酰胺诱导大鼠神经管畸形的干预研究[D].山西医科大学,营养与食品卫生学,2003,硕士.
[40]曹慧萍.陕西石泉方言词汇研究[D].三峡大学,汉语言文字学,2013,硕士.
[41]隋典朋.锰暴露对PARK2表达的影响[D].遵义医学院,卫生毒理学,2012,硕士.
[42]廖曙光.“洋话连篇”客户关系管理策略研究[D].对外经济贸易大学,2005.
[43]高申应.基于LCL滤波器的并网逆变器控制策略研究[D].杭州电子科技大学,控制理论与控制工程,2013,硕士.
[44]刘瑾.WTO体制下发展中国家成员特殊和差别待遇研究[D].华东政法学院,法律,2003,硕士.
[45]温云峰.自然通风竖井结构对地铁区间隧道火灾排烟效果的影响研究[D].西安建筑科技大学,建筑与土木工程,2013,硕士.
[46]李婷婷.我国省级党刊的发展困境与出路探索[D].安徽大学,新闻与传播,2014,硕士.
[47]王跃存.新建建筑围护结构含湿量衰减特性研究[D].西安建筑科技大学,供热、供燃气、通风及空调工程,2013,硕士.
[48]鄢妘.四川移动农村市场营销策略研究[D].电子科技大学,工商管理(专业学位),2012,硕士.
[49]吴春英.我国政治文明建设中的法治问题研究[D].江西师范大学,马克思主义理论与思想政治教育,2004,硕士.
[50]张鹏.基于社群认同的网络团购研究[D].中南大学,工商管理,2013,博士.

相关推荐
更多