基于内容的垃圾邮件检测方法研究
【摘要】随着互联网的发展和普及,电子邮件已经成为人们一个相互交流、获取资讯的重要渠道。伴随着信息技术的发展垃圾邮件也给人们带来了诸多的危害。在解决垃圾邮件问题众多的途径和思路中,基于内容的垃圾邮件检测是目前最主流的反垃圾邮件方法之一。文本分类与特征降维分别是基于内容的垃圾邮件检测不可或缺的两个部分。文本分类是在已知类别标号的训练集上通过寻找规律或统计学习建立垃圾邮件检测分类模型的方法。基于内容的分类算法不需要考虑语义环境,只需对文本进行相关统计计算,具有自学习,自适应能力和较高的准确率。特征降维是基于内容的垃圾邮件检测中的另一项关键流程。使用向量空间模型来表示邮件文本时,特征向量空间通常呈现高维特性,不利于垃圾邮件检测系统的运行。对原始高维特征空间进行降维处理就成了垃圾邮件检测中的重要步骤。特征降维方法中的特征选择算法具有性能较好,可行性强等优点,是基于内容的垃圾邮件检测中的重要研究对象。本文对不同垃圾邮件检测组合进行了研究,通过它们性能的优劣对比,在此基础上提出一种基于邮件内容特征的结合正交质心特征选择算法(OrthogonalCentroidFeatureSelection,OCFS)和支持向量机(SupportVectorMachine,SVM)的新型垃圾邮件检测架构OCFSVM,该组合从垃圾邮件内容特征入手,通过OCFS算法成功地从原始高维特征空间中选出足够类别代表能力的特征子集,通过SVM学习方法对降维后的垃圾邮件语料库低维向量空间模型分类运算,并将其作垃圾邮件检测的基础架构。本文的主要工作和创新点如下:(1)通过对垃圾邮件特征降维阶段及分类阶段的分析,在特征降维阶段引入应用较少的OCFS算法,结合文本分类领域的SVM算法,提出了一种结合OCFS和SVM的新型垃圾邮件检测架构OCFSVM。并在matlab、C#、Eclipse平台和怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis,Weka)上,实现了垃圾邮件检测架构OCFSVM.(2)在垃圾邮件检测实验平台上,引入PU系列英文语料库、ZH1中文语料库、中英文混杂自选垃圾邮件集,三种特征降维方法,三种文本分类算法,进行了综合有效的OCFSVM检测架构性能的对比实验。(3)以精准度和F值为评价指标,在对实验结果进行分析的基础上总结出各检测组合的规律,验证了新型垃圾邮件检测架构OCFSVM能够在不同的邮件环境下对垃圾邮件实施有效的检测,且较传统的检测架构性能得到了较大的提高。
【作者】罗常泳;
【导师】周洪亮;张宏建;
【作者基本信息】浙江大学,控制科学与工程,2014,硕士
【关键词】基于内容;垃圾邮件;检测;OCFS;SVM;OCFSVM;
【参考文献】
[1]王嘉.基于构件的网络管理系统框架开发研究[D].天津大学,软件工程,2004,硕士.
[2]涂继亮,杜德生.基于DW与OLAP的CRM系统分析[J].管理科学文摘,2004,06:57-59.
[3]樊俊蝶.八肋游仆虫rab基因的克隆与表达[D].山西大学,生物化学与分子生物学,2004,硕士.
[4]刘志琴.基于计算机视觉的手势识别[D].安徽大学,电子与通信工程,2014,硕士.
[5]刘琼霞.氨吹脱—生物接触氧化工艺处理垃圾渗滤液中试试验研究[D].广西科技大学,生物化工,2013,硕士.
[6]李静森.卫星通信网络拥塞控制算法研究[D].大连大学,计算机应用技术,2014,硕士.
[7]张富春.电务系统维修体制改革工作探讨[J].铁道通信信号.2008(02)
[8]董琴.我国五声性十二音序列艺术歌曲研究[D].西南大学,音乐学,2014,硕士.
[9]严晨圆.4,6-二硝基间苯二酚的结晶过程研究[D].华东理工大学,化学工程,2014,硕士.
[10]詹鹏.中日贸易摩擦分析[D].河北大学,世界经济,2003,硕士.
[11]陈浙云.二十一世纪前十年网络流行语研究[D].扬州大学,汉语言文字学,2012,硕士.
[12]周向东.聚合物/相转变材料纳米胶囊的制备[D].浙江大学,化学工艺,2004,硕士.
[13]梁贵德.毛泽东民主政治思想探析[D].福建师范大学,马克思主义哲学,2013,硕士.
[14]李红星,饶溯,陶春辉,周建平,张华.广义希尔伯特变换地震边缘检测方法研究[J].石油地球物理勘探,2015,03:490-494+5.
[15]刘俊林.中等职业学校班级文化建设的实践探索[D].华中师范大学,教育管理,2013,硕士.
[16]昝永强.紫甘薯花青素对过度训练大鼠心肌氧化损伤干预的研究[D].江苏师范大学,运动人体科学,2013,硕士.
[17]邵传可.不同管理模式下人工苜蓿地固碳效应分析[D].西安科技大学,环境科学,2013,硕士.
[18]常丽君.科学家开发出石墨烯太赫兹设备样机[N].科技日报,2012-05-04002.
[19]胡春丽.员利针疗法治疗腰椎间盘突出症的临床疗效研究[D].北京中医药大学,中医内科学,2013,硕士.
[20]陶金花.数据流管理框架的研究[D].大庆石油学院,计算机应用技术,2004,硕士.
[21]盛剑会.模型预测控制系统分析与集成[D].南京气象学院,系统分析与集成,2004,硕士.
[22]吕伟超.自然灾害下应急物资多目标配送模型研究[D].华中科技大学,管理科学与工程,2012,硕士.
[23]甘智华,吴镁,朱佳凯,王龙一,宋豫京,孙潇,赵胜颖.电阻阵列冷却用脉管制冷机研制[J].低温工程,2015,01:1-7+28.
[24]甄子洋,王志胜,王道波.基于信息融合估计的离散线性系统预见控制[J].自动化学报,2010,02:347-352.
[25]王华东.贵州省旅游产业与文化产业融合发展研究[D].贵州财经大学,旅游管理,2013,硕士.
[26]王小梅.政府主导下的旅游城镇发展[D].内蒙古大学,公共管理,2014,硕士.
[27]邱爽.中国EFL课堂上教师言语的潜在破坏性研究[D].广东外语外贸大学,外语教学技术与评估,2013,硕士.
[28]徐成华.基于芯片技术的嗅觉模型研究[D].浙江大学,生物医学工程,2004,硕士.
[29]张颖为.无惩罚无滤子SLQP算法的全局收敛性[D].苏州大学,运筹学与控制论,2014,硕士.
[30]王元贵.琼脂糖凝胶介质中多孔TiO_2和ZrO_2的仿生合成及应用研究[D].天津大学,生物化工,2013,硕士.
[31]张晓霞,唐立新.一种新的求解MMKP问题的ACO&PR算法[J].控制与决策,2009,05:729-733.
[32]李静琪.江苏省新型农村社会养老保险制度绩效评价[D].南京财经大学,劳动经济学,2012,硕士.
[33]秦元宁.湖南省城镇社会养老保险支出水平研究[D].辽宁大学,社会保障,2012,硕士.
[34]李广坤.非农就业对农户耕地保护性投资行为的影响分析[D].南京农业大学,土地资源管理,2013,硕士.
[35]崔华伟.后危机时代中美贸易失衡问题研究[D].郑州大学,国民经济学,2013,硕士.
[36]吴婧.民办高校专职教师激励问题研究[D].南昌大学,公共管理(专业学位),2012,硕士.
[37]张林,付国军,崔建民,杨俊卿.带微机的方、扁钢剪切监控装置[J].冶金自动化,1990,06:50-52.
[38]陆建江,张文献.挖掘优化的语言值关联规则[J].计算机工程与应用,2002,16:38-39+42.
[39]李颖.用语言学预设理论解析法庭询问[D].辽宁大学,外国语言学及应用语言学,2012,硕士.
[40]宋金全.X公司带式输送机营销策略研究[D].西安科技大学,工商管理,2014,硕士.
[41]吕娜娜.离子色谱法用于食品及环境样品中的阴离子和雌激素的检测及鉴定分析[D].青岛大学,2012.
[42]庄昊.粘扣带防酸整理工艺研究[D].东华大学,纺织工程,2013,硕士.
[43]孙凤彪.交通银行吉林省分行零售业务战略转型研究[D].吉林大学,工商管理,2012,硕士.
[44]唐亮贵.基于多Agent的电子商务市场结构及交易模型研究[D].重庆大学,2009.
[45]田磊,于明坚,陈建华,王云泉,刘常幸,胡广,仲磊,刘金亮.基于样方法的浙江省11个自然保护区木本植物区系成分分析[J].浙江大学学报(理学版),2015,01:28-37.
[46]杨琪源.国家助学贷款偿还保障机制研究[D].西南大学,高等教育学,2014,硕士.
[47]韩明明.绿脓杆菌比色LAMP检测法的建立及水貂出血性肺炎绿脓杆菌三价灭活疫苗的研制[D].吉林大学,预防兽医学,2014,硕士.
[48]郭天琦,嵇舒昕,杨敏.从影视剧看中西方文化友谊观的差异[J].新西部(理论版),2014,06:96+63.
[49]杨得实.“同治中兴”时期八旗兵改造研究[D].华中师范大学,中国近现代史,2013,硕士.
[50]李学波.洗浴中心节能系统研究[D].河南农业大学,农业生物环境与能源工程,2004,硕士.