基于半监督学习的SELDI-TOF蛋白质质谱数据分析
【摘要】癌症是世界上最为严重的公共问题之一,中国癌症发病率逐渐上升,但根据目前国内的水平,三分之一的癌症是可以预防的,有效提高癌症的早期诊断率已经被公认为是改善其疗效的关键。蛋白质组学及相关技术的发展给癌症病理的研究及预防等带来了新的希望。研究表明在癌症发病早期,病人体征没有任何异常的情况下,蛋白质芯片采集的数据及绘制的质谱图可较为直观的显示患者与健康人在蛋白表达水平上的差异。但若要对未知标签的样本进行可靠的预测还需生物信息学的协助。根据样本质谱提出新的诊断技术来提高癌症预诊断的准确率和可靠性成为了蛋白质组学研究的热点问题之一。机器学习理论的发展推动了预诊断技术的进步。但质谱数据具有高维和小样本的特点,上万的维特征让一些分类器不知所措,仅有几十个或上百个的样本亦对分类器训练结果提出质疑。目前,进行特征提取及分类包括有监督学习和无监督学习两大类。有监督学习是对有概念标记的训练集进行学习,对之外的数据分类。无监督学习是对无概念标记的训练集进行学习,所有标记均未知。实际应用中,已标样本较难获取,同时浪费了大量未标记样本,而无监督学习则浪费了已标记样本,因此出现了同时利用两种样本的半监督学习。在癌症诊断方面,较为容易获得大量未标记样本,而对未标记的样本进行标记则需付出很高的代价。半监督学习所需的标记样本较少,同时还能利用未标记样本以辅助提高分类的准确率和可靠性,因此非常适合于癌症的分类问题。在半监督学习机制中,基于图的半监督学习受到研究者的青睐,其中局部全局一致性学习算法是基于图的半监督学习算法中的一种,该算法充分利用了未标样本和已标样本,但其分类性能较依赖内在参数,进行质谱数据分析会带来诸多不便。为此,采用了简洁局部全局一致性学习方法避免了参数对分类性能的干扰。但该算法面对维灾问题依然失效,分类性能低下。因此针对蛋白质质谱数据存在高噪声、高冗余性的特点及维灾问题,本文提出了一种基于半监督学习的多步降维特征提取算法与基于稀疏表示和半监督学习的蛋白质质谱数据分类算法。基于半监督学习的多步降维特征提取算法,首先通过逐步降维去除冗余信息,逐步筛选出相关性低但判别性高的特征,最后用于简洁局部全局一致性学习的半监督学习算法中。主要思路是首先对原始数据进行降噪及提高信噪比等预处理,即去除大部分的高频或低频噪声,并且使蛋白质质谱数据之间的对比性增强。然后利用T检验进行降维,初步筛选高维度的特征,初步筛选后的数据特征保留了冗余度较高和相关性较大的特征。其次对T检验之后的数据特征进行离散小波变换(DWT)以及相对熵排序,进一步筛选出噪声低、冗余度低的特征。之后再进行主成分分析,进一步降维,同时也去除了特征间的相关性,保留了一小部分与样本类别相关性大的非相关数据特征。最后,利用简洁局部全局一致性学习算法对逐步降维去噪后的数据特征进行分类。利用该方法在三个样本数据集(分别为卵巢癌样本集OC-WCX2b、前列腺癌样本集PC-H4及浙江省肿瘤医院临床乳腺癌样本集BC-WCX2a)上进行测试,结果显示该方法分类效果较好(分别为99.13%、96.81%、92.78%),敏感性较高(分别为99.01%、96.81%、100%)。同时设计了多组对比试验,包括T检验的有无、DWT和相对熵排序的有无、主成分分析的有无和多步降维方法的有无对比试验,结果各步方法都能明显提高简洁局部全局一致性学习算法的分类性能。另外,对三个数据集采用PCA算法及KPCA算法进行降维,采用基于高斯核函数的SVM算法及LDA算法进行分类,与本文所提算法进行比较。结果在数据集OC-WCX2b上的分类率差别不显著,在数据集PC-H4及BC-WCX2a上分类率显著不同,本文所提算法结果分类率较高,且综合水平更高。为进一步检验算法分类性能,本文还设计了不同分类器间分类性能对比实验。降维算法均为本文所提方法,分类方法分别为朴素贝叶斯算法、SVM算法、kNN算法。结果在数据集BC-WCX2a上本文所提算法的分类率最高且最稳定。检验实验结果表明采用多步降维方法进行特征提取的方法是有效的,再利用半监督学习进行分类,分类效果较好。基于稀疏表示和半监督学习的蛋白质质谱数据分类方法首先进行核主成分分析,解决维数灾难问题,然后构造稀疏邻接图,再运用于基于图的半监督学习的简洁局部全局一致性学习算法中。主要思路是首先利用核主成分分析对蛋白质质谱数据进行主成分提取,使质谱特征的维数小于样本数,以解决维灾问题;然后求解样本稀疏表示向量,构造稀疏邻接图,本实验是通过求解L1范式的优化问题来获取所有样本的稀疏表示向量的,把稀疏向量作为样本间边权值从而得到稀疏邻接图;最后运用基于图的半监督学习的简洁局部全局一致性学习算法进行标签传递,对有标记和无标记样本进行预测判别。利用该方法在同上三个数据集上进行测试,结果显示该方法分类效果较好(分别为99.66%、97.35%、92.02%),敏感性较高(分别为99.97%、97.61%、98.05%)。另外对多个经典降维分类算法在三个数据集上进行了测试。降维方法采用PCA及KPCA算法,分类方法采用基于高斯核函数的SVM算法及LDA算法,与本文所提算法比较。结果在数据集OC-WCX2b及BC-WCX2a上结果无显著差距。在数据集PC-H4上,本文所提算法是这几类算法中效果最好的。为进一步检验所提算法分类性能,设计了不同分类器间分类性能对比实验。降维算法均为基于PolyPlus核的KPCA算法,然后利用SVM、LDA及SRC进行分类。结果表明本文所提算法分类性能普遍较高,且稳定性较好。同时,探讨了分类性能与已标样本数量的关系,结果表明总体趋势为分类率随已标样本数量的增加而升高,达到某个阈值时会趋于稳定。总之,基于稀疏表示的半监督学习方法具有较好的分类性能,分类效果更理想。
【作者】游晓璐;
【导师】祝磊;
【作者基本信息】杭州电子科技大学,模式识别与智能系统,2014,硕士
【关键词】蛋白质质谱;稀疏表示;多步降维;半监督学习;特征提取;
【参考文献】
[1]孙艳茹.论《吕氏春秋》之阴阳五行说[D].河北师范大学,中国古典文献学,2012,硕士.
[2]翁愉骏.新能源产业风险投资评价指标体系研究[D].清华大学,工商管理,2012,硕士.
[3]胡洁.知识管理及其在汽车产品生产中的应用[D].武汉理工大学,2004.
[4]阮惟善.中国游客对越南中部旅游服务质量的评价研究[D].湖南师范大学,旅游管理(专业学位),2013,硕士.
[5]周挺.稀疏表示及特征提取在人脸识别中的应用[D].西安电子科技大学,计算机应用技术,2011,硕士.
[6]严娜.培养理工科院校学生跨文化交际能力的课程设置调查[D].华中科技大学,外国语言学及应用语言学,2013,硕士.
[7]张旭乐.风力机优化选型在风电场建设中的经济性研究[D].湖南大学,电气工程,2011,硕士.
[8]杨庆一.农村商业银行个人理财发展的对策研究[D].南京农业大学,农业推广,2012,硕士.
[9]周晓鹏.基于性能指标的WCDMA网络优化探讨[J].移动通信,2005,11:49-51.
[10]尹川,张金淼,顾汉明,骆宗强,王剑,侯波.基于伪谱法的复杂构造模型双程波地震照明模拟[J].石油地球物理勘探,2014,04:641-647+1.
[11]王辉.雄激素受体在蛋白酶体抑制剂诱导的细胞自噬中的作用[D].哈尔滨工业大学,遗传学,2013,硕士.
[12]吴卓.定向诱导间充质干细胞向心肌细胞方向分化过程中Nkx2.5的表达[D].广西医科大学,组织学与胚胎学,2013,硕士.
[13]蔡文勇.中国证券公司经纪业务营销策略研究[D].西南财经大学,EMBA,2004,硕士.
[14]张利.聚丙烯酸基硼酸亲和材料的制备和应用[D].西北大学,分析化学,2014,硕士.
[15]王小雨.中国商业银行盈利能力影响因素的实证研究[D].南京财经大学,金融学,2012,硕士.
[16]杨帆.湖南植烟土壤有机氮素矿化规律及其调控措施[D].湖南农业大学,烟草科学与工程技术,2012,硕士.
[17]张军.网络对大学生政治信仰教育的影响研究[D].成都理工大学,思想政治教育,2013,硕士.
[18]付铭川.中低压缩性粉质黏土压缩特性及结构屈服压力研究[D].西南交通大学,建筑与土木工程,2014,硕士.
[19]廖志伟,岳苓,文福拴,黄少先,李思岑.基于混合规则网络和警报时序特性的电力系统故障诊断[J].电力系统自动化,2013,10:72-79.
[20]阎莉薇.我国协议离婚制度研究[D].河北经贸大学,民商法学,2013,硕士.
[21]朱琪.可靠相关性传播算法在指纹交叉匹配中的应用[D].西安电子科技大学,应用数学,2012,硕士.
[22]高天禄.具有潜水功能水陆两栖艇关键技术研究[D].江苏科技大学,机械电子工程,2013,硕士.
[23]夏康炎.钱塘江流域城市饮用水水源公共安全对策研究[D].浙江工商大学,行政管理,2014,硕士.
[24]贾晓静.新课改视野下小学音乐教师专业发展研究[D].宁夏大学,音乐课程与教学论,2014,硕士.
[25]张梅.车载式轨道动态故障诊断方法的研究[D].中北大学,机械设计及理论,2014,硕士.
[26]顾晓俊.南极嗜冷杆菌Z-9产组胺降解酶筛选、发酵条件和酶学性质的研究[D].宁波大学,食品加工与安全(专业学位),2014,硕士.
[27]张琼.中国对外贸易顺差成因与发展趋势研究[D].济南大学,国民经济学,2011,硕士.
[28]刘明.随机波浪对改进型半圆型防波堤作用研究[D].大连理工大学,港口、海岸及近海工程,2004,硕士.
[29]钱忠胜.基于模型的Web应用测试用例生成方法[D].上海大学,2008.
[30]朱旋旋.猴桥傈僳族民族文化的传承与重构[D].云南艺术学院,艺术学,2013,硕士.
[31]田宏.数据仓库在商品交易中的应用[J].大连铁道学院学报,2003,01:37-40.
[32]孙玲莹.基于CdTe量子点作用下的鲁米诺电化学发光传感器的研究[D].苏州大学,分析化学,2012,硕士.
[33]厉冬娟.企业多元化经营对现金持有行为及价值的影响[D].浙江工商大学,金融学,2013,硕士.
[34]向立丽.急性白血病患者MN1、P16及RARβ基因表达变化及临床意义[D].苏州大学,内科学,2014,硕士.
[35]李晓燕.信托公司信息化建设研究[D].内蒙古大学,高级管理人员工商管理,2013,硕士.
[36]王宪周,徐燕,赵红雁.经济断面型钢热连轧机[J].一重技术.1996(04)
[37]吕雪梅.双动两案教学模式下《语文(七年级下册)》学案设计研究(人教版)[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[38]陈昊鹏.软件逆向工程技术研究[D].西北工业大学,2002.
[39]朱胜平.基于内容的多样性植物图像检索技术研究[D].华侨大学,计算机技术(专业学位),2014,硕士.
[40]苏金庆.合作学习在普通高校乒乓球选项课中的实验研究[D].苏州大学,体育教育训练学(专业学位),2013,硕士.
[41]李波,苏党生.在石墨烯边缘氧官能团的密度泛函理论研究[A].中国化学会.中国化学会第28届学术年会第13分会场摘要集[C].中国化学会:,2012:1.
[42]徐利红.二氢月桂烯合成香茅醇工艺研究[D].浙江大学,化学工程,2003,硕士.
[43]赵基花.碾压混凝土溢流坝温度徐变应力三维有限元分析[D].西安理工大学,水工结构工程,2004,硕士.
[44]许溶烈.从继承、吸收、创新中求发展——为《建筑科学》创刊而作[J].建筑科学.1985(01)
[45]吴译晨.水热合成磷酸铁锂的碳包覆工艺研究[D].河北工业大学,材料物理与化学,2013,硕士.
[46]徐彬.论大学生道德评价能力的培养[D].山东师范大学,思想政治教育,2013,硕士.
[47]马驰骋.基于示功图分析的抽油机自适应系统[D].新疆大学,机械制造及其自动化,2013,硕士.
[48]赵倩.准新型农村金融机构运行绩效及影响因素研究[D].南京农业大学,金融学,2011,硕士.
[49]张鸿超.模板法TiO_2复合结构纳米管阵列的制备及发光性能研究[D].上海大学,应用化学,2014,硕士.
[50]任树清.当今国际贸易洗钱模式分析与反洗钱法律对策[D].南京财经大学,国际法学,2012,硕士.
- 下一篇: 铸铁轧辊表面激光合金化工艺研究
- 上一篇: 不完备市场下期货合约的中性和无差异定价
相关推荐
- Guard banding技术在计量校准中的实施探讨
- 05月15日
- 蛋糕盖注塑模的设计与制造
- 09月30日
- 核心企业主导的供应链融资模式优化研究
- 10月29日
- T-Rickart模和T-dual Rickart模
- 07月16日