基于蛋白质相互作用网络的蛋白质功能预测
【摘要】蛋白质是生物体内必不可少的大分子,几乎参与了细胞内所有的生物过程,蛋白质功能的研究对于理解生命活动、疾病治疗以及新药开发等都具有重要意义。然而实验方法预测蛋白质的功能费时费力,已经不能满足当代生命科学的发展需要。近年来,随着高通量生物实验技术的迅速发展,人们获得了大量的蛋白质相互作用数据,研究人员提出了很多利用蛋白质相互作用网络对蛋白质功能进行预测的方法,基于蛋白质相互作用网络的蛋白质功能预测已经成为生物信息学中最重要的研究课题之一。本文针对基于蛋白质相互作用网络的蛋白质功能预测进行研究,主要内容包括以下四个方面:1.提出了一种基于协同分类的蛋白质功能预测方法,该方法通过结合蛋白质序列信息和蛋白质相互作用信息来提高蛋白质功能预测的效果。我们首先通过计算蛋白质序列相似度在蛋白质相互作用网络中添加边,从而对网络进行重构,然后在这个新的网络中利用协同分类算法对蛋白质功能进行预测。实验结果表明,我们所提出的方法优于已有的基于蛋白质相互作用网络的预测方法,通过蛋白质序列信息在网络中加边的方法确实能够提高蛋白质功能预测的效果;并且我们所提出的方法对网络标注情况不十分敏感,具有很好的鲁棒性。2.网络重构和网络加边是两种主要的构建可靠蛋白质相互作用网络的方法,然而,这两类方法缺少一个系统的对比评价。因此,我们在两类数据集上对这两种方法做了一个全面的对比。我们首先利用蛋白质序列相似度、网络局部相似度和网络全局相似度进行网络重构和网络加边,然后对比同一种预测算法在原始网络、重构网络和加边网络上的分类效果。实验结果表明,在大多数情况下加边网络的预测效果要优于原始网络和重构网络;并且对于网络加边,蛋白质序列相似度要优于网络局部相似度和网络全局相似度。3.提出了一种基于主动学习的蛋白质功能预测方法,该方法通过选择信息量大的蛋白质进行标注来提高蛋白质功能预测的效果。我们首先利用谱聚类算法对蛋白质相互作用网络进行聚类操作,并在每一个簇中,利用三种常用的网络中心化指标(度指标、紧密度指标和介数指标)选择合适的候选蛋白质进行标注。然后基于这些已标注的蛋白质,利用协同分算法对蛋白质功能进行预测。实验结果表明,通过选择信息量大的蛋白质进行标注,基于主动学习的蛋白质功能预测方法取得了更好的预测效果;并且在大部分情况下,介数指标要优于度指标和紧密度指标。4.对癌症蛋白质在人类和酵母两种蛋白质相互作用网络中的拓扑特征进行研究。我们首先把人类蛋白质分为四类:癌症蛋白质、疾病蛋白质、必要蛋白质和控制蛋白质;然后通过同源基因把这四类蛋白质映射到酵母蛋白质相互作用网络中;最后利用三种常用的网络度量(度指标、集聚系数和介数指标)对四类蛋白质的拓扑特征进行对比。实验结果表明,相比于其它三类蛋白质,癌症蛋白质拥有较高的度指标和较低的集聚系数。也就是说,癌症蛋白质位于人类蛋白质相互作用网络的中心位置,网络中与癌症蛋白质有相互作用的蛋白质数量比较多,但是它们的集聚程度较低。
【作者】熊伟;
【导师】周水庚;
【作者基本信息】复旦大学,计算机软件与理论,2013,博士
【关键词】蛋白质功能预测;蛋白质相互作用网络;协同分类;
【参考文献】
[1]樊彩莲.BaCe_(0.1)Fe_(0.9-x)Co_xO_(3-δ)作为低温SOFCs阴极性能研究[D].山西师范大学,化学,2013,硕士.
[2]计鸣良.葡萄胎的分子遗传学分析及基因NLRP7和KHDL3C的致病性研究[D].北京协和医学院,临床医学,2014,博士.
[3]何明祥.蛇六谷葡甘聚糖抗肿瘤研究[J].食品科学技术学报,2014,06:24-28.
[4]赵宁.基于主题图的网络课程知识导航策略研究[D].华中师范大学,教育技术学,2013,硕士.
[5]任亚红.单反射面天线赋形研究[D].西安电子科技大学,精密仪器及机械,2012,硕士.
[6]任瑱.粗糙集方法在管理决策中的研究与应用[D].东北财经大学,企业管理,2003,硕士.
[7]耿召.矿产资源规划管理信息系统的设计与实现[D].电子科技大学,软件工程(专业学位),2012,硕士.
[8]兰丹.对旁观者现象的研究[D].西南大学,应用心理学,2013,硕士.
[9]李荃.转基因产品民事纠纷解决机制研究[D].西南政法大学,诉讼法学(专业学位),2012,硕士.
[10]刘雅庆.Comparative Analysis of Cohesive Devices in English and Chinese Versions of Hong Gao Liang Jia Zu[D].西安外国语大学,外国语言学及应用语言学,2014,硕士.
[11]付艳.固体基质室温磷光免疫分析法的研究[D].清华大学,分析化学,2003,硕士.
[12]姜楠.航空活塞发动机进气系统设计与分析[D].南京航空航天大学,机械设计及理论,2013,硕士.
[13]孙慧,龚双瑾,赵慧玲,张云勇,顾维青.FMC之专家访谈录[J].通信世界.2007(12)
[14]石里男.焊接电弧引燃过程的机理分析[D].北京工业大学,2011.
[15]王志超.市级政府地震应急管理问题研究[D].东北师范大学,公共管理(专业学位),2012,硕士.
[16]张娣.磁性纳米Fe_3O_4去除水环境中抗生素类物质的研究[D].西北农林科技大学,2011.
[17]张明兴.基于VSC的多端直流输电系统的运行控制研究[D].西南交通大学,电力系统及其自动化,2012,硕士.
[18]赵阳.旅行社客户关系管理中的数据挖掘应用研究[D].江苏科技大学,工业工程(专业学位),2013,硕士.
[19]王元荣.中国电视音乐类真人秀节目的反思与创新[D].河北大学,艺术学,2014,硕士.
[20]杜天苍,宋佩莼,方安祥,安瑞臣.棒材轧后水冷微机控制系统[J].冶金自动化,1994,04:22-25.
[21]佟晓明.高中地理校本课程的开发和实施[D].东北师范大学,教育,2003,硕士.
[22]范玮璇.术中偏高PetCO_2值对老年全麻患者恢复期的影响[D].吉林大学,临床医学,2014,硕士.
[23]张蓉.平面信号交叉口交通控制方案的优化研究[D].北京工业大学,2003.
[24]施继承,聂勋碧.基于神经网络的油气预测系统[J].石油地球物理勘探,1996,05:685-692+750.
[25]费国胜.屏蔽转运容器与封装平台优化设计[D].西南交通大学,机械设计及理论,2013,硕士.
[26]崔存琪.“四二一”结构家庭下的养老问题研究[D].山西师范大学,社会学,2013,硕士.
[27]赵明波,何峻,付强.SAR图像CFAR检测的快速算法综述[J].自动化学报,2012,12:1885-1895.
[28]束霏.民间组织合法性寻求的路径探索[D].华东师范大学,社会工作与管理,2013,硕士.
[29]王其磊.TWEAK通过P38MAPK途径促进大鼠心肌成纤维细胞Ⅰ型胶原和MMP-1表达[D].山东大学,内科学,2013,硕士.
[30]徐功军.杭州市主城区绿地植物多样性研究[D].杭州师范大学,生态学,2007,硕士.
[31]宋小莉,牛欣,司银楚.基于BP神经网络的半夏、生姜、甘草三泻心汤配伍研究[J].中国临床药理学与治疗学,2005,05:527-531.
[32]李明.矿用小型防爆装载机性能分析[D].西安科技大学,机械制造及其自动化,2013,硕士.
[33]李德炳.参蛤青龙汤对支气管哮喘患者免疫指标影响的临床研究[D].广州中医药大学,中医学(专业学位),2013,硕士.
[34]郎世俊.中国自动化学会1965年学术年会及第二届代表大会[J].自动化学报,1965,04:251.
[35]李宁.声音商标注册问题研究[D].湖南师范大学,法律(专业学位),2014,硕士.
[36]韦羽棉.基于Kinect深度图像的三维重建研究[D].重庆大学,计算机应用技术,2014,硕士.
[37]宋永福.初中几何课程中的若干问题与对策[D].上海师范大学,课程与教学论,2004,硕士.
[38]刘金金.滴水湖及其入湖河道水质调查及沉积物中磷的探究[D].上海海洋大学,环境科学,2013,硕士.
[39]刘智琳.邮政快递业务营销策略研究[D].华中科技大学,工商管理,2013,硕士.
[40]李伟.基于可信密码模块的电子签名系统设计与实现[D].西安电子科技大学,密码学,2012,硕士.
[41]李珊.新时期中国工笔画色彩观的转变研究[D].中国艺术研究院,美术学,2012,硕士.
[42]马海芳.面向长过程的复杂事件检测技术的研究[D].东北大学,计算机软件与理论,2010,硕士.
[43]周则顺,水俊峰,夏红霞,范斌.基于Web日志挖掘的智能站点体系[J].武汉理工大学学报(信息与管理工程版),2003,06:72-75.
[44]徐媛媛.论内心听觉在钢琴教学中的实践[D].天津音乐学院,音乐学,2014,硕士.
[45]李云霞.呼和浩特市回民区扫盲运动研究(1949-1965)[D].内蒙古大学,中国近现代史,2014,硕士.
[46]康宁宁.导电球囊电极导管经食管心室起搏的临床应用[D].青岛大学,内科学,2004,硕士.
[47]乔莉.装饰性绘画表现手法分析研究[D].西北民族大学,美术学,2012,硕士.
[48]张宇.论公众人物公开权的民法保护[D].长春工业大学,民商法学,2013,硕士.
[49]郭俊萍.重评柳开在宋代散文史的地位[D].河北大学,中国古代文学,2003,硕士.
[50]王慧.飞灰/Ca(OH)_2水合脱硫剂制备及脱硫效果实验研究[D].天津大学,化工过程机械,2004,硕士.