基于集成学习的蛋白质结晶偏好性预测

基于集成学习的蛋白质结晶偏好性预测

作者:师大云端图书馆 时间:2020-01-19 分类:参考文献 喜欢:2858
师大云端图书馆

【摘要】基于蛋白质结晶的X射线晶体成像技术是目前主要分析蛋白质结构的实验技术,目前大多数已被解析出来结构的蛋白质均使用这个方法,但是这种实验技术存在成功率较低的问题。因此,对于一个给定蛋白质,预测其是否能够结晶或者是有多大结晶可能性具有很强的实际意义。本文针对该问题,首先在网上数据库中下载了最近最新的数据,构建了训练数据集,之后在对相关文献研究的基础上选择了较为全面的特征集合,最后使用集成学习的方法构建了蛋白质结晶偏好性分类器。本文方法是在深入研究了近年来关于蛋白质结晶倾向性预测方法的基础上提出来的,包括CRYSTALP方法、XtalPred方法、ParCrys方法、MetaPPCP方法、PXS方法、MCSG-Zscore方法及SCMCRYS方法等。结合这些主流研究方法,本文选择了包括20个特征的特征集合,既考虑了蛋白质序列及序列衍生的信息,例如蛋白质序列长度、分子量、蛋白质中某种氨基酸含量的百分比、蛋白质二级结构、某些特定的二肽组合等信息;又考虑了和蛋白质序列相关的物理、化学等性质,例如蛋白质平均疏水性、等电点、不稳定性、能量指数、信号肽、跨膜蛋白等信息。本文从PepcDB数据库中下载了最后更新时间为2013年12月30日,81.7万条蛋白质实验序列,经过筛选最后得到了与蛋白质结晶实验相关,结晶类和非结晶类数量相同的数据。所有数据按“当前状态”分为了四个类别,分别为蛋白产生失败、纯化失败、结晶失败及可结晶。最后,本文采用集成学习方法构建了蛋白质结晶倾向性预测模型。其实现过程是按照某种原则,训练出一系列的分类器,然后再按某种策略(如投票策略将所有分类器的预测结果整合,进而得到比单个分类器预测效果更佳的一种方法本文在算法上选取了Bagging算法的思想作为预测模型的设计原则。基学习器选用了支持向量机(SVM)作为集成学习的子分类器。在本文的实验设计环节,分别考察了对特征集合和训练数据集合两个维度上的集成,并对实验结果进行了详细分析。实验结果表明,基于序列信息的特征和基于理化性质的特征具有的一定的互补性,此外,对特征集合的集成和对训练数据集的集成都能够明显提高算法的精度,而同时对特征集和训练数据集的集成效果最好。文章最后展望了该问题未来应重视的方向,并提出了对本文研究进一步的改进想法。
【作者】王同有;
【导师】时小虎;
【作者基本信息】吉林大学,计算机应用技术,2014,硕士
【关键词】X射线晶体成像技术;机器学习;集成学习;Bagging算法;

【参考文献】
[1]张钰.当代中国战争题材纪念广场功能布局研究[D].华侨大学,建筑学,2014,硕士.
[2]职亮亮.价值工程在B2C电子商务物流配送中的应用研究[D].北方工业大学,企业管理,2013,硕士.
[3]郭晓虹.高等学校法律纠纷与司法审查[D].北方工业大学,法学理论,2013,硕士.
[4]白宇.基于VB的旋转机械振动信号分析系统研究[D].长安大学,机械电子工程,2013,硕士.
[5]林道祺.磁场探头校准系统自动测试软件开发及不确定度评定[D].北京交通大学,电子与通信工程,2013,硕士.
[6]许志明.配药机器人的设计与实现[D].哈尔滨工业大学,机械工程,2013,硕士.
[7]申卫军,彭少麟,邬建国,林永标.南亚热带鹤山主要人工林生态系统C、N累积及分配格局的模拟研究[J].植物生态学报,2003,05:690-699.
[8]戴大凯.小麦赤霉病菌多菌灵抗性群体的扩散路径及遗传多样性研究[D].南京农业大学,农药学,2013,硕士.
[9]王培.基于“银幕巨阵”论中国电影广告的开发[D].中南民族大学,传播学,2013,硕士.
[10]包伟阳.基于地理位置的车载网络路由协议的研究[D].杭州电子科技大学,计算机应用技术,2013,硕士.
[11]石林英,马强.基于性别差异对儿童房室内色彩环境设计的研究[J].美术教育研究,2014,22:72.
[12]谢韵菲.心源造化,妙悟自然[D].广东工业大学,设计学,2014,硕士.
[13]李晔,孙磊,李志坚.加快广西北部湾经济区循环经济发展的思考[J].创新.2008(01)
[14]常胜.掘进机履带行走机构动力学研究[D].辽宁工程技术大学,机械设计及理论,2012,硕士.
[15]赫环环.生物滴滤塔净化含低浓度苯乙烯废气的研究[D].河北科技大学,环境工程,2013,硕士.
[16]周强.中国人寿保险公司员工教育培训策略研究[D].中南大学,工商管理,2004,硕士.
[17]樊婷.汉防己甲素干粉吸入剂的药学研究[D].苏州大学,药剂学,2013,硕士.
[18]孙娟.卵巢交界性肿瘤术后复发25例病例分析[D].山东大学,妇产科(专业学位),2013,硕士.
[19]鲍武樱.我国政策性农业保险法律制度研究[D].安徽大学,法律,2012,硕士.
[20]石应.富营养化水体扦插栽培蕹菜的试验研究[D].湖北大学,自然地理学,2012,硕士.
[21]白祎,陈勇,黄金荣.加强车辆装备维修保障建设要采取四项对策[J].汽车运用.2008(01)
[22]杨华荣.橡胶—陶粒垫层的隔震性能研究[D].华中科技大学,结构工程,2013,硕士.
[23]吴学忠.近代“国粹主义”音乐思想产生、衍进、发展过程的研究[D].杭州师范大学,音乐学,2005,硕士.
[24]李小娟.美国新品格教育中德育网络建设的经验及其启示[D].湖南师范大学,教育学原理,2014,硕士.
[25]吴朝辉.血清miR-19b和miR-146a作为非小细胞肺癌判断预后的生物标志物[D].厦门大学,外科学,2014,硕士.
[26]李美超,易景苗,卢金金,李静,赵卫娟.镁合金阳极氧化膜腐蚀特性的红外显微成像分析[J].光谱学与光谱分析,2014,01:52-57.
[27]郭落.机动车交通事故损害赔偿责任研究[D].湘潭大学,民商法,2011,硕士.
[28]周田源.拓扑替康治疗复发性卵巢癌的Meta分析[D].山东大学,临床医学(专业学位),2013,硕士.
[29]冯芸.信用衍生品对金融危机的放大和扩散效应分析[D].复旦大学,金融学,2012,硕士.
[30]刘凯平.基于MAXIMO系统的啤酒设备、备件管理应用[D].华南理工大学,机械工程,2012,硕士.
[31]潘泉,张山鹰,程咏梅,张洪才.证据推理的鲁棒性研究[J].自动化学报,2001,06:798-805.
[32]苏芸.“网上北语”考试系统研究与设计[D].北京语言大学,2004.
[33]孙海龙.脂肪酶处理清香型白酒丢糟生成香气物质的研究[D].河北科技大学,发酵工程,2013,硕士.
[34]曾卓辉.膝骨关节炎局部辨证体系的初步研究[D].广州中医药大学,中医学(专业学位),2013,硕士.
[35]陈晓.政策性农业保险中的政府责任研究[D].中共中央党校,经济法学,2013,硕士.
[36]马莲.天津市古文化街旅游商贸区的战略发展研究[D].天津师范大学,2004.
[37]赵李梅.自我面孔的返回抑制研究[D].上海师范大学,基础心理学,2013,硕士.
[38]孙洋.半干鲢鱼片加工工艺研究[D].江南大学,食品科学,2012,硕士.
[39]张萌.基于SSR分子标记的葡萄种质资源遗传多样性分析及品种鉴定[D].南京农业大学,果树学,2012,硕士.
[40]王夏扬.商店形象契合对零售商线上商店忠诚的影响研究[D].东北财经大学,物流管理,2012,硕士.
[41]何季民.PAX燃烧器的浓缩技术分析[J].发电设备.1993(12)
[42]韩燕妮.大连国合嘉汇房地产开发有限公司人员培训方案设计[D].大连理工大学,工商管理,2004,硕士.
[43]王华.命题泛逻辑学的包容性研究[D].西北工业大学,计算机软件与理论,2004,硕士.
[44]刘元明.第二届全国中小型计算机网络及分布式控制系统学术交流会在庐山召开[J].自动化学报,1984,01:93.
[45]时娟.3-磷酸甘油醛脱氢酶(GAPD)速率法测定的初步研究及在糖尿病肾病诊断中的意义[D].辽宁医学院,临床检验诊断学,2012,硕士.
[46]邹清.索钢转换节点的磨损挤压性能研究[D].北京交通大学,结构工程,2013,硕士.
[47]郭雪蕊.延安时期的政治认同研究及对当代马克思主义大众化的启示[D].首都师范大学,马克思主义中国化,2014,硕士.
[48]任然.彼得·阿克诺德的伦敦:不正义空间[D].四川外国语大学,英语语言文学,2014,硕士.
[49]胡墅杰.内蒙古高新技术企业可持续成长战略研究[D].内蒙古科技大学,企业管理,2013,硕士.
[50]褚文勋.越南国家审计制度变革及其启示[D].云南财经大学,公共管理,2013,硕士.

相关推荐
更多