基于计算智能的基因调控网络建模研究
【摘要】随着基因组测序工作的完成,单个基因或蛋白质的功能研究已经不能从根本上揭示生命现象的发生和发展规律,所以,在过去的十年中,系统生物学逐渐成为生物学众多分枝中的关注中心。系统生物学是一门快速发展的新兴交叉学科,它结合了生物、化学、物理、数学和计算机科学等学科的知识和技能,其目的在于以系统的、全局的角度来研究生物系统的生理机制。利用基因表达数据实现基因调控网络建模是近年来研究系统生物学的有效手段之一。准确地构建基因调控网络,会大大影响疾病治疗的精度,对于加深细胞活动和致病基因功能机制的理解以及复杂疾病的预防、诊断和治疗具有深远的影响。虽然国内外的研究已经取得了一些成果,但是基因调控网络具有强耦合性、随机性、时变性、强非线性等特点,是一个复杂而庞大的系统,现有的方法较为简单,不能精确地识别基因间的转录调控关系,并且得到太多的假阳性关系。如何有效地建立精确的基因调控模型是目前研究的热点。本论文采用智能计算方法,通过对基因表达数据进行挖掘,实现基因调控网络的重构和基因调控过程中生化反应的建模,并应用到基因芯片得到的冠状动脉粥样硬化斑块基因表达谱中。具体而言,论文的主要工作和创新点描述如下:1.宏观角度建模。针对现有模型构建基因调控网络不准确的现状,本论文提出使用柔性神经树模型(FlexibleNeuralTree,FNT)来构建基因调控网络和预测来自于基因表达谱的时间序列。该方法采用类似遗传编程的结构进化算法优化FNT模型的层次结构,编码在结构中的参数则使用模拟退火算法进行优化。这两种优化算法交替使用,直到找到满意的解或者达到规定的迭代上限则循环结束。为了改善构建基因调控网络的准确性,本论文使用模型选择标准AIC和大数表决方法来识别靶基因的最小调控基因集。实验结果表明,相比于Elman神经网络、模糊神经网络、径向基神经网络、递归神经网络、递归模糊神经网络以及这些模型的集成,FNT模型能够更加准确地预测基因表达谱的时间序列,并构造出更精确的基因调控网络。构建基因调控网络的单一模型各有优缺点,使用过程中具有一定的局限性。结合多种模型的系统生物学方法构造的基因调控网络相比单一的模型会更加准确和稳定,这也是模型研究的一个趋势。本论文首次提出了一种多个模型结合的基因调控网络重构方法,即基于互信息混合模型的基因调控网络构建。在该方法中,线性模型和非线性模型分别用来构造基因调控网络,然后对这两种模型对应的网络结构进行整合,得到最终的基因调控网络。使用灵活树模型编码线性和非线性模型,遗传编程和粒子群优化算法分别优化模型的结构和参数。适应值函数包含稀疏系数和相关系数。稀疏系数满足了在实际基因调控网络中,每个靶基因只有极小部分的候选调控因子作为真实因子这个条件,而相关系数充分利用互信息值来评估基因对的相关性,选择与靶基因相关性较大的调控因子。实验结果表明,基于互信息混合模型的基因调控网络构建方法相比于其他经典的单一方法更加准确,不仅在真阳率上保持很高的水平,而且假阳率也很低。2.基因芯片数据处理、调控途径构建和致病基因染色体分布规律分析。本论文采用人类全基因组微阵列HU133Plus2.0基因芯片,使用齐鲁医院和聊城人民医院提供的粥样硬化斑块病人的冠状动脉和正常冠状动脉的样本组织,构建冠状动脉粥样硬化斑块和正常组织的基因表达谱。通过两组表达谱对比,筛选出1104个差异表达基因,然后采用GO功能分类、pathway分析等生物学方法分析这些表达基因,了解其生物功能和生物通路的变化。GO分析发现冠状动脉粥样硬化差异表达基因涉及多个生物功能,如细胞黏附,生物黏附等。Pathway分析发现基因在黏着斑通路显著性富集。在第四章提出的基于互信息混合模型的基因调控网络构建方法用来预测黏着斑通路中差异表达基因间的调控关系,正确预测了Rho激酶调控机制,证明了基因调控网络构造方法的有效性。论文收集了包括人类、小鼠、斑马鱼、果蝇和线虫五种物种的基因组数据,14种疾病的蛋白编码致病基因和与白血病相关突变数据,分析它们在染色体上的基因密度分布情况。结果发现,基因在染色体间的分布显示了一种异质性模式,蛋白质编码致病基因有着相似的染色体间分布模式,并且涉及某些生物过程的蛋白编码致病基因富集在一个或少量几个染色体上。人类19号染色体拥有最高的或者第二高的蛋白编码致病基因分布频率,这可能和这个染色体拥有更多参与转录调控过程的基因有关。这些发现可以针对特定的染色体,改善疾病相关基因筛选研究的效率,如GWAS,全基因组连锁分析和全基因组测序。3.微观和随机角度建模。基因调控涉及大量的生化反应过程,在这些过程中,尤其是在含有少量调控分子物种并且相互作用速度很慢的情况下,离散性和随机性可能起到重要的作用。本论文提出了一种新的随机和延迟随机生化反应模型自动推导模拟框架。灵活反应模型(AdditiveReactionModel)编码化学反应模型,首次结合了随机、离散和延迟三种元素。使用遗传算法和粒子群优化算法嵌套使用的混合进化策略来识别灵活反应模型的结构和参数。实验结果表明,灵活反应模型和混合进化策略能够准确地识别出生化反应模型。
【作者】杨斌;
【导师】江铭炎;陈月辉;
【作者基本信息】山东大学,信号与信息处理,2014,博士
【关键词】数据挖掘;基因调控网络;智能计算;基因微阵列;生化反应;
【参考文献】
[1]卢祖文.依靠科技进步、深化改革、开创工务工作新局面[J].上海铁道科技.1998(04)
[2]张琼.两种先行组织者(advance organizer)对中学生听力理解的影响:听前背景知识和词汇知识指导[D].西安外国语大学,外国语言学及应用语言学,2013,硕士.
[3]曾毅.Zr-Ti合金反应熔渗改性C/C复合材料的研究[D].中南大学,材料科学与工程,2013,博士.
[4]王雨晴.建构水平对高中生时间管理倾向的影响[D].西南大学,应用心理学,2014,硕士.
[5]潘胜.异丁烯醛及其衍生物势能面交叉动力学研究[D].浙江理工大学,应用化学,2014,硕士.
[6]徐焕颖.基于遥感方法的干旱减灾应用产品真实性检验[D].西安科技大学,地图学与地理信息系统,2014,硕士.
[7]邢健鹏.内镜下套扎术与腔内外联合断流术治疗食管静脉曲张的Meta分析[D].吉林大学,临床医学(专业学位),2014,硕士.
[8]钱可.结构性减税背景下的绿色税收制度研究[D].华中师范大学,公共管理,2013,硕士.
[9]李宝松.基于城乡二元结构下探讨临沂市城乡初级中学体育现状及发展对策[D].首都体育学院,体育教育训练学,2013,硕士.
[10]罗志敏.石墨烯/无机纳米复合材料的制备及其催化传感应用研究[D].复旦大学,2012.
[11]史福娟.几类半环和双半环的结构和同余[D].山东师范大学,基础数学,2013,硕士.
[12]魏霞.山东省小学生烟草暴露现状及影响因素研究[D].山东大学,公共卫生(专业学位),2013,硕士.
[13]陈华伟.石墨烯的固相合成及其磁性和电化学性质的研究[D].吉林大学,2013.
[14]金明信.中韩劳动争议处理制度的比较研究[D].对外经济贸易大学,国际法学,2004,硕士.
[15]王然.纳米棒自组装二氧化钛中空微球的制备及研究[D].苏州大学,材料学,2014,硕士.
[16]李娜.单信道全双工无线通信系统中数字自干扰消除方法研究[D].山东大学,通信与信息系统,2013,硕士.
[17]刘静.艾丽丝·门罗的写作艺术一试论门罗作品《逃离》中对于经典作家的传承与创新[D].安徽大学,英语语言文学,2014,硕士.
[18]陈仕俊,杨培芳,徐秋慧.邮电通信对信息化适应问题浅析[J].世界电信.1997(01)
[19]王慧.大学生化学实验技能学习方式的探查[D].扬州大学,课程与教学论,2012,硕士.
[20]高飞,张元鸣,肖刚.基于三级驱动模型的产品数字化设计策略与方法[J].农业机械学报,2013,04:239-245+267.
[21]徐震.对外汉语成语教学的文化导入研究[D].浙江大学,汉语国际教育,2013,硕士.
[22]李琳.雪莲黄酮胶囊抗高原缺氧药效学及其机制研究[D].兰州大学,药理学,2013,硕士.
[23]应开怀.三维输电网地理信息系统的研究与开发[D].浙江大学,2004,硕士.
[24]王雨刚.长春市区中学体育俱乐部开展情况及发展对策研究[D].东北师范大学,体育(专业学位),2012,硕士.
[25]林皎皎.客家聚居建筑及其室内的研究[D].南京林业大学,木材科学与技术,2004,硕士.
[26]王俊文,刘光杰,张湛,戴跃伟,王执铨.图像区域复制篡改快速鲁棒取证[J].自动化学报,2009,12:1488-1495.
[27]翟园林.轻型通用光电跟踪平台跟踪控制系统设计[D].中国科学院研究生院(长春光学精密机械与物理研究所),机械电子工程,2012,硕士.
[28]郭鹏.3.4-3.6GHz频段基于LTE热点增强系统与卫星固定业务的共存研究[D].北京交通大学,2014.
[29]刘石磊.胡锦涛以人为本的新闻宣传观探析[D].复旦大学,马克思主义基本原理,2012,硕士.
[30]王薏淋.夏热冬冷地区生态农宅设计策略的研究[D].南昌大学,建筑设计及其理论,2012,硕士.
[31]轩华,唐立新.实时无等待HFS调度的一种拉格朗日松弛算法[J].控制与决策,2006,04:376-380.
[32]苏昱.溴苯腈降解菌的分离筛选、降解特性及其固定化细胞研究[D].南京农业大学,环境科学,2013,硕士.
[33]鲁静.中国会计师事务所规模化与品牌建设研究[D].南京理工大学,会计学,2013,硕士.
[34]朱建勇,唐云波,黄伟,金星林,李红兵.引进欧洲木质模压门生产线的技术革新[J].林产工业.2006(01)
[35]雷定猷,陈治亚.铁路货票信息的数据挖掘[J].中国铁道科学,2003,04:46-49.
[36]赵满全,赵士杰,窦卫国,候海旺,佘大庆,霍庆儒.2BM—9型免耕播种机关键部件的设计与研究[J].中国农机化.2003(06)
[37]陆洋.大功率风力发电机组轮毂联接强度分析[D].东北石油大学,机械工程(专业学位),2013,硕士.
[38]谢沂均.与图像压缩编码相结合的图像加密研究[D].重庆大学,计算机软件与理论,2014,硕士.
[39]张涛.大鼠Ⅲ度房室传导阻滞模型中慢病毒介导的RNA干扰抑制心室肌KCNJ2基因表达对心室率影响的研究[D].山东大学,外科学,2014,博士.
[40]李冰.灵活就业人员收入影响因素分析[D].辽宁大学,人口学,2012,硕士.
[41]刘占族,曹孟起,孙军晓,陈院生,晏丰.煤层气地震勘探中的静校正方法[J].石油地球物理勘探,2012,03:425-429+356+518.
[42]谢克歌.基于协同过滤的学术推荐研究[D].上海大学,计算机应用技术,2014,硕士.
[43]魏然君.通谋虚伪表示研究[D].吉林大学,法律,2014,硕士.
[44]冯刚,宫大为,张朝阁,韩承江,林克伟,齐继宝.316L不锈钢的疲劳裂纹扩展行为试验[J].钢铁,2014,06:74-78.
[45]李阳.氯乙烯对肝细胞周期G_1/S关卡的影响及相关蛋白的表达[D].山西医科大学,卫生毒理学,2013,硕士.
[46]沙曼.有岛武郎现实主义的转变[D].吉林大学,日语语言文学,2013,硕士.
[47]梁烨.基于GMDP模型的庄浪县土地利用结构优化与布局研究[D].甘肃农业大学,土地资源管理,2013,硕士.
[48]吴昊.三棱的活性成分和指纹图谱研究[D].吉林农业大学,生药学,2012,硕士.
[49]冯雪.河北省国际服务贸易竞争力浅析[D].河北师范大学,国际商务,2014,硕士.
[50]姬瑞昆.希拉里·克林顿公众演讲文体分析[D].首都师范大学,英语语言文学,2013,硕士.
相关推荐
- 中国钢铁企业国际铁矿石谈判失利原因分析
- 04月04日
- 蒙元时期内蒙古地区景教遗存研究
- 03月16日
- 东北地区典型生物质原料热解特性及热解工艺优化实验研究
- 11月09日
- 小学教育电视媒体资源应用实效性问题研究
- 03月22日