肿瘤相关的长链非编码RNA的识别与功能推断
【摘要】癌症是人类健康的头号杀手,各国的科学家和医疗工作者长期以来一直致力于探讨和研究癌症发生、发展的机制,试图找到预防、诊断、监控和治疗肿瘤的有效方法。在生命科学中,分析DNA、RNA、蛋白质的功能一向是非常重要的事情。自从2006年开始的新一代测序技术使得基因组测序成本大幅降低,各国纷纷启动了癌症基因组计划,产生了大量的癌症基因组数据(如TCGA),提供了越来越多癌症的基因突变、表达图谱等,这为全面研究癌症提供了更有了数据支持。随着数据量变得越来越大,纯粹依靠人工分析早已变得不切实际,因此人们必须采用计算机技术对大量的生物数据进行分析处理。非编码RNA是指各种不翻译成蛋白质的RNA分子。其中长链非编码RNA(LongNoncodingRNA,即LncRNA)指的是长度大于200个核苷酸的非编码RNA。由于它们不直接参与编码蛋白质,因此从前人们认为非编码RNA是没有意义的,但是随着人们对非编码基因功能认识的逐渐深入,通过对机体各种生理和病理过程的观察,逐渐发现非编码基因承载了越来越多的生物学功能,而且与一些疾病的发生、发展密切相关。它们在不同的组织,健康的人体或癌症的人体,甚至幼年老年的表达都不一定一样,因此,研究功能尚不十分明确的长链非编码RNA很有必要。为此,我们要在系统角度研究与肿瘤相关的lncRNA的差异表达及功能推断。随着大量lncRNA被鉴定,研究者发现GEO中exonarray中的一些探针被错误的标记为mRNA,其实际对应着lncRNA。这与高花费的RNA-seq技术和设计专门的lncRNA芯片相比,GEO中存在着大量的肿瘤相关的exonarray的芯片数据,从中我们可以快速推断部分lncRNA在不同肿瘤中的表达,以及lncRNA与蛋白质之间的共表达,这为在系统水平上研究肿瘤相关的lncRNA的差异表达及功能推断提供了丰富的数据来源。本论文的主要工作是先从GEO的数据库中下载HumanGenomeU133Plus2Array平台的大量的人类肿瘤的exonarray数据,论文的研究数据分成三大类,一类是包含儿童与成人的恶性胶质瘤样本集,一类包含16组不同癌症的exonarray数据,一类是包含结肠癌四个发展阶段的样本集。然后通过对其exonarray中的探针进行重新分析,将实际对应lncRNA的探针重新注释,得到部分的lncRNA表达和编码基因表达,然后根据这些表达数据计算基因在疾病组与对照组间表达数据的FoldChange,即倍数变化,以及其表达变化的P-value,得到的FoldChange大于2或小于0.5且P-value小于0.05的基因可被认为有显著的表达差异性,接下来运用Pearson方法和Spearman方法对筛选出来的这些基因进行相关性分析,进一步构建lncRNA与相关联编码基因的共表达网络,然后利用GO富集分析和pathway富集分析,推断lncRNA可能的GO生物过程和参与的KEGG通路,从而推断与肿瘤相关的LncRNA的具体生物学功能,为肿瘤的机理研究推断提供新的突破点。
【作者】咸竞天;
【导师】梁艳春;
【作者基本信息】吉林大学,计算机应用技术,2014,硕士
【关键词】生物信息学;长链非编码RNA;癌症;肿瘤;差异表达;共表达网络;
【参考文献】
[1]梁亚雄.当代我国廉政文化生成研究[D].河北师范大学,马克思主义中国化研究,2013,硕士.
[2]俞丽丽.基于MCIS抽样的SRAM失效概率的估计[D].苏州大学,概率论与数理统计,2014,硕士.
[3]周洲.基于GPU的有限差分法弹性波数值模拟研究[D].中国地质大学(北京),地质工程,2013,硕士.
[4]余鹏,彭勇民,宋传春.准噶尔盆地侏罗系隐蔽圈闭的识别效果[J].石油地球物理勘探,2006,03:337-340+362+19.
[5]李忠宏.Pb-C电池消氢用泡沫钯催化剂的制备与性能研究[D].哈尔滨工业大学,化学工程与技术,2013,硕士.
[6]石殿祥,王正国.角道集上的振幅补偿[J].石油地球物理勘探,1995,S1:68-72+89-185.
[7]蒋晓玲.基于红外激光测距技术的汽车防撞保护器设计[D].湖南大学,仪器科学与技术,2011,硕士.
[8]王新燕.探究型课程中教师实践性知识的案例研究[D].华东师范大学,课程与教学论,2013,硕士.
[9]陈世琴.基于石墨烯电极的有机薄膜晶体管的制备与性能研究[D].合肥工业大学,材料学,2013,硕士.
[10]河南科技大学王岩宁永海.新电信、新BSS/OSS之“分离”浅析[N].计算机世界,2002-12-09E15.
[11]田镇平.乡镇机关办公自动化系统的分析与设计[D].厦门大学,软件工程,2014,硕士.
[12]蒋琪.OSTA考试站管理系统[D].西安理工大学,电气工程,2003,硕士.
[13]吴玉会.稀土元素在金刚石工具中的应用及作用机理[D].河北工业大学,材料学,2004,硕士.
[14]白清玉.基础教育信息化应用水平现状评估[D].华中师范大学,教育技术学,2014,硕士.
[15]金燕.论有限责任公司股东的查阅权[D].中国政法大学,经济法学,2013,硕士.
[16]王勇.异形钢管混凝土拱桥的受力分析及试验验证[D].西南交通大学,建筑与土木工程,2014,硕士.
[17]黎秀秀.我国对外贸易、产业结构升级与经济增长关系研究[D].重庆大学,企业管理,2014,硕士.
[18]徐山惠.孔子的“仁爱”思想对我国构建和谐社会的启示[D].山西师范大学,马克思主义基本原理,2014,硕士.
[19]周洪宇.国有企业内部控制体系构建的研究[D].北京林业大学,会计学,2013,硕士.
[20]曹璐璐.网络媒体环境中的初中语文作文教学研究[D].山东师范大学,教育(专业学位),2013,硕士.
[21]赵丽.仔猪早期断奶应激诱导肝脏发生内质网应激及其营养调节的研究[D].华中农业大学,动物营养与饲料科学,2014,硕士.
[22]王安帮.宽带混沌产生与混沌光时域反射测量[D].太原理工大学,电路与系统,2014,博士.
[23]张俊,罗大庸.一类多延时多变量网络控制系统的建模及稳定性[J].控制与决策,2011,08:1239-1242+1247.
[24]王晓芳.社会化标注系统中群组推荐方法研究[D].山东大学,计算机系统结构,2014,博士.
[25]符亚璐.CTD-ILD临床资料分析及其循环纤维细胞的研究[D].第四军医大学,内科学(专业学位),2014,硕士.
[26]王硕石.AOPP在子痫前期胎盘中的表达及其对细胞凋亡通路的影响[D].南方医科大学,妇产科学,2014,博士.
[27]贾慧敏.抗除草剂基因转化旱稻的研究[D].河北科技大学,植物学,2013,硕士.
[28]刘彤.地方金融风险控制研究[D].山东财经大学,金融学,2012,硕士.
[29]周瑾.应对气候变化的控制性详细规划编制技术研究[D].华中科技大学,城市规划与设计,2013,硕士.
[30]李舟.腾讯公司的盈利模式研究[D].上海外国语大学,工商管理,2014,硕士.
[31]李一虹.康泉羊奶市场营销计划书[D].兰州大学,工商管理(专业学位),2013,硕士.
[32]田莹.蛋黄粉制备高纯度磷脂酰胆碱的研究[D].江南大学,食品科学,2012,硕士.
[33]何锦璇.基于复杂网络理论的多机器人编队控制[D].南京邮电大学,控制理论与控制工程,2013,硕士.
[34]徐金霞.被迫行为的刑法定位与规制[D].南京大学,刑法学,2013,硕士.
[35]秦桢.水分胁迫条件下稳态营养泡桐幼苗根细胞质膜蛋白和叶片可溶性蛋白的研究[D].首都师范大学,植物学,2004,硕士.
[36]王文彬.基于养殖户认知的畜产品质量安全管理研究[D].南京农业大学,农村与区域发展,2013,硕士.
[37]张平,莫尊理,张春,韩立娟,李政.磁响应性TiO_2/石墨烯纳米复合材料的合成及光催化性能[J].材料工程,2015,03:72-77.
[38]邓佳妮.“以读促写”在初中英语教学中的实证研究[D].南京师范大学,教师教育,2012,硕士.
[39]郭瑞敏.辽河流域吉林省部分畜禽养殖污染的负荷估算与好氧堆肥研究[D].吉林大学,环境科学,2014,硕士.
[40]李凯旋.《再生缘》系列闺阁弹词研究[D].广西师范大学,中国古代文学,2014,博士.
[41]孙进.基于ARM的网络视频电话机设计与实现[D].江苏科技大学,控制科学与工程,2013,硕士.
[42]李宁致,徐兰芳.分布式数据挖掘的隐私保持[J].网络安全技术与应用,2005,10:78-80.
[43]王民丽.冷战后美国台海政策析论[D].南京大学,国际政治,2013,硕士.
[44]陈佩沛.基于两步和多分裂迭代技术的波形松弛方法的研究[D].扬州大学,计算数学,2012,硕士.
[45]陈健.上海金融产业集群发展研究[D].北京大学,区域经济学,2014,硕士.
[46]胡林.大气能见度测试仪软件系统设计[D].电子科技大学,软件工程(专业学位),2012,硕士.
[47]刘馥,李灿平.非双曲线动校正方法[J].石油地球物理勘探,1990,03:296-305+378.
[48]谭琳,贺斌兴,冯辉霞.可光降解聚氯乙烯地膜的研制[J].安徽农业科学,2014,27:9503-9505.
[49]丁朕.俄罗斯报刊政论文章的言语评价性研究[D].黑龙江大学,俄语语言文学,2013,硕士.
[50]张海宁.灵山高速公路隧道斜、竖井利用及自然通风研究[D].长安大学,交通运输工程(专业学位),2014,硕士.