高维大规模统计推断及其在基因组数据中的应用
【摘要】本文主要研究高维大规模统计推断及其在基因组数据中的应用.随着大数据时代的到来,包括基因组数据在内的大数据呈现出高维特点以及数据内部存在着复杂的相关性.无论如何,数据高维性(pn)和统计相关性的出现都给传统的统计方法和理论带来了空前的挑战,因此高维性和相关性也使得大规模统计推断问题(e.g.多重检验问题)更加前所未有的难以解决.在本文中,针对高维(pn)存在着复杂相依性结构的数据,我们首先考虑在单个隐马尔可夫链模型(HMM)相依性结构下,基于权重先验信息,为相依的大规模多重检验发展了一个具有神谕性和渐近最优性的加权假发现率(WFDR)控制过程;然后在拓展的学习出的多个隐马尔可夫链模型(multi-HMM)相依性结构下,我们为组(group)相依的大规模多重检验发展了一个具有神谕性和渐近最优性的假发现率(FDR)控制过程;接下来基于套索(lasso)模型在一个一般的相依性结构下,我们发展了一个具有神谕性和渐近最优性的假发现率(FDR)控制过程.另外,随着大数据时代的到来,探索和发现诸如生物学、社会学等领域里的高维数据集中复杂的相依网络结构也逐渐成为非常重要的问题.而高斯图模型以及更一般的矩阵高斯图模型的学习被越来越多的文献证实是研究这些数据相依性结构的一个极其有效的方法.在本文的第五章我们首次提出用一个多重检验过程的方法来学习高维矩阵高斯图模型的结构,并给出相关理论和应用情况.我们将上述的理论应用于高维有着复杂遗传背景的基因组数据:全基因组数据和生物医学成像数据.以大规模多重检验为主导的全基因组关联分析方法已成为一个非常受欢迎的用来识别新的复杂疾病中遗传变异点的工具,在全基因组关联分析问题当中,需要同时对数以万计的SNP进行检验来找出一些与性状有关的SNP,这些检验由于遗传过程中的连锁不平衡等因素是相关的,而且检验问题是建立在高维数据背景下的(pn).对于基因表达数据和生物医学成像数据而言,这类数据是以复杂结构的数组或者矩阵张量形式存在的,同样具有高维以及多维特点,分析这类数据的一个主要目的就是识别数据内部复杂的网络结构,这些结构对进一步了解生命现象以及新药物的研制等等都有极大帮助.第一章首先介绍了全基因组关联分析中单核苷酸多态性(SNP)数据和生物医学成像数据的背景,然后回顾了一些重要概念和现有的一些与我们的工作相关的一些方法.此外,本章还介绍了全篇论文的结构和本文的主要内容.在第二章中,从贝叶斯假设检验角度出发,首先假设可观测数据服从一个隐马尔可夫模型,然后基于每个假设的重要性权重先验信息,本章发展了一个具有神谕性和渐近最优性的加权假发现率(WFDR)控制过程,最后针对SNP数据,本章提出了一种新颖的自适应的方法来获得渐近最优的权重,接着用本章提出的过程来分析全基因组的SNP数据.本章从理论分析和数值分析两方面评价了提出的新过程的表现.第三章通过一个自适应的惩罚准则结合动态规划算法学习出能将整个相依数据链划分为更加时齐的区域的变点(changepoints).然后基于这些变点就可以得到SNP数据多个隐马尔科夫链模型相依性结构或者说是组(group)相依的结构.本章进一步拓展了现有的LIS和PLIS方法来分析来自多个染色体上多个隐马尔科夫链模型相依结构下的检验.然后本章把提出的可以分析组(group)相依检验的过程应用到一个实际例子上.在第四章中,针对高维(pn)情形,基于套索(lasso)模型推导出存在一般相依性结构的检验统计量,然后基于一个相依性调整的隐条件随机混合模型发展了一个最优的FDR控制过程进行多重检验.模拟数值研究表明新过程享有优越的表现.最后将这个新过程进一步应用到全基因组关联分析中的性状位点(eQTL)定位这个实际数据研究问题当中.第五章给出一个多重检验过程来检验矩阵高斯图模型中的条件独立型结构,并给出相关的理论结果,这部分工作正在进行中.第六章总结了前面各章的结论,并提出了可以进行的后续研究.
【作者】肖健;
【导师】郭建华;
【作者基本信息】东北师范大学,概率论与数理统计,2014,博士
【关键词】大规模多重检验;高维;套索;假发现率的控制;复合决策理论;隐马尔可夫链模型;隐条件随机混合模型;矩阵高斯图模型;
【参考文献】
[1]刘侃.云南省省对下一般性转移支付有效性研究[D].云南财经大学,财政学,2014,硕士.
[2]中国学术期刊评价委员会.RCCSE中国学术期刊排行榜(武大版)(2015~2016)[J].评价与管理,2014,04:52-78.
[3]陈云.中国市场化改革中民间金融问题研究[D].华南师范大学,产业经济学,2004,硕士.
[4]周璐.心外ICU护士术前访视在冠状动脉旁路移植术病人中的应用和效果研究[D].山东大学,护理学,2013,硕士.
[5]张楠.咸阳市小学实施《国家学生体质健康标准》现状研究[D].西安体育学院,体育教学,2013,硕士.
[6]卢璐.基于Copula-VaR模型的多元市场资产组合风险价值研究[D].燕山大学,区域经济学,2014,硕士.
[7]马骏驰.Push-over在考虑两次地震作用下的建筑物震害预测方法中的应用[D].河北工业大学,结构工程,2004,硕士.
[8]顾佳经.高校现代远程教育校外学习中心“特许经营”式管理探索[D].华东理工大学,公共管理(专业学位),2013,硕士.
[9]余军杰.上海吉迪雅精密机械(集团)有限公司内部流程管理分析[D].上海交通大学,工商管理(EMBA),2013,硕士.
[10]乌云其木格.呼和浩特市赛罕区中小学蒙授学生语言使用状况[D].内蒙古师范大学,中国少数民族语言文学,2013,硕士.
[11]王珊珊,曾亮,叶理德.炼钢-连铸动态调度中基于规则的时间调整方法(待续)[J].冶金自动化,2014,04:21-24.
[12]朱天义.社会资本理论及其在中国的适用性研究[D].华中师范大学,科学社会主义与国际共产主义运动,2014,硕士.
[13]魏健.小波人工神经网络在建筑沉降预测中的应用研究[D].北京交通大学,摄影测量与遥感,2013,硕士.
[14]李明.自然风景区游客感知价值量化评价研究[D].湖北大学,人文地理学,2012,硕士.
[15]王闪闪.民间云肩技艺及民俗文化研究[D].江南大学,设计艺术学,2012,硕士.
[16]曹怡然.首钢冶金废渣工程项目风险管理研究[D].华侨大学,项目管理(专业学位),2013,硕士.
[17]王闻硕.石墨烯与金属纳米结构相互作用的研究[D].北京交通大学,光学,2014,博士.
[18]程渤芮.高新技术企业员工关系管理影响因素的实证研究[D].成都理工大学,企业管理,2013,硕士.
[19]汪镭,周国兴,吴启迪.基于人工神经网络在线参数跟踪的自适应交流传动系统[J].自动化学报,1997,04:113-116.
[20]尚蕊.北京市初中升学体育考试过程性考核对体育教学影响的研究[D].北京体育大学,体育教育训练学,2013,硕士.
[21]方晶.锰基复合物的制备、结构表征及电化学性能的研究[D].南昌航空大学,2014.
[22]于淑玲.小兴凯湖表层沉积物的磷释放特征及对富营养化的影响研究[D].中国科学院研究生院(东北地理与农业生态研究所),环境科学,2014,硕士.
[23]黄蔚.基于间套作背景下的小麦/玉米/大豆周年磷肥效应研究[D].四川农业大学,植物营养学,2012,硕士.
[24]贺平丽.刘敞研究综述[J].华夏文化,2014,02:56-60.
[25]王红宾.切花菊采后失水胁迫生理机理及水孔蛋白基因CmAQP克隆与功能初步分析[D].南京农业大学,园林植物与观赏园艺,2012,硕士.
[26]刘涛.第30届奥运会落选赛中国男排非技术因素与技术因素探析[D].西南大学,体育教育训练学,2014,硕士.
[27]仉春华.聚乙烯醇改性无纺布复合膜的制备与耐污染性能研究[D].大连理工大学,2008.
[28]张立浦.Φ12~Φ20mm钛合金管材二辊矫直机辊型曲线及矫直精度研究[D].燕山大学,机械设计及理论,2013,硕士.
[29]陆琼烨.梅童鱼头制备食用鱼粉的研究[D].浙江海洋学院,食品加工与安全(专业学位),2014,硕士.
[30]刘浈.无线传感器网络监测覆盖空洞修复策略研究[D].南京大学,控制工程(专业学位),2013,硕士.
[31]陈云云.分布式文件系统名字空间管理[D].华中科技大学,计算机系统结构,2013,硕士.
[32]汪华,张哲,尹项根,何志勤,江荣舟,陈国炎.基于故障电压分布的广域后备保护算法[J].电力系统自动化,2011,07:48-52.
[33]周瑞英.英语词义教学研究[D].湖南师范大学,英语语言文学,2003,硕士.
[34]彭伟霞.上海市静安区老年人健康期望寿命及其对策研究[D].复旦大学,劳动卫生与环境卫生学,2013,博士.
[35]曹扬韬.永州零陵区阳明大道中间分车绿带景观设计[D].中南林业科技大学,风景园林(专业学位),2014,硕士.
[36]颜雪洲.轻质高性能混凝土力学性能试验研究及新型复合墙体性能分析[D].北京交通大学,2006.
[37]李文奇.网络消费情景下成就动机、人格特质与风险认知关系研究[D].河北大学,发展与教育心理学,2014,硕士.
[38]梁锦华.高强钢变截面辊弯成形插补控制算法优化[D].北方工业大学,机械工程,2014,硕士.
[39]许涛.三维金属/石墨烯复合结构制备及表面增强拉曼效应研究[D].浙江理工大学,应用化学,2014,硕士.
[40]呼秀艳.多媒体在初中思想品德教学中的应用研究[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[41]任亚君.硝基功能化二烷基咪唑盐取代硝基甲烷在合成与催化中的应用[D].华中科技大学,2012.
[42]李言俊,张安华,陈新海.σ校正混合自适应控制律[J].自动化学报,1991,03:304-310+383.
[43]余海霞,任西营,杨志坚,郑刚,胡亚芹,杨水兵,胡庆兰,叶兴乾.超滤结合臭氧处理的海水对加工过程中鱿鱼品质的影响[J].现代食品科技,2014,03:163-168+86.
[44]王瑞佳.英汉书籍前言礼貌策略对比研究[D].北京交通大学,2014.
[45]许东.金纳米棒的合成、加工及作为方向探针在单分子成像上的应用[D].湖南大学,分析化学,2014,博士.
[46]曾德鑫.微机控制方板坯修磨机[J].冶金自动化,1986,03:58-60.
[47]赵子健.高新技术产业开发区发展方向与规划布局研究[D].天津大学,城市规划与设计,2004,硕士.
[48]王辉.固定资产管理系统[D].浙江工业大学,2012.
[49]林凯金.人结肠癌相关成纤维细胞对结肠癌LoVo细胞生物学行为的影响[D].内蒙古医科大学,病理学与病理生理学,2013,硕士.
[50]何健卓.血必净对严重脓毒症血流动力学影响及内皮功能相关性研究[D].广州中医药大学,中西医结合临床(专业学位),2014,博士.
- 下一篇: 拟阵在网络编码中的应用
- 上一篇: 简·奥斯汀小说女性“纯洁”的文本呈现与象征表达研究
相关推荐
- 分布式卫星多相位中心SAR-GMTI技术研究
- 09月02日
- 中国电信电子渠道发展现状与策略研究
- 01月31日
- 转子不平衡连续动力学分析方法及不平衡识别方法的研究
- 09月23日
- 地域文化与满族作家志锐的《廓轩竹枝词》
- 11月10日