纵向等级数据基于秩次的非参数方法研究
【摘要】研究背景与目的:纵向等级数据又称为纵向有序分类数据,类属于纵向数据(longitudinaldata),是每个受试个体或单位在不同时间以有序分类重复度量所获得的数据,换言之,是由横断面数据和时间序列融合在一起的重复测量(repeatedmeasures)数据。此类数据不仅可以反映不同时间点的处理间差异(横断面效应),还可以反映这种差异随时间的变化趋势(纵向效应)。纵向等级数据在医学研究领域甚为常见,如整体疗效评价(痊愈、显效、有效、无效)的随访数据等。关于定量纵向数据的分析手段较多,且较为成熟,不过这些方法对数据的分布具有较严格的限制。对于纵向等级数据,目前尚缺乏有效的分析方法,为此,本研究拟以秩次思想为基础,以涉及处理、时间这两个影响因素的纵向数据为研究对象,通过数据在相应效应检验的原假设下呈现出的图形规律,构造秩次统计量,建立基于秩次的纵向等级数据非参数方法,使之可应用于重复测量的复杂实验设计中;不仅能分析处理、时间等主效应,也可分析因素间的交互效应。同时非参数方法无分布条件约束,从而适用范围更广,以期为纵向等级数据分析方法提供新思路,为改善现有方法的局限性提供新的途径和策略。纵向等级数据基于秩次的非参数方法的建立:本研究分为两部分。第一部分为有关非参数方法统计量的理论推导阶段,将H0下数据在形态上的轮廓特点转换为数学公式表达,分别构造交互效应统计量、在交互效应无意义时的主效应统计量及在交互效应有意义时的主效应统计量,导出各统计量的统计分布,计算对应的自由度,并推导分类数据同秩较多时的统计量“校正系数”。第二部分为非参数数方法应用的验证与比较阶段,随机生成模拟数据,设定参数,分别估计不同参数下各效应的Ⅰ类错误率α值和检验效能1-β值;引入常用的秩转换的重复测量方差分析统计方法,与非参数数方法比较,并讨论样本量对两方法的影响,进一步说明各方法优劣性。第一部分,统计量构造的理论推导。交互效应统计量。H0为无效假设,因此在H0下假定纵向数据中无交互效应存在,而表现在轮廓上即处理组间不同时间的效应趋势图重合或平行。由于分类数据间只代表等级的差别,不具有差异大小的定量区分,因此先对数据编秩,然后将平行特点用数学公式表达出来。其中编秩方法与统计量构造思路有关。所以交互效应的统计量就是描述趋势线图的平行的关系,从而有R1.2-R2.2=R1.3-R2.3…=R1·T-R2·T=0,令Rglt,Rg2t,…,RgNt为在样本量为N的△glt,△g2t,…,△gNt样本中的秩,△git=Ygit-Ygi,t-1,其中g表示组别,i表示个体,t表示时间。如果这种平行关系发生的可能性为小概率,则拒绝H0。根据此想法,依据中心极限定理,计算期望及方差,对上述数学公式做标准化变换后平方,则其服从x2分布,有秩和检验在处理纵向等级数据时通常需要做出校正,主要目的是修正相同秩较多时随机变量的方差会随之减小对统计量造成的影响;换句话说,当观测结果出现相同秩次较多的情况下,检验统计量中的总体均值不会变化,但方差变小,进而统计量也随之变化,医学统计中把这一变化称之为“校正”。所以在上述统计量基础上进一步对其分母做出“校正”,其“校正系数”经推导得到其中ωtk表示在时间t的N个秩次中第k个相同秩次的个数,于是交互效应检验统计量为同理得到处理效应及时间效应的检验统计量。由于主效应在交互效应是否有统计学意义下表现的图形特征有所不同,所以分别给出交互效应检验不同结果基础上的两个主效应检验统计量。同样也对同秩较多做出“校正”。处理效应检验统计量。当交互效应无统计学意义时,有同秩较多时,“校正系数”经推导得到于是有当交互效应有统计学意义时,同秩较多时,“校正系数”经推导得到于是有时间效应检验统计量。当交互效应无统计学意义时,有同秩较多时,“校正系数”经推导得到于是有当交互效应有统计学意义时,同秩较多时,“校正系数”经推导得到于是有第二部分,方法的模拟验证评价。本研究主要是将所提出的的基于秩次的非参数方法与现在比较常用于处理分类纵向数据的秩转换的重复测量方差分析做方法比较。一方面通过对正态分布和均匀分布数据,选取不同的标准差和相关系数,考察分布类型、个体变异大小及重复观测的相关性强弱对两种方法的影响;一方面对均匀分布数据,通过变换样本量,考察样本量不同情况下两方法的稳定性。通过上述两个方面评价所提出方法的统计性能,并对两种方法进行比较。结果:Ⅰ类错误率α:1)针对交互效应检验,当样本量n<30时,非参数方法α值均较小,随着样本量增大,这种偏倚性随之消失;而标准差和相关系数的大小对交互效应影响的差异则较小,几乎可以忽略。2)针对处理效应检验,当交互效应无意义时,标准差越小,非参数方法越稳定,而随着标准差变大,结果随之出现较大波动;方差分析的结果刚好相反。当交互效应有意义时,非参数方法在n<30情况下,其α值均较小。而当样本量增大时,这种偏倚性随之消失。而随着标准差增大,方差分析方法的α值波动也变大,提示个体变异较大时,使用秩转换的方差分析,结果较不稳定。3)针对时间效应检验,交互效应无意义时,当相关系数较小,样本量也较小时,非参数方法的α值也较小,相对显著性水准0.05会出现偏倚,当样本量增大,偏倚性随之消失;而相关系数增大,即使样本量较大时,方差分析法也会产生偏倚,提示秩转换的方差分析在处理个体间变异小而重复测量数据相关性较强时,需谨慎使用。交互效应有意义时,当相关系数较小,非参数方法的α值偶尔也偏小,随着样本量的增大,该情况会减弱;当相关系数变大时,偏倚仅出现在n<30的情况,随着样本量的增大,对α的偏倚性随之消失。检验效能1-β:1)针对交互效应检验,当样本量较小时,两方法的检验效能相差不多,非参数方法稍优于方差分析;随着样本量增大,尤其是当n>60时,非参数方法较方差分析的优势更为明显,且非参数方法的检验效能随样本量的增大而增大,当样本量达到100时基本趋于稳定,检验效能趋于90%。而相关系数对该方法的影响可以近似忽略。2)针对处理效应,无论交互效应是否有意义,在各样本量下非参数方法均优于方差分析,且方差越大,两方法的检验效能差异也越大。3)针对时间效应,交互效应无意义时,样本量较小,方差分析方法的检验效能优于非参数方法;随着样本量增大,尤其当n>60时,两方法的检验效能基本相同。交互效应有意义时,不同样本量下,方差分析法的检验效能始终优于非参数方法,但二者之间的差距随着样本量的增大而不断减小,且两种方法的检验效能在n>60的情况下均渐趋稳定。结论:1)基于秩次的非参数方法可以分析纵向数据,其不受数据分布类型限制,尤其适用于非正态分布资料,如纵向等级数据。2)基于秩次的非参数方法针对交互效应建立了单独的检验统计量,可以有效地分析交互效应,并且得到针对交互效应的统计推断,改善了以往方法将各效应混合在一起分析,而无法给出各效应各自结果的情况。3)基于秩次的非参数方法建立在中心极限定理基础上,因此在应用中应满足n>30,当n>60时,结果更为稳健。4)基于秩次的非参数方法中对处理效应的检验效能不理想,可以在之后的研究中进一步改进和完善。5)现在较为常用的处理分类纵向数据的秩转换的重复测量方差分析,若处理各等级近似均匀分布的数据,由于方法受个体变异大小及重复观测间相关性强弱的影响,因此使用时应谨慎。
【作者】庄严;
【导师】陈平雁;
【作者基本信息】南方医科大学,流行病与卫生统计学,2014,博士
【关键词】纵向等级数据;秩次;非参数方法;中心极限定理;
【参考文献】
[1]夏伟.商业性街道的评价体系建构[D].合肥工业大学,建筑设计及其理论,2004,硕士.
[2]记者吴长锋.中外学者发现石墨烯类膜材料新特性[N].科技日报,2014-11-30001.
[3]孙强.光电稳瞄系统稳定度测量与校准装置设计[D].西安工业大学,光学工程,2013,硕士.
[4]孟明.兆瓦级风力发电机组电动变桨距控制技术的研究[D].河北工业大学,控制科学与工程,2013,硕士.
[5]纪谨.浅析年历设计中装饰性几何元素的应用研究[D].河北科技大学,艺术设计,2014,硕士.
[6]李延涛.植物油纸绝缘的微水扩散和介电特性研究[D].西南交通大学,电力系统及其自动化,2014,硕士.
[7]林振龙.子午流注纳甲法针刺治疗颈椎病颈痛临床研究[D].广州中医药大学,中医学(专业学位),2013,硕士.
[8]张春天.激光选择性烧结柔性DSSCs光阳极的研究[D].华中科技大学,光电信息工程,2013,硕士.
[9]贺建平.家校合作开展中学生心理健康教育的探索[D].内蒙古师范大学,教育(专业学位),2013,硕士.
[10]夏珊珊.江浙沪地区影子银行规范发展研究[D].中共江苏省委党校,世界经济学,2013,硕士.
[11]王璇.从弓长岭区矿业公司变迁看产权、技术与组织的关系[D].沈阳师范大学,社会学,2014,硕士.
[12]王珏敏.财经类高校实践教学团队建设研究[D].山西财经大学,教育经济与管理,2013,硕士.
[13]王睿.《孔子圣迹图》考述[D].曲阜师范大学,专门史,2013,硕士.
[14]杨芳.集资诈骗罪之死刑存废探讨[D].安徽大学,法律,2014,硕士.
[15]郭强.强背景噪声下滚动轴承的故障诊断方法研究[D].中国矿业大学,机械电子工程,2014,硕士.
[16]谢春临,关晓巍,张广颖,王金伟,张婉婷.海拉尔盆地呼和湖凹陷煤层气预测方法[J].石油地球物理勘探,2013,S1:58-63+202+7.
[17]上官沁丽.高校马克思主义大众化的研究[D].燕山大学,马克思主义中国化研究,2013,硕士.
[18]梁金.取向纳米蚕丝蛋白对骨髓间充质干细胞体外形态及增殖的影响[D].南京大学,临床医学,2013,硕士.
[19]马俊涛.下一代互联网协议——IPv6综述[J].电信网技术.2001(04)
[20]仲跃.水力发电企业岗位工资制度设计[D].华北电力大学(北京),技术经济及管理,2003,硕士.
[21]孙湖.交流传动互馈试验系统中高供电品质整流电源研究[D].华北电力大学(北京),电力系统及其自动化,2004,硕士.
[22]刘立新.论我国纳税评估体系的构建[D].吉林大学,马克思主义理论与思想政治教育,2004,硕士.
[23]刘仲刚.小学数学学困生的心理特点及干预研究[D].鲁东大学,应用心理学,2013,硕士.
[24]王阳.编码nAChR亚基基因的多态性分布对肺、食管癌发生、发展及吸烟行为影响的实验研究[D].山东大学,肿瘤学,2014,博士.
[25]张洪强.随机森林算法应用于肌电信号的情感识别[D].西南大学,信号与信息处理,2013,硕士.
[26]杨秀燕.基于有限反馈的MIMO系统下行链路预编码算法研究[D].东北石油大学,测试计量技术及仪器,2013,硕士.
[27]程佳孝.滇东北新元古代花岗质岩浆作用及其构造意义研究[D].西北大学,构造地质学,2014,硕士.
[28]卫文慧1,郭叶2.基于BP神经网络的ZigBee无线定位边界效应优化[J].工矿自动化,2014,11:.
[29]王洁.无线传感器网络中能量均衡与时延优化问题研究[D].西安电子科技大学,应用数学,2012,硕士.
[30]谭磊.体育专业免费师范教育硕士培养模式研究[D].华中师范大学,体育教育训练学,2013,硕士.
[31]王保防,张瑞雷,李胜,陈庆伟.基于轨迹跟踪车式移动机器人编队控制[J].控制与决策,2015,01:176-180.
[32]吴振文.师陀小说“小城叙事”研究[D].华中师范大学,中国现当代文学,2014,硕士.
[33]吴昊,程楠.对交通基本网的认识[J].科技和产业,2015,01:10-13.
[34]陈继君,韩信.磁化技术在油气集输中的应用研究[J].油田地面工程.1990(05)
[35]朱荣华.高桩墩式码头结构计算与优化系统的开发[D].大连理工大学,结构工程,2003,硕士.
[36]李晓燕.江苏MH集团财务战略管理研究[D].广西师范大学,工商管理,2013,硕士.
[37]肖杨.文学的陌生化翻译研究[D].湖南师范大学,翻译(专业学位),2014,硕士.
[38]刘向锋,张洪伟,牟锐,胡常忠.数据挖掘在销售管理系统中的设计和实现[J].计算机应用研究,2004,06:189-192.
[39]褚兆焱.山东禹城市农户技术采用行为实证研究[D].吉林农业大学,农业经济管理,2012,硕士.
[40]卞雪华.影响农村妇女生育观变迁的因素研究[D].黑龙江大学,社会学,2013,硕士.
[41]庞治星.纳米Fe_2O_3与纳米SiO_2改性石英砂表面制备工艺研究[D].广东工业大学,市政工程,2013,硕士.
[42]张井贝.区域气候模式RegCM4对中国地区的数值模拟[D].华东师范大学,气象学,2013,硕士.
[43]张帆.基于知识网络的产业集群技术能力增长研究[D].浙江大学,2006.
[44]廖倩.基于能量均衡的无线传感器网络LEACH协议的研究[D].郑州大学,信号与信息处理,2013,硕士.
[45]张宁宁.异构环境下云计算数据副本动态管理研究[D].郑州大学,计算机应用技术,2013,硕士.
[46]李颖.碳纤维基纳米铜薄膜导电及屏蔽性能研究[D].江南大学,纺织工程,2012,硕士.
[47]范文田.《石油地球物理勘探》杂志1999年度的影响因子值及其在全国科技期刊中的位置[J].石油地球物理勘探,2001,01:17.
[48]王莹.旋毛虫感染后小鼠肠道炎症与肠道菌群的相关变化[D].吉林大学,动物学,2014,硕士.
[49]谭绍泉.海上煤田高精度三维地震采集技术及应用效果[J].石油地球物理勘探,2004,03:253-258+243-369.
[50]万富奎.公共政策视角下工业化对环境影响研究[D].贵州财经大学,行政管理,2013,硕士.
- 下一篇: 安部公房小说中的“孤独者”形象分析
- 上一篇: 异补骨脂素对小鼠骨髓脂代谢影响及其机制的相关研究