若干多元统计模型的适应性统计推断

若干多元统计模型的适应性统计推断

作者:师大云端图书馆 时间:2015-08-20 分类:硕士论文 喜欢:4157
师大云端图书馆

【摘要】回归分析是研究自然科学、工程技术以及社会经济发展规律的重要工具.回归模型是研究几个(随机)变量之间关系的一种重要的统计方法。一般地,回归模型包括参数回归模型、非参数回归模型和半参数回归模型等。近年来,非参数模型和半参数书模型受到越来越多统计学者的关注。众所周知,如果假设的参数模型结构不正确,将会导致错误的结论。为了减少模型的偏差,人们采用非参数的方法来估计模型内在的函数结构。非参数回归模型既不预先设定函数的结构形式,也不引入未知参数,函数在每一点的值都由所观测到的样本数据所观测到的样本数据所决定,因此非参数模型方法具有较大的适应性,在降低建模偏差方面就有较大优势。但非参数模型也存在明显的缺陷。首先,当维数比较大时,非参数估计会存在维数祸根问题。其次,非参数模型中很难加入离散的预测变量。第三,当预测变量的维数较高时,很难画出估计函数的图像并给出估计的合理解释。为了提高估计的效率,掌握数据背后的隐藏的模型结构信息就显得相当重要。但如何捕捉数据背后隐藏的结构信息仍然是一个具有挑战性的问题。在第二章中,我们提出了一个局部线性-可加估计和它的相关的版本来自动捕捉一般的多元非参数模型的可加信息。具体地说,我们考虑了如下非参数回归模型:其中Y是实数值响应变量,X=(X(1),…,X(p))T是p维协变量,模型误差ε满足E(ε|X)=0,Var(ε(?)X)=σ2。在全模型里,仅仅假设未知的回归函数是光滑的。众所周知,在全模型(0.2)中非参数回归函数r(x)的局部线性估计被定义为ru(x)=β(0)(x),其中β(0)(x)是下列最优化问题的解向量的第一个分量:而局部可加估计可以通过分别关于β(o)(u)和β(j)(u(j)),j=1,…,p,取最小化而得到:其中nx是在区域[-1,1]p中的数据Ui的个数,Y(Ui)是对应的相应变量。我们通过合并局部线性估计和局部可加估计来定义局部线性-可加估计。这个新的估计可以通过关于β(0)和β(j),j=1,…,p取最小化而得到。在(0.4)里,hj和hj(u)可以是相互不同的;前者是在局部线性估计中用到的全局窗宽,后者是在局部可加估计中用到的局部窗宽。这里β(j),j=1,…,p,是向量u的函数,这与(0.3)中的对应的量互不相同,因为每一个βx(j)(u(j))仅仅依赖于对应的分量u((j)。在(0.4)里,λ≥0和η(x)≥0分别是全局惩罚参数和局部惩罚参数。我们利用它们去惩罚局部线性估计的全局和局部非可加性。解上述优化问题,我们得到局部线性-可加估计的显示表达式:其中β(x)是β的一个局部线性估计,其中rad,x(u)是一个局部可加估计,W1(x;λ,η)和W2(x;λ,η)是对应的权函数。这样,新的估计是局部线性估计和局部可加估计的-个加权和。从而可知,我们的方法联系着两种类型的局部估计:局部线性(或者局部常数)估计和局部可加估计。这样新的估计能够获得在全模型和局部(可加)模型之间获得一个适应的拟合,而且能够应用于双可加性:局部可加性和全局可加性。另一方面,像局部线性估计一样,当模型没有可加结构时新的估计有显式表达式,这样使得其计算简单且相对精确。理论结果和数值模拟表明了新的方法有较低的计算复杂度且能大量地提高估计的精确度。同时我们引入一个新的理论框架来作为局部地和全局地相关的统计推断的理论基础。基于这个框架,新定义的估计可以看作为影响变量关于局部和全局相关的范数到全函数空间的投影。半参数模型由于其灵活性和可解释性得到了很好的研究和广泛的应用。在半参数模型中,单指标变系数模型是一类被广泛应用的模型。单指标变系数同时具有单指标模型和变系数模型的特征,因此它能够有效地避免非参数模型的维数灾难问题,又具有线性模型的可解释能力。基于这些优点,关于这个模型的参数估计和假设检验已经有许多工作,但是大多数都在均值回归的框架下。我们知道分位数回归模型提供了一个比对应的均值回归模型关于响应变量分布的更加完全的描述。因此在分位数回归框架下,单指标变系数模型的研究就显得尤为重要。变量选择对任何回归模型来说都是相当重要的一个问题。目前存在的关于单指标变系数模型的变量选择,大多数都是基于最小二乘方法。这样这些方法就继承了最小二乘方法的所有的缺点。特别是在有限样本条件下,这些方法对于异常点是十分敏感的。这样,当出现异常点时,用一个稳健的标准来代替最小二乘标准是值得期待的。然而,据我们所知,关于单指标变系数模型的稳健变量选择方法还没被提出。在第三章,考虑如下的单指标变系数模型其中(X,Z)∈Rp×Rq是协变量,Y是响应变量,g(·)是一个q-维的未知函数向量,β=(β1,…,βp)T是一个p-维的未知参数向量,对某个常数τ∈(0,1),模型误差ε满足P(ε≤0)=τ。在这个模型下,gT(pTX)Z是给定X和Z下响应变量Y的条件τ分位数。我们这里对误差ε的方差齐性或者厚尾概率不强加任何条件。为了可识别性,我们假设‖β‖=1,而且β的第一分量是正的,以及g(x)不能是下列形式g(x)=αTxβTx+-γTx+c,其中‖·‖表示欧式范数,',|∈Rp,c∈R是常数,且α和β。我们在分位数回归框架下利用非参数方法提出了一个新的变量选择方法来同时选择和估计未知的参数和系数函数。新提出的方法利用压缩的思想,它能够同时选择有意义的带有函数系数的斜变量和带有参数系数的局部有意义的斜变量。具体地说,我们通过一些变换后得到目标函数其中Wi(φ)=Wi(β)。令φ和γ(γ1T,…,γqT)T表示通过最小化(0.7)而得到的解。那么,得到β和gk(u)的基于分位数损失函数的惩罚稳健回归估计分别为和在定义的正则条件下,伴有调整参数的合适选择,新的变量选择方法拥有选择的相合性和参数估计的oracle性质。而且,由于check损失函数在有限样本里对于异常点的稳健性,我们提出的变量选择方法比基于最小二乘标准的变量选择方法更加稳健。提出的变量选择方法能够很自然地应用于纯单指标模型和纯变系数模型。最后,我们通过数据数据和实际数据来举例验证我们提出的方法。随着数据收集技术的进步,超高维数据频繁地出现于多种科研领域。然而现存的变量选择方法,如:LASSO,Dangtzig,SCAD等等,都不能很理想地应对当预测变量个数p远大于样本个数n的情况。面对实际情况中日益预增的超高维问题,两阶段变量选择法得到了广泛的关注,即先使用变量筛选法对超高维数据进行降维,然后再利用其它更进一步的变量选择法进行精细地选择和参数估计。自从FanandLv(2008)提出SureIndependenceScreening这一开创性工作以来,大量的文献致力于解决第一阶段中超高维变量的筛选问题。然而,大多数的特征筛选方法比如SIS以及其相关的版本紧紧依赖于指定的模型结构。而且,特征交互项在存在的文献中通常没有被考虑。在第四章中,在没有结构假设的条件下,我们针对带有交互项的模型提出了一个新的特征筛选方法。具体地说,当一个模型包含交互项而且交互项仅仅包含基本项的一次幂时,每一项可以写成统一的形式X1m1X2m2…Xpmp,其中m1,…,mp∈{0,1}且1≤m1+m2+…+mp≤p.为了给出新的特征筛选方法,我们首先定义其中m1,…,mp∈{0,1}.然后,新的边际效用准则的定义为那么ωm1,…mp可以看作是用来度量Y和X1m1X2m2…Xpmp边际效应的总体形式。新的排序标准是灵活的而且能够处理包含交互项的模型。而且,新的筛选方法是简单的,因此它在计算上是简单有效的。同时rankingconsistency(?)surescreening等理论性质很容易被得到。在数值模拟实验中,通过考查各种不同类型的回归模型,我们再次验证了新提出的方法一致且显著地优于已有的特征筛选方法。在回归分析中,异方差检验很久以来就是一个标准的实践活动。当误差实际上是异方差时,对同方差模型而设计的方法可能导致效率的大量损失(DetteandMunk1998)。这样,在做统计推断之前,检验研究的模型是否有异方差时是非常重要的。在第五章中,受至SheandOwen(2011)中方法思想的启发,我们基于惩罚方法提出对于线性模型的一个新的多元异方差检验方法。在本章中,我们考虑下面的线性回归模型其中Y是n维响应变量,X∈Rn×p固定设计矩阵,β∈Rp是未知的参数向量,ε是一个随机误差向量。为了方便,我们假设矩阵X的秩为p.我们假设ε均值为0和协方差阵为∑的多元正态分布,这里∑是对角元素为σ12,σ22,…,σp2的对角矩阵。为了表达的方便,我们记其为σ2=(σ12,σ22,…,σp2)T.第i情况可以表示为这里我们想检验线性回归模型(0.11)和(0.12)的潜在的异方差性。为了便于表达,我们记σ=(σ1,σ2,…,σn).不失一般性,假设σ大多数分量是1而且只有很少几个分量不是1(因为异方差不是常态).这蕴含着向量σ-1是稀疏的,这里1是一个所有分量都是1的n维向量。如果σi=1,那么第i情况是正常的;要不然,它是一个异方差。我们的目标是寻找一个σ的稳健估计,进而来识别整个数据异方差的情况。受σ-1的稀疏性启发,我们构造一个包含β和σ的惩罚似然目标函数,然后关于参数β和σ最小化这个目标函数:其中Pλ(·)是定义在区间[0,∞)上的函数值为正的惩罚函数,λ∈[0,∞)是一个调整参数。为了利用已有的算法和程序,我们将上述目标函数经过一些变换后得到新的目标函数注意到(0.14)式在形式上与SCAD-惩罚回归的目标函数相似。通过解上述优化问题我们得到γ的选择和估计,再根据γ和σ的对偶关系,我们可以得到σ的估计,进而得到整个数据异方差的情况。需要强调的是,新的方法不需要构造检验统计量,不需要求检验统计量的分布,进而避免比如求最大似然估计等这样复杂的运算。同时当存在多个异常点时,我们的方法可以一步给出所有的检验。同时,我们为了利用已存在的算法和软件,我们需要对新的方法提出新的算法以期能够利用现存的软件。
【作者】宋允全;
【导师】林路;
【作者基本信息】山东大学,概率论与数理统计,2014,博士
【关键词】多元非参数回归;局部线性估计;局部可加估计;局部线性-可加估计;双非可加惩罚;单指标变系数模型;变量选择;交互项;特征筛选;异方差检验;

【参考文献】
[1]张元鸣.面向MC的客户关系管理理论研究及实践[D].浙江工业大学,2003.
[2]胥玲芳,王丽珍,夏勇.澜沧江数据仓库中空间度量的物化选取[J].计算机工程与应用,2004,18:178-180.
[3]祝伟.糖尿病视网膜病变激光与玻璃体手术治疗的临床研究[D].吉林大学,临床医学,2013,硕士.
[4]孙赫.氮掺杂炭纳米微球的制备、表征及在有机废水处理中的应用[D].吉林大学,2014.
[5]张琰.移动网基站智能门禁系统的设计[D].山东大学,电子与通信工程(专业学位),2012,硕士.
[6]金善容.古今共存的壁画文化[D].中央美术学院,美术学,2013,硕士.
[7]吕衍福.用于刀具状态检测的声发射信号无线传输系统的研发[D].哈尔滨工业大学,机械制造及其自动化,2014,硕士.
[8]吴法彦.多线电火花线切割加工装置设计及实验研究[D].哈尔滨工业大学,机械工程,2014,硕士.
[9]赵焕利.基于分块小波包变换和(2D)~2PCA的人脸识别算法[D].曲阜师范大学,通信与信息系统,2013,硕士.
[10]唐兰花.ENKTL门冬酰胺合成酶的表达及以门冬酰胺酶为基础化疗方案的疗效分析[D].中南大学,临床医学,2014,博士.
[11]张杰.抗滑桩治理国道214线滇藏公路年拉山至邦达机场段滑坡体的应用研究[D].重庆交通大学,交通运输工程,2011,硕士.
[12]朱秋影,刘洪林,吴清岭,李艳玲,张学娟.K-L变换在AVO交会图分析中的应用[J].石油地球物理勘探,2006,03:295-298+302+362+16.
[13]徐智伟.高强钢矩形截面管弯曲成形研究[D].哈尔滨工业大学,机械制造及其自动化,2014,硕士.
[14]陈智辉.江西省新时期农村扶贫开发对策研究[D].江西农业大学,农村与区域发展,2012,硕士.
[15]王晓平.脑磁图、磁共振、视频脑电图在癫痫术前定位诊断中的价值探讨[D].重庆医科大学,神经病学,2004,硕士.
[16]田园.碱金属掺杂在铜铟镓硒太阳电池中的应用[D].河北工业大学,材料物理与化学,2013,硕士.
[17]马丹丹.中国全要素生产率的测算及影响因素分析[D].浙江工商大学,统计学,2012,硕士.
[18]寇川.国际金融业的混业趋势与中国金融的分业体制[D].湖南大学,金融学,2003,硕士.
[19]詹水芳.上海开发区空间集聚模式与世界级产业基地建设[D].华东师范大学,人文地理学,2004,硕士.
[20]刘保延,谢琪,史华新,王斌,周雪忠,张润顺,郭玉峰,张小平.构建真实世界临床研究技术平台的组织管理策略[J].中医杂志,2013,24:2071-2075.
[21]宋丽.论转基因技术对动物福利的影响[D].南京理工大学,科学技术哲学,2013,硕士.
[22]张立超.“三分”教学策略在体育教学中的实验研究[D].河北师范大学,体育教学,2012,硕士.
[23]张立刚.松辽盆地深层火成岩破碎机理及破岩效率评价[D].东北石油大学,石油与天然气工程,2014,博士.
[24]戴雄辉.大型滑坡治理抗滑桩与滑坡体相互作用研究[D].成都理工大学,地质工程,2013,硕士.
[25]姜杉.网络店铺平面设计元素应用研究与实践[D].浙江理工大学,艺术设计(专业学位),2014,硕士.
[26]王文静.碳纳米管改性碳纤维增强纸基摩擦材料的制备与研究[D].陕西科技大学,材料物理与化学,2014,博士.
[27]陈敏.我国商品房预售登记制度研究[D].华中师范大学,法律,2013,硕士.
[28]王苗苗.基于SDA法的张掖市水资源需求管理评价[D].西北师范大学,人文地理学,2013,硕士.
[29]刘广钦.腹主动脉瘤相关风险因素的研究[D].第二军医大学,外科学(专业学位),2013,硕士.
[30]李梦莹.日本跨国企业汇率风险管理的运作性对冲策略研究[D].华中师范大学,世界经济,2014,硕士.
[31]柳鹏.数字式能量回馈系统的研究[D].浙江大学,2004.
[32]黄添强,秦小麟,叶水生,包磊.一种新的空间多维关联规则模型与算法[J].南京航空航天大学学报,2005,03:301-306.
[33]袁河洋.基于视频的车辆速度检测方法研究[D].大连海事大学,电子与通信工程,2013,硕士.
[34]郭斌.ITER极向场变流器交直流母线分析与设计[D].华中科技大学,电气工程,2013,硕士.
[35]李兵,蒋慰孙.SAGACIA全局优化方法及应用[J].自动化学报,1998,02:127-129.
[36]李小峰.洛阳地区部分早实核桃品种生长结果习性比较[D].河南科技大学,林业(专业学位),2014,硕士.
[37]熊海林,沈永福,邓方林,陈坚.一类指数型变量均值的Bayes递进修正估计[J].控制与决策,2001,06:906-909.
[38]宋建国.井间地震技术在油田开发中的应用潜力[J].石油地球物理勘探,2002,04:377-381+432.
[39]高金勇.视觉通道下呈现方式对中学生认知效果影响研究[D].南京师范大学,教育技术学,2012,硕士.
[40]胡琪.新生代农民工城市融入研究[D].黑龙江大学,社会学,2013,硕士.
[41]甄真.济南城市品牌建设问题研究[D].山东大学,公共管理(专业学位),2012,硕士.
[42]蒋亚平.基于Web Service的电力生产任务系统的设计与实现[D].湖南大学,软件工程,2011,硕士.
[43]狄文婷.高压射流中磨料加速的仿真及影响因素研究[D].内蒙古科技大学,机械工程,2014,硕士.
[44]杨勇攀.网购消费者忠诚影响前因研究[D].西南财经大学,企业管理,2013,博士.
[45]肖伟.数据挖掘在网络故障诊断中的应用[D].南京理工大学,2004.
[46]朱敏杰.婴儿早期听力损伤高危因素分析[D].郑州大学,临床医学(专业学位),2013,硕士.
[47]刘宁.p53基因Arg72Pro多态性与结直肠癌风险关系的分析[D].青海大学,外科学,2013,硕士.
[48]胡娟.无机纳米材料的制备及其在肿瘤诊断与治疗中的应用[D].厦门大学,化学生物学,2014,硕士.
[49]李郭敏.镱铒掺杂GZO陶瓷的制备及上转换发光性能研究[D].哈尔滨工业大学,物理化学,2014,硕士.
[50]敬希泠.企业人力资本投资的博弈分析[D].重庆大学,会计学,2003,硕士.

相关推荐
更多