基于树核的蛋白质相互作用关系提取研究
【摘要】近年来,生物医学技术发展突飞猛进,相关的科研成果和学术报告更是层出不穷。虽然互联网时代的到来使得大家能够方便地从网络上找到这些信息,但大部分的信息仍然被淹没在海量的生物医学文献中。如果仅靠研究人员手动阅读这些文献是很难及时有效地获取有用信息的,于是便出现了生物文本挖掘技术。在生物文本挖掘领域中,最受关注的还是蛋白质相互作用关系的提取。原因是蛋白质是一切生命活动不可或缺的物质基础,了解其相互作用关系有助于系统地理解生命活动的分子机制,并且对疾病的治疗和新药的研制有积极的推动作用。早期的蛋白质相互作用关系提取研究中应用较多的是基于规则的方法,这类方法不仅耗时长且系统效果过度依赖规则的质量,可移植性差。目前应用较为广泛的是机器学习方法,其又分为特征向量方法和核方法,特征向量方法避免不了复杂的特征向量的构造和映射过程,因此基于核函数的方法是目前主流的方法。然而现在已有的核函数大部分都基于依存信息,很少有研究采用基于成分句法树的核方法来提取蛋白质相互作用关系。事实上,成分句法树本身具有丰富的语法和结构化特征,对蛋白质相互作用关系提取有重要意义。最短依存路径指导的成分分析树算法是其中少有的基于树核的算法。最短依存路径指导的成分分析树算法是用句子中两个蛋白质间的最短依存路径去指导成分句法树的裁剪,但这样生成的句法树仍然不够简洁。原因是最短依存路径上存在同位语依存关系带来的噪音干扰,这种噪音信息不仅增加了句法树表示的复杂性,而且会妨碍分类器的识别和判断。为了解决这个问题,本文提出了有效优化路径指导的成分分析树算法,通过定义相关的处理规则去掉同位语成分,消除对蛋白质相互作用关系提取毫无帮助的噪音信息,最后用优化后的路径来裁剪成分分析树。实验结果表明改进的有效优化路径指导的成分分析树算法对提高蛋白质相互作用关系提取性能是有效的。通过对最短依存路径指导的成分分析树算法在五个常用语料库上的错误分类结果的分析,发现情态动词短语后面表示相互作用的动词容易被最短依存路径遗漏,导致生成的句法树结构不能完整表达蛋白质关系实例。为了解决这个问题,本文在有效优化路径指导的成分分析树算法的基础上又提出了有效优化和扩展路径指导的成分分析树算法,定义相关的处理规则将遗漏的表达蛋白质相互作用关系的动词添加到最短依存路径中,并结合有效优化路径指导的成分分析树算法对同位语依存关系的处理,保证了由有效优化和扩展路径指导生成的成分句法树结构的完整性和简洁性。实验结果表明有效优化和扩展路径指导的成分句法树算法进一步提高了蛋白质相互作用关系提取性能。
【作者】刘念;
【导师】马长林;
【作者基本信息】华中师范大学,计算机系统结构,2014,硕士
【关键词】蛋白质关系提取;树核;同位语依存关系;情态动词短语;
【参考文献】
[1]白艳艳.KIR与SLE和ReA发病机制的相关研究及HIC1对SMG生长发育影响的分析[D].山东大学,内科学,2013,博士.
[2]陈浩漩.广痛消泡沫气雾剂治疗内痔便血脱垂及痔核黏膜修复的临床研究[D].北京中医药大学,中医外科,2013,硕士.
[3]于淼.青海尕林格铁矿矽卡岩矿物学及矿化蚀变分带特征研究[D].中国地质大学(北京),矿物学、岩石学、矿床学,2013,硕士.
[4]刘振武,撒利明,杨晓,彭才.地震导向水平井方法与应用[J].石油地球物理勘探,2013,06:932-937+1016+850.
[5]魏爱华.病理性瘢痕中P物质、肥大细胞、组织胺的表达及其与瘢痕增生和痛痒的关系[D].青岛大学,外科学,2003,硕士.
[6]圣黎.国内外中学物理课程标准对比研究[D].华东师范大学,课程与教学论,2004,硕士.
[7]徐胜阳.自动化立体仓库中的计算机控制及其仿真[D].武汉理工大学,2003.
[8]李霞.基于乘积误差模型的中国股市波动率度量及应用研究[D].山东财经大学,数量经济学,2013,硕士.
[9]万明.身份与位置分离体系映射安全关键技术研究[D].北京交通大学,2013.
[10]贾伟.康县—武都断裂新活动性及其地震危险性研究[D].中国地震局兰州地震研究所,构造地质学,2012,硕士.
[11]宋心琦.分子计算机——化学家的乐园[J].化学教学,2011,08:3-5+77.
[12]赵立.半刚性钢框架—薄板深梁结构抗侧性能研究[D].长安大学,结构工程,2013,硕士.
[13]黄玉辉,刘东,廖怀庆,于文鹏,翁嘉明,张宇.考虑电网特性的网络重构算法解空间优化[J].电力系统自动化,2012,10:51-55.
[14]李新雷.大型反重力铸造设备及其控制技术的研究[D].西北工业大学,材料加工工程,2004,硕士.
[15]梁洪晶.正锥面曲线特征以及结构函数的应用[D].东北大学,基础数学,2011,硕士.
[16]李明明.二阶段GLMM在预测未决赔款准备金中的应用[D].云南财经大学,统计学,2013,硕士.
[17]刘艳秋,韩晓,郝晓燕.企业社会责任对员工自我效能的影响[J].现代营销(学苑版),2014,09:28-29.
[18]朱鑫.基于超级电容器储能的风电机组低电压运行与控制[D].新疆大学,电力系统及其自动化,2013,硕士.
[19]姜北北.基于全三维模型工艺设计技术[D].沈阳理工大学,机械工程,2013,硕士.
[20]赵向荣.湖南XYJ连锁超市员工职业生涯管理研究[D].长沙理工大学,人力资源管理(专业学位),2012,硕士.
[21]张萌萌.无功补偿技术及风电场中STATCOM的鲁棒自适应控制研究[D].北京交通大学,交通信息工程及控制,2013,硕士.
[22]刘叶花.胞元结构参数对蜂窝铝芯力学性能的影响研究[D].湘潭大学,材料加工工程,2012,硕士.
[23]董存辉.基于SDI-12总线的生态水文数据采集系统的设计与实现[D].西北师范大学,电子与通信工程,2013,硕士.
[24]郑秀芬.WEB数据库和数据仓库技术的研究与应用[D].浙江大学,2004.
[25]孙琦.新型减重多孔复合棒材成型工艺研究[D].西安建筑科技大学,材料加工工程,2013,硕士.
[26]钱伟.城市居住社区公共服务设施配套问题的研究[D].浙江大学,2004.
[27]王海波.基于SSH的大学生联谊交友管理系统设计与实现[D].华中科技大学,软件工程,2013,硕士.
[28]吴玉香,胡跃明.一类不确定非完整移动机械臂的鲁棒镇定[J].控制与决策,2006,11:1289-1292+1297.
[29]张丽艳,王建民,李昂,陈志德.三维转换波叠前方位各向异性校正技术[J].石油地球物理勘探,2011,05:695-699+731+836+660.
[30]刘小平.中铁置业人力资源战略规划研究[D].北京交通大学,2013.
[31]王伟.细节设计对车辆制动系统安全可靠性的影响[J].现代城市轨道交通.2007(06)
[32]钱明刚.天津工程机械研究院发展战略研究与实施[D].天津大学,2004.
[33]房海滨.基于上市公司经理股票期权计划研究[D].河北工业大学,技术经济及管理,2004,硕士.
[34]常进,张曾科,钱利民.基于空间电压矢量的感应电机每安培最大转矩控制[J].控制与决策,2006,08:953-956.
[35]刘汉承.基于Cortex-M3的血液动力学监护仪系统的设计[D].浙江大学,生物医学工程,2014,硕士.
[36]杨金华.镁合金表面功能梯度薄膜力学性能研究[D].哈尔滨工业大学,机械制造及其自动化,2014,硕士.
[37]廖世霞.基于碳纳米管催化剂的异丙苯催化氧化性能研究[D].华南理工大学,工业催化,2014,硕士.
[38]魏蓬.采动破坏研究与病害加固技术[D].河海大学,水工结构工程,2003,硕士.
[39]乔路敏.苏木、鸡血藤及其分别联合顺铂对肺癌细胞增殖、周期的调控作用[D].北京中医药大学,中西医结合临床,2014,硕士.
[40]刘瑜.建构主义学习环境下的高中历史教学设计[D].福建师范大学,教育,2003,硕士.
[41]段小江.铀(Ⅵ)、钍(Ⅳ)和铕(Ⅲ)在微凝胶P(DEA-co-AA)上的吸附行为研究[D].兰州大学,放射化学,2013,硕士.
[42]于乃功,秦永钢,阮晓钢.机械臂视觉伺服系统中的高精度实时特征提取[J].控制与决策,2009,10:1568-1572.
[43]高德芳.Enhancing Culture Teaching: From the Perspective of Pragmatic Failure[D].苏州大学,英语语言文学,2003,硕士.
[44]谢静.体育锻炼对大学生自我控制能力的影响[D].西南大学,基础心理学,2013,硕士.
[45]王斌.多金属氧簇:变色—荧光开关性能研究[D].吉林大学,2014.
[46]彭超.PXI可重构串行通讯模块研制[D].哈尔滨工业大学,仪器科学与技术,2013,硕士.
[47]施思.集成家居品牌构建研究[D].湖北工业大学,艺术设计,2013,硕士.
[48]叶本利.非Lipschitz系数随机微分方程的指数遍历性[D].南京大学,应用数学,2013,硕士.
[49]张明卓.陕西省高校科技成果转化的制约因素与对策研究[D].西安建筑科技大学,行政管理,2013,硕士.
[50]黄文超,孙洪飞,曾建平.基于SOS技术的多项式非线性系统鲁棒控制综合(英文)[J].自动化学报,2013,06:799-805.