多示例学习的包层次覆盖算法及其应用研究
【摘要】在许多实际问题中,待分类样本的标记是不确定的。本文研究的是机器学习中从有歧义的样本中进行学习的一个框架,即多示例学习。在多示例学习中,每一个样本被称做一个包,每个包可以含有任意数量个示例。如果包中包含一个或多个正示例,那么这个包就是正包;只有在包中所有的示例都是反示例的情况下,这个包才被称为反包。由于示例本身是没有标记的,因此,在多示例问题中,每一个正包都是一个有歧义的对象。正包中包含的大量假正例是多示例学习问题之所以难以解决的与生俱来的困难所在。为了排除多示例数据集的正包中大量的假正例,提高分类精度,本文提出了一个新的多示例学习包层次覆盖算法,即MICkNN。覆盖算法的学习结果是一系列的球形领域,在每一个球形领域中只含有同类样本,覆盖算法的这一特性可以帮助我们重新组织多示例数据集中包的结构。概括地说,为了排除正包中的假正例,首先使用覆盖算法生成的球形领域作为新的包结构,对原有的多示例包结构进行重新构造,从而提高多示例样本在新的特征空间中的可分离性。然后,使用包层次的κ近邻算法排除正包中大量的噪声并预测被测试包的类别。在药物活性预测数据集和基于内容的图像检索数据集中的实验表明,MICkNN算法具有很好的性能。本文的主要内容如下:1.介绍了多示例学习的概念,分析了多示例学习与传统机器学习框架之间的区别。列举了多示例学习的主要应用领域,并梳理了多示例学习的发展过程和研究现状。2.引入多示例问题的定义,介绍了几种经典的多示例算法的主要思想。将已有的多示例算法分为包层次算法和示例层次算法两类,并指出已有算法的不足之处和多示例问题难以解决的固有困难所在。3.提出多示例学习的包层次覆盖算法MICkNN。分析了使用领域覆盖算法重新组织多示例数据集的可行性,并指出了使用领域覆盖算法可以帮助包层次的κ近邻算法排除正包中大量的假正例。4.将提出的MICkNN算法应用到药物活性预测问题中,并介绍了药物分子包的生成方法。在基准的和人造的麝香分子数据集上进行了实验。从分类精度和运行时间两方面比较了所提出MICkNN算法和经典的多示例算法。5.将提出的MICkNN算法应用到基于内容的图像检索问题中,并介绍了图像包的生成方法。在COREL数据集中的三个子类Fox,Tiger和Elephant上进行了实验。
【作者】芮辰;
【导师】赵姝;
【作者基本信息】安徽大学,计算机应用技术,2014,硕士
【关键词】多示例学习;领域覆盖算法;分类;药物活性预测;基于内容的图像检索(CBIR);
【参考文献】
[1]李雪婷.宫颈鳞状细胞癌中高危型HPV感染及其相关基因C-myc的研究及意义[D].山西医科大学,病理学与病理生理学,2013,硕士.
[2]赵欢欢.建筑施工企业核心人才流失隐性成本显性化研究[D].西安建筑科技大学,管理科学与工程,2013,硕士.
[3]李卫国.PET/CT职业人员受照剂量水平研究[D].济南大学,放射医学,2012,硕士.
[4]蒋维勇,张伯明,吴文传,孙宏斌.应用于在线调度决策的极限传输容量计算方法[J].电力系统自动化,2008,10:12-17.
[5]程雪.缺血性脑卒中发病72小时内梗塞灶体积与证候的相关性及合并疾病对发病初始证候的影响[D].北京中医药大学,中医内科学,2014,硕士.
[6]王荣荣.河北省R&D投入产出绩效评价及分析[D].河北科技大学,管理科学与工程,2012,硕士.
[7]杨贝贝.改进遗传算法及其在钢筋混凝土框架结构优化中的应用[D].河北工程大学,结构工程,2012,硕士.
[8]金黎.鼠李糖脂作为清洗剂的应用研究[D].浙江大学,生物化工,2013,硕士.
[9]蒋欢.我国被派遣劳动者同工同酬权利保护研究[D].华侨大学,经济法学,2013,硕士.
[10]魏玮.重组大肠杆菌高密度发酵生产Ⅵ型胶原蛋白的工艺研究[D].吉林农业大学,生物物理学,2012,硕士.
[11]陈燕华.水稻抗纹枯病性遗传分析与主要性状QTL定位[D].广西大学,作物遗传育种,2013,博士.
[12]闫素娟,李红,贾士儒.提高麦汁发酵度的糖化工艺优化分析[J].酿酒科技.
[13]崔岩.马铃薯干腐病与黑痣病菌拮抗木霉菌的筛选及木霉菌遗传多样性分析[D].甘肃农业大学,植物病理学,2013,硕士.
[14]赵朋飞.面向个性化旅游服务的Web服务社区组织方法研究[D].山东财经大学,计算机应用技术,2013,硕士.
[15]张瑞.异步电机直接转矩控制仿真研究[D].西安科技大学,控制理论与控制工程,2013,硕士.
[16]江方敏.基于多因子量化模型的A股投资组合选股分析[D].西南交通大学,金融学,2013,硕士.
[17]邓亚婷.烯丙醇聚氧乙烯醚型减水剂的合成工艺与性能研究[D].成都理工大学,分析化学,2013,硕士.
[18]肖力.论信息网络传播权及其限制[D].湘潭大学,法律,2003,硕士.
[19]庄景林.黄河的防洪形势与任务[J].教学与研究.1993(01)
[20]于磊磊.无线传感器网络不相交多路径容错路由研究[D].山东大学,控制理论与控制工程,2014,博士.
[21]陈庚.我国城市房屋拆迁的行政法分析[D].北方工业大学,法律,2013,硕士.
[22]石诗.教育惩罚的实质及其实现[D].湖南师范大学,教育学原理,2013,硕士.
[23]于忠光.大型锻件荒加工用刀具动态强度分析及结构优化[D].哈尔滨理工大学,机械制造及其自动化,2012,硕士.
[24]李伟萍.可见光下Er-TiO_2纳米管及介孔Er-TiO_2的光催化性能研究[D].东北师范大学,分析化学,2012,硕士.
[25]曹维娟.补体C3基因多态性与缺血性脑卒中易感性的分子流行病学研究[D].南京医科大学,急诊医学,2013,硕士.
[26]王虎山.基于腔内色散管理的掺镱全光纤超短脉冲产生机理与技术研究[D].中国科学院研究生院(西安光学精密机械研究所),2010.
[27]杜琦.企业战略营销理论与实证研究[D].西安理工大学,2004.
[28]王腾.熊果酸工艺改进和乙酰熊果酸及桦木酸抗肝纤维化活性的研究[D].华中科技大学,中药学,2012,硕士.
[29]谢燕华.论货币市场基金在我国的潜在需求和影响[D].对外经济贸易大学,金融学,2004,硕士.
[30]房芳.酒店式公寓设计研究[D].广东工业大学,工业设计工程(专业学位),2014,硕士.
[31]高奉宽.基于磁通钉扎效应的可重构连接设计及动力学分析[D].哈尔滨工业大学,机械制造及其自动化,2013,硕士.
[32]曾汉东.斯特制版公司ERP应用研究[D].武汉大学,2004.
[33]胡钢锋.建筑节能中太阳能利用的技术经济评价研究[D].云南师范大学,农业生物环境与能源工程,2013,硕士.
[34]陈木茵.接受环境与归化异化[D].安徽大学,英语语言文学,2004,硕士.
[35]张明.论改革开放与中国对日本文学的翻译[D].南京师范大学,日语语言文学,2012,硕士.
[36]张晓岚.联通寻呼黑龙江分公司市场营销战略的研究[D].东北林业大学,2001.
[37]杨翠芬.高新技术企业智力资本研究[D].东北财经大学,企业管理,2003,硕士.
[38]吴孟凤.参麦注射液对晚期非小细胞肺癌血管内皮生长因子的影响[D].广州中医药大学,中医学(专业学位),2013,硕士.
[39]王红茹,王常虹,高会军.时滞离散马尔可夫跳跃系统的鲁棒故障检测[J].控制与决策,2006,07:796-800.
[40]吴洋.人的异化及其克服—马克思的异化理论研究[D].大连理工大学,思想政治教育,2013,硕士.
[41]朱士杰.我国钢贸企业应用趋势套期保值策略研究[D].华东理工大学,工商管理(专业学位),2014,硕士.
[42]赵国柱,宋文艳,张若凌.超临界态碳氢燃料流固耦合传热及热裂解的计算方法研究[J].推进技术,2014,12:1.
[43]李尚.基于软件无线电平台雷达方式通信研究与实现[D].哈尔滨工业大学,电子与通信工程,2014,硕士.
[44]刘钰.面向并行计算平台的源代码核心部分分析[D].北京理工大学,电子与通信工程,2014,硕士.
[45]刘平松.I4R型并联机器人全域性能及其优化研究[D].南京理工大学,机械制造及其自动化,2013,硕士.
[46]周俊花.高中物理教学培养学生科学素养现状研究[D].延安大学,课程与教学论,2014,硕士.
[47]朱海勇.全胸腔镜与传统开胸肺叶切除术对患者动脉血气影响的比较[D].河北医科大学,外科学,2014,硕士.
[48]吴炜.基于机器视觉的纸币印刷缺陷检测系统[D].西安电子科技大学,计算机技术,2011,硕士.
[49]关颖.小学课堂环境改善的行动研究[D].东北师范大学,课程与教学论,2012,硕士.
[50]郭华桥.高等教育期刊提升核心竞争力策略探析——纪念《中国高教研究》创刊30周年[J].中国高教研究,2015,01:12-17.
- 下一篇: 中文短文本分类技术的研究与实现
- 上一篇: 鹰架策略之故事结构教学对学习困难儿童口语叙事能力之干预研究
相关推荐
- 组织蛋白酶K对幼鼠长骨干骺端骨松质骨吸收与骨形成的影响
- 07月07日
- 太阳能电池片表面裂纹检测算法的研究与实现
- 10月10日
- 上海台骅货运代理有限公司顾客满意度体系设计及量表开发
- 08月19日
- 内蒙古创新型人才发展研究
- 03月23日