基于上下文的音视频标注研究
【摘要】随着计算机和网络技术的迅速发展,音频、视频等多媒体数据呈海量趋势不断增长。为了便于对这些繁杂数据的管理与利用,常见的处理方式是对其内容进行低层特征、结构信息、语义特征等不同层级的描述,其中,语义特征作为最贴近用户理解的描述形式得到了普遍关注,而基于机器学习的音视频标注作为获得这些描述的一种快速有效方式,也成为了当今的研究热点。然而,由于多媒体低层特征与高层语义之间存在的“语义鸿沟”,仅仅依赖学习算法本身往往很难达到满意的标注效果。在这种情况下,合理利用音视频数据丰富内容所蕴含的语义关联上下文、时间关联上下文、多模态关联上下文等信息将有助于缩小这个“语义鸿沟”,从而改善和提高音视频内容标注的准确性。本文以基于上下文的音视频标注为出发点,对当前标注方法中存在的一些关键问题进行了讨论,并对上述三种上下文的挖掘、建模、利用等问题展开深入研究,主要取得了以下成果:(1)针对音频标注中语义关联上下文利用不足的问题,提出基于关联主题混合高斯模型的音频概念检测算法,并探索了基于主题信息反馈的关键词检出。作为描述音视频内容的语义特征,标注单元之间会呈现出共现、约束等上下文关联,本文以一般音频和特殊音频——语音为出发点,对音频标注中这种语义关联上下文的挖掘和利用进行讨论。对于面向一般音频的多标记的音频概念检测,传统的处理方法忽略了语义概念之间的关联特性,本文算法则是将其嵌入至混合高斯模型框架中来指导检测过程,进而提高了检测准确性。而对于语音,本文从语音产生的角度出发,对说话人的原始表达意图进行基于文本分类的主题建模,尝试以此作为高层语义上下文来实现对关键词检出初始结果的进一步虚警剔除,在语音文档检索的应用中得到了有效验证。(2)分析了视频标注通常采用的通用概念关联的局限性,提出特定数据的两视角概念关联估计算法。语义关联上下文中的概念关联在标注过程中处于宏观指导地位,但通常采用的通用概念关联无法正确描述每一个待处理数据的概念分布,因此会导致以此为指导的视频标注不能达到期待中的效果。针对这一问题,本文尝试对具体待处理镜头和镜头对所隐含的空间和时间概念关联进行估计,将其转化为数据的分解与重建问题。在基于概率计算的视频标注优化中,面向TRECVID2006-2008数据集的实验测试以及与其它方法的比较表明本文算法得到的概念关联能够反映数据自身的语义内容,因此更为有效地提高了视频标注优化性能。(3)从对视频时间一致性的建模角度出发,提出图正则化的连续概率潜在语义分析模型,以及基于特征转换的视频概念检测算法。视频的时间特性决定了时间连续的视频片段可能具有相似的视觉和语义内容,本文模型基于这种时间一致性上下文的文档元素关联,对原始连续概率潜在语义分析中被忽略的元素关联通过基于图的流形正则化进行建模;在视频标注中,该模型除了用于特征映射,还作为一种产生式模型,由此得到的特征转换算法通过利用视频结构所隐含的上下文信息,克服了基于概率潜在语义分析的概率建模标注方法在视频标注中的局限。在YouTube和TRECVID数据集上的实验显示了本文模型及特征转换算法的有效性。(4)针对多模态关联上下文的有效利用问题,提出多模态连续概率潜在语义分析模型及其通用形式——图正则化的多模态连续概率潜在语义分析模型。描述同一个视频片段的音频、视频等不同模态特征相互关联彼此补充,合理的多模态融合方式应既能描述模态个体特性又能保持它们之间的关联。上述两个模型以此为出发点,前者在连续概率潜在语义分析框架下将多模态融合转化为多模态元素的建模问题,对每一个模态赋予一个混合高斯分布来描述其特征分布,并在基于分类的视频标注中有效完成了音视频融合;在此基础上,后者加入对多模态元素之间本质关联的建模,作为连续概率潜在语义分析、以及本文提出的多模态连续概率潜在语义分析和图正则化的连续概率潜在语义分析的通用形式,该模型进一步实现了对视频多模态和时间一致性等上下文的同时建模。
【作者】钟岑岑;
【导师】苗振江;
【作者基本信息】北京交通大学,信号与信息处理,2014,博士
【关键词】音频标注;视频标注;上下文;概念关联;时间一致性;多模态;
【参考文献】
[1]王宜昌,杨辉,郑彬卿.重力资料多层界面的反演效果[J].石油地球物理勘探,1991,03:410.
[2]杨珍珍.目的论观照下的博物馆解说词英译研究[D].宁波大学,英语语言文学,2013,硕士.
[3]宗建新.天津市推动科技型中小企业发展的战略研究[D].河北工业大学,工商管理,2013,硕士.
[4]王现丽.萝卜霜霉病抗性蛋白组学分析和抗病基因同源序列分离[D].南京农业大学,蔬菜学,2013,硕士.
[5]菲尔·琼斯.年轻建筑师展示如何设计绿色建筑[J].城市环境设计,2014,Z1:172-191.
[6]田媛媛.建筑智能环境控制原理及方法的研究[D].长安大学,检测技术与自动化装置,2014,硕士.
[7]黄彦军.当代大学生马克思主义幸福观教育研究[D].长安大学,思想政治教育,2014,硕士.
[8]张澍.哲学视角下的当代文化体制改革[D].福建师范大学,马克思主义哲学,2013,硕士.
[9]万晶晶.新型烟支传送装置设计与分析[D].湖南大学,机械工程,2012,硕士.
[10]肖丽娜.煤炭企业社会责任绩效评价研究[D].山东师范大学,管理科学与工程,2013,硕士.
[11]陈婷婷.MEMS压电—磁电复合式微能源器件优化设计制造及其性能研究[D].中北大学,物理电子学,2014,硕士.
[12]徐艳华.软刚臂横向共振机理研究与控制方案设计[D].大连理工大学,计算力学,2013,硕士.
[13]郝洁.新经济条件下跨国公司价值链研究[D].武汉理工大学,技术经济及管理,2004,硕士.
[14]冯惠芬,杨世诚,沈丽华.1988年国际档案保护研讨会论文要点综述[J].档案学研究.1988(04)
[15]卢启臣.基于屏拷技术的机房辅助教学系统的设计与实现[D].华南理工大学,计算机技术,2012,硕士.
[16]饶彬.“985工程”高校网站信息公开研究[D].华中科技大学,行政管理,2013,硕士.
[17]修思文,黄凯,余慜,谢天艺,葛海通,严晓浪.面向非写分配高速缓存的一致性协议及实现[J].浙江大学学报(工学版),2015,02:351-359.
[18]刘洋.柔性石墨烯复合电极的制备及其结构与性能的研究[D].上海师范大学,2012.
[19]魏兴丽.旅游景区公共设施所承载的地域性文化意念[D].西北民族大学,美术学,2012,硕士.
[20]魏孔贞.OPC技术和工业以太网在炭素阳极生产中的研究与应用[D].兰州理工大学,电力电子与电力传动,2014,硕士.
[21]周本根.Immunocasp-6融合基因对HER2过表达骨肉瘤的特异、高效性抑制作用[D].南方医科大学,骨外科学(专业学位),2014,博士.
[22]赵明旺.相关扰动下连续系统的连续时间最小二乘辨识的数值实现[J].控制与决策,1997,04:345-348.
[23]高珍珍,佟浩,白文龙,张校刚,潘燕飞,石明,宋玉翔.对苯二胺共价连接碳纳米管和石墨烯复合材料的制备及其电化学行为的研究[A].中国化学会.中国化学会第29届学术年会摘要集——第24分会:化学电源[C].中国化学会:,2014:2.
[24]胡玥.云南石屏彝族海菜腔发展趋势及传承对策研究[D].云南艺术学院,艺术学,2013,硕士.
[25]吕龙义.复合型CAST工艺处理低碳源城镇污水的中试研究[D].哈尔滨工业大学,土木工程,2014,硕士.
[26]张倩.金属硫化物纳米材料的可控合成与结构性能研究[D].吉林大学,2013.
[27]刘佳婧.切换时滞正系统的稳定性分析[D].山西师范大学,运筹学与控制论,2013,硕士.
[28]石国贤.抗日战争时期云南大学工学院办学历史考察[J].云南农业大学学报(社会科学),2015,01:110-115.
[29]张珮琨.国有大型企业网络舆情危机管理研究[D].华中科技大学,新闻与传播,2013,硕士.
[30]张宇.电感耦合等离子发射光谱法测定水中的铜铅锌镉镍的运用[D].长安大学,环境工程(专业学位),2014,硕士.
[31]陈国迎.我国城市管理综合行政执法中存在的主要问题及对策研究[D].吉林财经大学,行政管理,2014,硕士.
[32]王坚浩,胡剑波.一类非匹配不确定非线性系统的鲁棒跟踪控制[J].控制与决策,2011,05:727-731+742.
[33]张洁.莫能菌素生物合成调控基因的敲除[D].天津大学,制药工程,2013,硕士.
[34]刘晓冬.三维集成电路硅通孔匹配和倒装芯片布线算法研究[D].复旦大学,微电子与固体电子学,2013,博士.
[35]高竹发,郝伟娜,周全.Halbach阵列型摆线永磁齿轮涡流损耗的有限元计算[J].机械强度,2014,05:745-751.
[36]李璐.基于个人形象需求的时尚首饰搭配体系研究[D].湖南大学,设计艺术学,2011,硕士.
[37]刘胜濠.C919铝合金热变形力学行为及加工图研究[D].中北大学,材料加工工程,2013,硕士.
[38]兰天葆.黑洞的热力学几何性质[D].渤海大学,理论物理,2014,硕士.
[39]邵捷.明清美术的忠义题材研究[D].上海大学,美术学,2014,博士.
[40]孙喆.新型蛋白质合成起始抑制剂—抗生素Furvina在核糖体P位点作用机制的研究[D].吉林农业大学,动物营养与饲料科学,2012,硕士.
[41]罗丽.酸化油生物柴油的喷雾与燃烧特性研究[D].河南科技大学,动力机械及工程,2013,硕士.
[42]高扬.西马矿1327工作面下保护层开采防突效果分析研究[D].辽宁工程技术大学,采矿工程,2012,硕士.
[43]覃永国.非树枝晶合金坯料感应二次加热研究[D].东北大学,工程热物理,2010,硕士.
[44]刘娜,冯锋,王丽媛,马占芳.利用氧化还原探针直接还原的氧化石墨烯构建多肿瘤标志物传感界面[A].中国化学会.中国化学会第29届学术年会摘要集——第26分会:胶体与界面[C].中国化学会:,2014:1.
[45]李建东.基于T-S模糊模型的网络控制系统的时滞研究[D].杭州电子科技大学,系统工程,2014,硕士.
[46]陈斌兰.论环境公益诉讼中的受害者权益保护[D].山西财经大学,环境与资源保护法学,2013,硕士.
[47]戴东波,印鉴,梁华金.结合访问序列和内容挖掘的预取技术[J].计算机工程,2005,22:102-104.
[48]陈哲.基于地域性的海滨工业城市景观设计研究[D].苏州大学,设计艺术学,2013,硕士.
[49]郭琦.银川盆地北部浅层地下水水文地球化学特征及砷的富集机理[D].中国地质大学(北京),地质工程,2014,硕士.
[50]陈孟乔,杨广武.新建地铁车站近距离穿越既有地铁隧道的变形控制[J].中国铁道科学,2011,04:53-59.
相关推荐
- 基于CDMA的城市燃气配送管网监控系统设计
- 05月12日
- 磨合过程摩擦振动特征提取方法研究
- 11月29日
- 基于学分制的高校选课系统的设计与实现
- 06月30日
- 竹笋深加工机理与工艺技术研究
- 08月31日