层叠与深度神经网络研究及其在语音分离中的应用
【摘要】语音是人类交流的最重要媒介,而多数语音出现在噪声环境之中。听力正常的人可以不受噪声干扰,而听力障碍者和语音识别系统都难以处理混有噪声的语音,这就需要语音分离处理。语音分离是一个去除语音中噪声的过程,也就是将目标语音从背景噪声中分离出来的过程。计算听觉场景分析(ComputationalAuditorySceneAnalysis,CASA)理论分析了人类完成语音分离任务的过程,研究了语音信号的表示方法,提出了完成语音分离任务的计算目标。根据计算听觉场景分析,来完成语音分离任务将是一个很有前景的研究方向。目前,根据计算听觉场景分析理论,研究者们将语音分离任务视为一个两类分类问题,对每一个语音分离单位(时间-频率单元,Time-Frequencyunit,T-Funit)做出分类决策,判断其是属于噪声的一类还是属于目标语音的一类。当前研究者提出的方法是在分类时使用复杂特征,并且都是一次处理一个语音分离单位。而这些复杂特征的提取是十分耗时的,加之一次只处理一个单位,使得整个过程的时间复杂度变得很高。这就极大地限制了计算听觉场景分析方法的应用,比如,这些方法就难以应用在像助听器这样的资源受限且要求实时处理的设备中。基于当前语音分离方法的不足,针对“使用复杂特征”和“一次处理一个单位”这两个使整个语音分离过程时间复杂度很高的因素,本文通过使用简单特征,简化了特征提取步骤,减小了计算量,而且我们提出的方法可以成批次地生成计算结果,从而加快了整个语音分离过程的速度。除此之外,为了进一步提高语音分离系统的分类准确率,我们使用了层叠神经网络(StackedNeuralNetwork)模型。该模型可以刻画复杂的函数关系,它将多个简单神经网络模型一层层叠起来,并将下层网络的输出作为上层网络输入的一部分,这样上层网络的工作可以在下层网络工作的基础上完成,那么随着层叠网络层次的增多,准确率也能够逐步地得到提升。同样,深度神经网络(DeepNeuralNetwork)模型是一个包含有多个隐层的神经网络,它也可以刻画复杂的函数关系,但层叠神经网络具有更高的灵活性,这种灵活性可以使我们在训练过程中加入指导信息,进而影响训练进程,可以进一步提升语音分离系统的性能。所以,本文使用层叠神经网络而不是深度神经网络。我们将本文提出的方法与已知的性能最好的——基于深度神经网络和支持向量机的方法在相同的实验数据集上做比较,我们的方法不仅在准确率方面上略有优势,而且在处理速度上有大幅提升,可以使整个语音分离处理过程实时完成。
【作者】张晖;
【导师】高光来;
【作者基本信息】内蒙古大学,计算机科学与技术,2014,硕士
【关键词】层叠神经网络;深度神经网络;语音分离;计算听觉场景分析;
【参考文献】
[1]贾辉.约翰·邓恩布道文中的矛盾观[D].河北师范大学,英语语言文学,2012,硕士.
[2]罗静,魏裕磊.基于平板缝隙天线的卫星自动跟踪系统[J].广播与电视技术.2008(05)
[3]王光锷,李维敏,孙必俊.二维高阻地垒上大地电磁测深曲线的研究[J].石油地球物理勘探,1985,02:185-195.
[4]张艳飞.中国钢铁产业区域布局调整研究[D].中国地质科学院,矿物学、岩石学、矿床学,2014,硕士.
[5]赵辉.基于UMAC的自动钻铆机控制系统研究与开发[D].南京航空航天大学,航空宇航制造工程,2014,硕士.
[6]祝孔海.股权融资与企业治理机制研究[D].苏州大学,金融学,2003,硕士.
[7]王次昌,张祥椿.可控硅精密温度自动控制系统稳定性与可靠性的提高[J].自动化学报,1982,04:299-302.
[8]吴国庆.英台断陷营城组天然气成藏条件研究[D].东北石油大学,地质工程(专业学位),2013,硕士.
[9]吴娟.土地利用总体规划中土地利用现状与潜力分析[D].华中师范大学,2005.
[10]朱美臣.电机轴承故障诊断[D].沈阳理工大学,控制理论与控制工程,2013,硕士.
[11]孙文正.基于FPGA的实时运动检测系统研究[D].长安大学,交通信息工程及控制,2014,硕士.
[12]骆立霞.我国企业道德问题及对策研究[D].牡丹江师范学院,思想政治教育,2012,硕士.
[13]杨彩红.CGRP介导的单磷酰脂A对大鼠肠系膜血管床预适应的延迟保护作用[D].山西医科大学,心血管药理,2003,硕士.
[14]姬飞虎.金鸡纳碱方酰胺催化的3-芳基氧化吲哚与三氟甲基取代的硝基烯烃的共轭加成及异氰基乙酸酯与三氟甲基取代烯酮的环加成反应初探[D].华东理工大学,有机化学,2014,硕士.
[15]张振伟.钛酸锂电池负极材料的制备及电化学性能研究[D].陕西科技大学,2013.
[16]戴玮鑫.1048例住院心房颤动病人的回顾性调查分析[D].吉林大学,临床医学,2013,硕士.
[17]郝王蕾.基于人眼特征的驾驶员疲劳检测技术的研究与实现[D].东北大学,计算机应用技术,2011,硕士.
[18]侯绍静.A公司商业预付卡营销策略研究[D].西北大学,工商管理(专业学位),2012,硕士.
[19]刘琳琳.主氦风机驱动电机转子槽形和槽配合研究[D].哈尔滨理工大学,电机与电器,2012,硕士.
[20]胡忠武.高校本科专业培养计划编制管理系统设计与实现[D].东北大学,计算机应用技术,2010,硕士.
[21]王新,赵强.不完全数据库中的关联规则挖掘[J].云南民族大学学报(自然科学版),2005,03:252-254+258.
[22]黄威.合并齿状突骨折的寰枢椎不稳术式选择及疗效观察[D].湖北中医药大学,中医骨伤科学(专业学位),2013,硕士.
[23]张豪杰.《蕉林鸣清音》的创作体会[D].湖南师范大学,艺术(专业学位),2013,硕士.
[24]锁永彦.市政工程设计项目时间管理研究[D].电子科技大学,项目管理(专业学位),2013,硕士.
[25]王量.汾西师家沟古村落遗产资源保护与旅游开发研究[D].广东工业大学,设计学,2014,硕士.
[26]曹斌.风电机组振动监测与故障诊断系统研究[D].广东工业大学,机械电子工程,2014,硕士.
[27]张文倩.视频监控中人群密度估计研究[D].中北大学,通信与信息系统,2013,硕士.
[28]陈丽,牛苹苹,郝文涛,杨文.纳米Si_3N_4晶须/PVA杂化膜的制备及性能研究[J].合肥工业大学学报(自然科学版),2013,03:341-345.
[29]李晓丹.文字学术语及其英译规范研究[D].西南大学,语言学及应用语言学,2014,硕士.
[30]李鑫.基于Python的软件测试自动化平台[D].太原科技大学,软件工程,2014,硕士.
[31]朱明超,李英,李元春,姜日花.基于观测器的可重构机械臂分散自适应模糊控制[J].控制与决策,2009,03:429-434.
[32]毛红玉.基于ARM和WiFi的大麦田间图像采集和无线传输系统设计[D].甘肃农业大学,农业电气化与自动化,2013,硕士.
[33]本刊编辑部.30年是积累30年是挑战——《化工高等教育》办刊30年回顾、总结与展望[J].化工高等教育,2015,01:1-5+29.
[34]傅锦花.日本学生习得汉语方位词“上”偏误研究[D].湖南师范大学,对外汉语,2014,硕士.
[35]蒲阳.几类振荡的时滞反馈调控与同步:方法、理论与应用[D].复旦大学,应用数学,2013,博士.
[36]陈达毅.大学边缘区空间设计研究[D].华侨大学,建筑设计及其理论,2013,硕士.
[37]仇静波.体重管理干预对慢性充血性心力衰竭患者预后的影响[D].苏州大学,护理学,2013,硕士.
[38]纪树东.基于修正“钻石模型”的中国光伏产业竞争力评价与提升[D].西北大学,人口、资源与环境经济学,2014,硕士.
[39]李凤慧.基于用户浏览行为挖掘的电子商务个性化推荐系统[J].潍坊学院学报,2004,02:66-67+71.
[40]陈文虹.温州市新型农业社会化服务体系研究[D].南京农业大学,农业推广,2012,硕士.
[41]王海波.Sr_2CuO_(3+δ)高温超导样品中微结构的同步辐射研究[D].中国科学技术大学,同步辐射及应用,2014,博士.
[42]周影芳.农村初中物理电学教学研究与教学策略[D].苏州大学,教育(专业学位),2013,硕士.
[43]王小溪.对《当代中文》(冰岛语版)中文化因素的分析及其教学策略的思考[D].北京外国语大学,汉语国际教育,2014,硕士.
[44]徐卫仙,张群莉,姚建华.热锻模激光熔覆Co基WC涂层的高温磨损性能研究[J].应用激光,2013,04:370-375.
[45]邢晓领.L波段LC压控振荡器和高速二分频电路的研究与设计[D].西安电子科技大学,微电子学与固体电子学,2011,硕士.
[46]刘正勐.刑事诉讼中电子证据可采性规则的研究[D].内蒙古大学,法律,2014,硕士.
[47]宋玲玲.医用电子内窥镜彩色图像畸变实时校正硬件系统的研究[D].天津大学,光学工程,2004,硕士.
[48]胡蒙.评价理论视角下胡锦涛中共十八大报告英译本分析[D].西南交通大学,外国语言学及应用语言学,2014,硕士.
[49]申娜.北京市道路运输领域能源需求及污染物排放研究[D].长安大学,交通运输规划与管理,2014,硕士.
[50]李拓键.济南市青少年校园足球开展现状及对策研究[D].山东师范大学,体育教育训练学,2013,硕士.
- 下一篇: 高速公路车载自组网中车辆协助下载研究
- 上一篇: 基于结构方程模型的某乳品企业经销商满意度实证研究