基于概率主题模型的情境建模方法研究

基于概率主题模型的情境建模方法研究

作者:师大云端图书馆 时间:2015-11-05 分类:期刊论文 喜欢:4390
师大云端图书馆

【摘要】随着IT产业尤其是互联网的蓬勃发展,人类社会逐渐进入了大数据时代,我们每天都可以通过多种渠道接触到海量的信息。如何从信息的海洋中获取知识逐渐变得非常困难,为了应对这种信息过载的问题,数据挖掘技术应运而生。然而,传统数据挖掘方法的解空间通常较大,其挖掘结果仍然难以满足用户需求。幸运的是,移动互联网的崛起和智能移动设备的应用普及,使得与用户的行为和周边环境相关的情境数据被大规模的记录、收集并逐年积累。通过对实体(用户以及与其有交互关系的实物如商品、文本等)进行情境感知的建模,挖掘出实体在不同情境下的特性以及模式的情境数据挖掘,成为解决传统数据挖掘方法解空间过大问题的有效途径,具有重要的研究价值和应用意义。在此背景下,本文系统地研究了情境数据挖掘方法及其应用问题。特别的,本文在传统互联网环境以及移动互联网环境这两个角度分别研究了三类问题:移动用户的情境识别、移动情境中的用户联系人意图建模以及面向互联网信息的命名实体情境建模。具体而言,本文的主要研究内容如下:首先,提出了一种面向移动用户的半监督情境识别模型。为了挖掘带有语义信息的移动用户情境,以便为用户提供更好的信息服务,学者们提出了有监督模型或者无监督模型的移动情境建模方法。然而,有监督模型过分依赖于标注数据,使得这类方法在现实应用中难以应用,而无监督模型挖掘出来的情境缺乏潜在的语义信息,这使得挖掘出来的结果没有很强的实用性。针对以上问题,结合在现实环境中容易获得用户部分有标注情境数据的现状,本文提出了可以融合有标注和无标注数据的半监督模型对移动用户的情境进行建模,同时本文还设计了对应的半监督学习算法。在模型中,我们称移动用户情境潜在的语义信息为情境主题,因为不同用户其情境主题是个性化的,意味着每个用户有着不同的情境主题,且数目也不相同,因此,模型需要事先知道用户的情境主题数目方能为其进行情境建模,因为传统求解方法需要通过不断尝试不同值然后判断出合适的主题数目而导致效率低下,因此本文提出了无参估计模型来对解情境主题的数目进行建模,该模型能够较为理想的对情境主题数目进行估计,同时在模型训练阶段,其算法迭代结束后的一些变量可以直接用于情境建模模型的初始化过程中,实验表明这使得情境建模的模型训练时间缩短,并且,与随机始化的方式相比能够取得更优的建模效果。另外本文还提出了一个完整的半监督情境识别的系统框架图,不仅包括标注数据的收集与处理,也包括建模和估参等过程。最后在真实数据上的大量有针对性的实验表明本文提出的半监督情境识别模型具有优于已有研究工作的良好效果。其次,通过研究用户的移动情境以及联系日志,提出一种基于概率主题模型的联系人意图建模方法,解决了移动用户意图理解的困难。随着智能移动设备的普及,以及各种智能互联网应用的广泛使用,“联系”操作在诸多场景中被频繁使用。另一方面,由于智能移动设备存在一些弊端(如屏幕小等),这使得对用户的联系人意图进行建模从而为智能服务提供理论基础显得十分必要。针对该联系人意图理解的问题,本文在数据预处理阶段提出了简单有效的情境会话划分算法以及情境区域划分算法,并在此基础之上提出了一种假设:用户在执行一个联系操作的过程中通常会基于某种“意图”,如“闲聊”、“公务”等,另外大都会以数次时间间隔很短的联系行为作为一个会话的形式出现,同时用户的联系意图在很大程度上也与用户所处的地理位置情境有关联。基于以上假设,本文提出用概率主题模型对移动用户的潜在联系意图进行建模的模型,实验表明该模型能够较为合理的为用户的联系人进行建模,并通过案例分析的方式验证了假设的合理性。最后,通过从词和命名实体两种角度分析互联网信息中的文本,提出一种基于概率主题模型的命名实体情境建模方法,解决了实体歧义问题。与面向用户的情境建模相比,命名实体的情境建模同样具有重要意义,因为这有助于我们更好的理解实体,进而更准确合理的利用命名实体为用户提供更优质的服务。然而,由于实体歧义性问题的存在,给实体建模和理解带来了极大的挑战。为此,本文将包含实体信息的文本解析成词和命名实体两种层面的信息,考虑到二者同属于一篇文档,应当具有相同的主题分布,因此可以将其映射到同一个主题空间中。基于此,提出了一种基于概率主题模型的实体建模方法,并使用变分推导方法求解参数,这使得模型更加易于并行化,为后续处理海量数据提供了理论基础。随后本文从命名实体链接这一具有实际意义的问题出发,提出了构造知识库的方法,并设计了命名实体链接算法,实验结果表明本文提出的模型不仅比已有算法有更良好的效果,而且也验证了相关假设的合理和有效性。
【作者】怀宝兴;
【导师】陈恩红;
【作者基本信息】中国科学技术大学,计算机应用技术,2014,博士
【关键词】情境建模;情境识别;概率主题模型;命名实体链接;

【参考文献】
[1]张卓明.湖南文艺出版社网上书城系统的设计与实现[D].山东大学,软件工程(专业学位),2012,硕士.
[2]褚志刚,陆小华,沈林邦,高小新,张晋源.抗性消声结构声腔模态对其消声特性的影响研究[J].内燃机工程.
[3]左文峰.苍白杆菌531漆酶的基因克隆、异源表达、蛋白纯化和酶学性质研究[D].湖北大学,生物化学与分子生物学,2011,硕士.
[4]江雄.锂离子电池正极材料的改性制备与性能研究[D].北京理工大学,2015.
[5]陈佳.功能化共轭聚合物量子点的细胞荧光成像及细胞毒性的研究[D].吉林大学,内科学,2014,硕士.
[6]许宝栋,许波.钢铁企业的生产预算分析与控制模式研究[J].东北大学学报,2001,02:196-199.
[7]金公泉.独立学院日语专业毕业论文写作存在的问题及其对策[J].轻工科技,2015,02:158-159.
[8]宋朝.基于工作流技术的黄科大协同办公系统的设计与实现[D].北京工业大学,软件工程(专业学位),2013,硕士.
[9]张雪.基于内部控制的零售业X公司财务管理流程优化研究[D].山东大学,工商管理(专业学位),2013,硕士.
[10]郑丽英,王庆荣,刘丽艳.面向属性的粗集数据挖掘方法研究[J].兰州理工大学学报,2005,02:88-91.
[11]刘江,王长松,黄效国.OPTO22热备控制系统在锅炉水位控制中的应用[J].冶金自动化,2002,04:30-32.
[12]郑卫峰.H型高血压与老年女性冠心病的关系研究[D].郑州大学,内科学(专业学位),2013,硕士.
[13]吴丹.环保家具的消费者认知和购买意愿调查分析[D].南京农业大学,产业经济学,2011,硕士.
[14]贺紫钰.传播学视域下的张爱玲作品影视剧改编[D].广西师范大学,中国现当代文学,2013,硕士.
[15]张晶.上市公司关联交易对利润影响的实证研究[D].兰州大学,企业管理,2013,硕士.
[16]刘敏.高速铁路列车运行图优化和评估研究[D].北京交通大学,交通运输规划与管理,2014,博士.
[17]许坤.后危机时代金融创新悖论研究[D].西南财经大学,金融学,2013,博士.
[18]RobertB.Rice,SamuelJ.Allen,O.JamesGant,Jr.RobertN.Hodgson,DonE.Larson,J.PatLindsey,JamesR.Patch,ThomasR.LaFehr,G.R.Pickett,Wm.A.Schneider,J.EdwardWhite,JamesC.Roberts,范维尚.975-1980年勘探地球物理学的发展[J].石油地球物理勘探,1981,06:75-90.
[19]施水军.驱动波形对HID光源声共振、电极温度和调光的影响研究[D].复旦大学,物理电子学,2012,硕士.
[20]周清华.杨浦区区域卫生监督协管信息系统设计与实现[D].东华大学,软件工程(专业学位),2014,硕士.
[21]郭真真.20世纪30年代美国公共住房政策研究[D].兰州大学,世界史,2013,硕士.
[22]高卫利.济钢焦化厂集中控制系统的研究与应用[J].冶金自动化,2007,01:34.
[23]罗洪.EPC/T总承包模式福清核电工程项目安全管理研究与实践[D].南华大学,安全工程,2012,硕士.
[24]李俊楠,王文娜,谢玲芝,王政权,谷加存.去叶对水曲柳和落叶松苗木当年生长及细根动态的影响[J].植物生态学报,2014,10:1082-1092.
[25]费华青.企业碳排放相关的会计核算研究[D].北京林业大学,会计学,2013,硕士.
[26]金宏,CWChan,张洪钺.基本样条循环神经网络及其非线性建模[J].控制与决策,1999,05:469-472.
[27]张国清.字符串词典压缩索引算法研究[D].苏州大学,计算机软件与理论,2014,硕士.
[28]谢纪刚,裘正定,韩彦俊,莫莉.上市公司财务困境预测模型比较研究[J].系统工程理论与实践,2005,09:29-35.
[29]应宏微.汽车牌照静态图像识别系统的研究[D].浙江工业大学,2004.
[30]陈忠强.地下金属矿智能调度关键技术研究[D].中南大学,采矿工程,2014,博士.
[31]刘丹.原型解读马克·吐温的《哈克贝利·费恩历险记》[D].沈阳师范大学,英语语言文学,2013,硕士.
[32]李宏.一种新型的IGBT高频交-直-交变流器[J].冶金自动化,1993,01:38-40+34.
[33]杨宝华,胡学钢.一种基于Rough集的数据归约算法的实现[J].佳木斯大学学报(自然科学版),2003,03:277-279.
[34]赵翌.央视《社会记录》栏目的整体透析[D].南京师范大学,2004.
[35]郭瀚澄.16/3.2吨桥式双梁起重机小车轻量化研究[D].浙江工业大学,2009.
[36]陈全磊.焊线机XY精密运动平台的结构优化设计[D].广东工业大学,机械电子工程(专业学位),2014,硕士.
[37]沈涔超.解脂酵母中pox4和pox6基因的敲除以及对γ-癸内酯产量的影响[D].天津科技大学,生物化学与分子生物学,2010,硕士.
[38]杨毅,冯培恩,高宇.挖掘机器人作业过程中局部自主避障控制[J].自动化学报,1999,05:655-661.
[39]郭翀.绑架罪认定过程中的司法难题研究[D].西南政法大学,法律(专业学位),2012,硕士.
[40]钟琳.我国银行卡消费者权益保护研究[D].上海交通大学,公共管理,2013,硕士.
[41]胡永.低成本智能楼宇对讲系统的设计与实现[D].安徽大学,电路与系统,2013,硕士.
[42]郭林永.我国地方政府债务管理问题研究[D].湖北大学,行政管理,2012,硕士.
[43]汪刚.消胀贴治疗危重病胃肠功能障碍的疗效观察[D].北京中医药大学,中医学,2013,硕士.
[44]刘伊娜.下意识行为在产品设计中的运用研究[D].景德镇陶瓷学院,设计艺术学,2014,硕士.
[45]吴勇超.双工件台半实物实时仿真系统设计[D].哈尔滨工业大学,控制科学与工程,2014,硕士.
[46]郭忠军.干旱胁迫下棉花蛋白质组双向电泳体系构建与差异表达蛋白功能分析[D].新疆农业大学,生物化学与分子生物学,2012,硕士.
[47]杨慧娟.传统出版向数字出版的转型及创新研究[D].郑州大学,新闻与传播(专业学位),2013,硕士.
[48]赵玲玲.高中生人格偏离问卷的初步编制[D].河北师范大学,应用心理学,2012,硕士.
[49]莫晓斌.基于城轨列车碰撞模拟的车钩系统优化研究[D].吉林大学,机械设计及理论,2013,硕士.
[50]朱博.中国基尼系数问题研究[D].西南财经大学,政治经济学,2014,博士.

相关推荐
更多