基于特征、先验和约束的主题建模算法

基于特征、先验和约束的主题建模算法

作者:师大云端图书馆 时间:2021-06-30 分类:参考文献 喜欢:1513
师大云端图书馆

【摘要】潜在狄利克雷分配(LatentDirichletAllocation,LDA)是一种用来分析大规模文档的概率主题模型,它从文档的单词表示中抽取出语义相关的主题集合,将文档从单词空间变换到主题空间,得到文档在低维主题空间中的表达。然而LDA的使用者往往会遇到两个问题:一是公用词和停用词几乎占据了所有的主题,LDA的主题分布向高频词倾斜,能够代表主题的关键词被少量的高频词掩盖,从而导致较差的主题可解释性;二是如何改善基于主题特征的低维空间表示,以提高检索、聚类和分类准确率。针对这两个问题,我们从连续特征、非对称先验和稀疏约束这三个方面对LDA进行分析。LDA使用离散的词频特征作为输入,假设语料库中单词的重要程度只与词频相关。连续特征考虑不同位置单词的区别,并给予在部分文档中出现频率高而在语料库的其它文档中出现频率低的单词一个较高的值,而给予在整个语料库所有文档中出现频率都很高的单词一个较低的值。停用词和公用词的特征值得到降低,使得主题分布中这些词的概率值变小,得到连贯的主题表示。因为公用词对LDA参数推理和估计也有一部分贡献,所以连续特征对改善主题空间低维表示的效果并不是十分显著。LDA的先验通常启发性地设定为对称的固定值,然而,利用每次迭代得到的主题信息去估计先验将会更加接近于真实值。对称先验使公用词和停用词以相同的可能性分配给所有的主题,而非对称先验会使停用词以较大的可能性分配给有较高先验的主题,让停用词集中出现在少数几个主题中。在模型的训练过程中,通过对先验的学习,提高了模型的后验概率,使主题特征的低维空间表示更加精确。通常越稀疏的信息就能越清晰的反映出它所表示的意义,停用词和公用词往往出现在多个主题中,它们的主题表示有较低的稀疏度,而一些反映主题意义的关键词的主题表示则有较高的稀疏度。在模型参数估计和推理的过程中增加稀疏限定,去鼓励那些有较高主题稀疏度的单词,惩罚有较低主题稀疏度的单词。从而解决LDA中停用词和公用词的问题,并改善主题特征的低维空间表示。本文在LDA模型的基础上,围绕文本数据,以连续特征、非对称先验和稀疏约束为出发点,建立能融和这三种因素的概率产生式图模型以及因子图,提出改进的消息传递算法并对它们进行综合性的评价。结果表明,连续特征的LDA模型通过有效的移除停用词和公用词提高了主题分布的可解释性,非对称先验在主题可解释性、文档分类以及聚类准确率等几个标准上都有所改进,稀疏限定也提高了整体性能。
【作者】吴晓娜;
【导师】曾嘉;
【作者基本信息】苏州大学,计算机应用技术,2014,硕士
【关键词】潜在狄利克雷分配;消息传递;连续特征;非对称先验;稀疏约束;

【参考文献】
[1]欧少彬.大学生积极人格与就业能力相关性研究[D].广东外语外贸大学,思想政治教育,2013,硕士.
[2]李振玲,阳天青.基于ORACLE的FORMS、GRAPHICS、REPORTS之间的集成方法─—部生产月完成情况查询系统[J].冶金自动化,1998,03:39-41.
[3]彭伟春.小型多功能液压挖掘机研究[D].吉林大学,2004.
[4]刘德长,叶发旺.后遥感应用技术理念研究的新进展——“后遥感应用技术的提出与思考”续[J].世界核地质科学,2005,02:104-107.
[5]张凯.低速磁浮轨道结构温度效应及力学分析[D].西南交通大学,车辆工程,2013,硕士.
[6]郭瑞.Java代码缺陷检测分析与应用[D].北京邮电大学,计算机技术(专业学位),2013,硕士.
[7]席佳胜.载人月球车移动系统结构/机构设计与仿真分析[D].南京航空航天大学,飞行器设计,2013,硕士.
[8]刘汉青.当代中国电视人的职业良心培养[D].河北师范大学,马克思主义基本原理,2014,硕士.
[9]黄清芬.搜索引擎的用户跟踪功能分析[J].情报杂志,2004,03:61-63.
[10]李海鹏.论我国纪检机关的监督权[D].河北师范大学,马克思主义基本原理,2012,硕士.
[11]陈东鹏.数据仓库技术在移动通信领域的应用——MASA决策支持系统简介[J].通信世界,2001,10:16.
[12]宋光华.基于压缩感知的迭代支集检测在磁共振成像中的应用研究[D].吉林大学,信号与信息处理,2013,硕士.
[13]张瑞.社会管理创新实证研究[D].内蒙古大学,公共管理,2013,硕士.
[14]王新宇.语境应用于高职高专英语听力教学的实证研究[D].河北师范大学,外国语言学及应用语言学,2012,硕士.
[15]张笛.基于GIS的豫中烟草区划研究[D].河南农业大学,烟草学,2012,硕士.
[16]阮秋琦,仵冀颖.数字图像处理中的偏微分方程方法[J].信号处理,2012,03:301-314.
[17]卫丹.基于电子商务的供应链管理模式及应用研究[D].西南财经大学,2005.
[18]范松伟.染料木素对卵清蛋白诱导过敏性腹泻小鼠肠道微生物区系的影响[D].南京农业大学,动物营养与饲料科学,2011,硕士.
[19]邵振国,邱凌.基于混合策略博弈的预防控制策略匹配方法[J].电力系统自动化,2013,23:45-49+55.
[20]季云飞.醋酸锰及K-OMS-2引发的膦自由基及其选择性反应研究[D].苏州大学,有机化学,2012,硕士.
[21]马静芬.急性运动中心肌线粒体动态变化对心肌炎症反应的影响[D].天津体育学院,运动人体科学,2014,硕士.
[22]段德荣.立轴冲击式破碎机破碎腔的流场分析[D].济南大学,机械设计及理论,2012,硕士.
[23]都晓辉.缺血预处理和后处理对大鼠心肌缺血再灌注损伤保护作用的研究[D].吉林大学,药理学,2013,硕士.
[24]杨波,赵遵廉,陈允平,韩启业.基于小波变换的边际电价神经网络预测新模型[J].电力系统自动化,2007,12:40-44.
[25]谈颖颖.恶意透支型信用卡诈骗罪若干问题研究[D].华东政法大学,法律(专业学位),2012,硕士.
[26]邓之银.基于拉曼光谱的油品快速检测技术与实验研究[D].浙江大学,光学工程,2014,硕士.
[27]张豪,石希,陈旭芳,顾华梁.基于Surfer在水下土方计算的应用研究[J].浙江工业大学学报,2014,01:104-108.
[28]周琳,张黎明,廖磊,杨明媚,谢芹,彭海琳,刘志荣,刘忠范.石墨烯的光化学修饰方法[J].化学学报,2014,03:289-300.
[29]郑朝晖,裘聿皇,陈峻峰.一种印刷体字符识别的新方法:基于遗传算法的(0,1,*)-矩阵法[J].控制与决策,2001,03:296-298+302.
[30]孙林,倪卡卡,李显戈.中美粮食期货价格波动的动态关联——基于DCC-MGARCH模型的实证分析[J].南京农业大学学报(社会科学版),2014,02:65-72.
[31]刘磊.生物样品自动化在线固相萃取—高效液相色谱分析方法学研究[D].南开大学,2013.
[32]袁政.高压高性能非同步降压型DC/DC转换器的设计与实现[D].西安电子科技大学,电路与系统,2013,硕士.
[33]罗怡.基于结构负载声发射检测的低碳钢板电阻点焊飞溅表征[J].机械工程学报.
[34]符梅.牦牛β-防御素5基因的原核表达及乳腺特异性表达载体的构建[D].西南民族大学,临床兽医学,2013,硕士.
[35]李志新.银杏叶提取物对大鼠视神经损伤后视网膜神经节细胞线粒体跨膜电位及视网膜组织中热休克蛋白表达的影响[D].河北医科大学,眼科学,2014,硕士.
[36]李艳丽.碳纳米管改性聚乳酸及其共混物的研究[D].西南交通大学,2010.
[37]齐亮.乐亭县食品安全政府监管问题研究[D].燕山大学,公共管理,2014,硕士.
[38]许琦.河南建业集团竞争战略研究[D].兰州商学院,国际商务,2014,硕士.
[39]吴庆典.小波域无线视频软播研究[D].太原科技大学,电路与系统,2014,硕士.
[40]靳雅丽.沈阳地铁集团有限公司运营分公司绩效管理研究[D].燕山大学,工商管理,2013,硕士.
[41]陈依彤.1986年以来香港警匪片类型演变研究[D].西南大学,传播学,2014,硕士.
[42]李震海.青岛市郊2001~2003年汉坦病毒分离株M区基因序列测定与分析[D].青岛大学,病原生物学,2004,硕士.
[43]陈根华.基于表面等离子体激元的纳米结构产生和光刻技术[D].苏州大学,光学工程,2013,硕士.
[44]李明云.车载式太阳能集热器热性能测试系统的设计[D].湖北工业大学,测试计量技术及仪器,2013,硕士.
[45]巫慧娟.调控内源性大麻素系统对不同脑胶质瘤细胞的影响研究[D].厦门大学,药理学,2014,硕士.
[46]吴辰君.从生态角度探索新农村农业基地景观规划设计[D].安徽工程大学,设计艺术学,2012,硕士.
[47]吴佳佳.石墨烯及其复合材料对溶解氧还原反应的影响[D].中国科学院研究生院(海洋研究所),2013.
[48]丁修苓.边缘修饰的锯齿型碳化硅纳米条带的电学和磁学性质研究[D].吉林大学,物理化学,2014,硕士.
[49]崔玮.莱菔硫烷对EAE小鼠脾组织中各辅助性T细胞亚型比例及相关炎性因子表达的影响及机制探讨[D].河北医科大学,神经病学(专业学位),2013,硕士.
[50]葛家琪,王毅,张玲,马伯涛,石建权,杨维国,王萌.地铁所致成都博物馆振动全过程性能化研究[J].建筑结构学报,2015,02:27-34.

相关推荐
更多