社区问答系统中的社团发现技术研究及其应用
【摘要】社区问答系统(Community-basedQuestionandAnsweringSystem,CQA)通过聚集大众智慧,能够免费提供问题的个性化解决方案,例如Yahoo!Answer,百度知道等。然而CQA系统无显式的社团结构,因此“社团”性质没能得到充分应用;而且CQA系统具有较高的开放性:知识内容共享和搜索引擎可接触,使得CQA系统易受到虚假账户的入侵,导致CQA账户行为规律复杂,知识质量急剧下降。为解决CQA系统的上述问题,有必要深入研究系统中账户行为规律和网络性质。同时这些研究工作也有助于解决如下问题,例如相关用户推荐,相似问答内容融合,新型话题发现,虚假用户识别,个性化问答服务等,这些都能提高CQA系统中的知识质量。本文以中国最大的CQA系统“百度知道”为代表,分析CQA系统中账户的行为规律。通过探索账户间的问答关系,本文构建两种网络模型,展示了CQA系统的基本网络性质。为检测CQA系统中的以兴趣为中心的账户社团,基于标签传播算法SLPA,我们提出一个面向CQA系统的社团发现算法MSLPA(Multilayerspeaker-listenerlabelpropagationalgorithm)。本文从网络规模、社团主题、聚合效果、层次结构等多方面评估MSLPA算法的性能,和已有的几种社团发现算法相比,MSLPA能够发现大规模CQA网络中有意义的、重叠的、具有层次结构的账户社团,避免生成大量的微型社团,有效聚合关联账户。基于MSLPA社团发现技术,本文提出一个CQA系统中鉴别虚假账户的方法。首先给出一组具有较高区分度的账户属性集合,包括具有一定物理含义的账户个体属性和账户所属的社团性质,其中个体属性由统计分析得到,社团性质由本文的社团发现结果得到。本文将新提出的属性集合应用于简洁的J48决策树分类器上,判断账户为正常账户或者虚假账户。实验结果显示,该方法表现出良好的性能和效果,分类准确率得到较大的提高。
【作者】冯晓楠;
【导师】田野;
【作者基本信息】中国科学技术大学,计算机软件与理论,2014,硕士
【关键词】CQA系统;社团发现;MSLPA算法;社会网络分析;虚假账户鉴别;
【参考文献】
[1]张雪.MUSIC谱峰搜索遗传算法研究及其FPGA实现[D].哈尔滨工业大学,信息与通信工程,2013,硕士.
[2]曾艳.HQC公司经营管理人员管理机制创新研究[D].兰州大学,工商管理(专业学位),2013,硕士.
[3]朱正伟.交通基础设施与中国制造业库存水平的关系研究[D].重庆大学,产业经济学,2014,硕士.
[4]庄文艳.乌鲁木齐地区英语专业基础阶段精读课堂中教师提问现状的调查分析[D].新疆师范大学,外国语言学及应用语言学,2013,硕士.
[5]刘鹏飞.远程学习社区功能优化策略研究[D].西北师范大学,教育技术学,2013,硕士.
[6]刘敬.影像书写的赋形思维研究[D].四川师范大学,中国现当代文学,2004,硕士.
[7]刘维.现代化商贸物流园区信息平台的建设方案研究[D].西南交通大学,物流工程,2012,硕士.
[8]刘凌思.莆仙方言中声母发音方式同化、重叠、边擦清音变化及其在优选论框架下的解释[D].上海外国语大学,英语语言文学,2013,硕士.
[9]郭锋.介孔材料的复合改性及对重金属离子吸附性的研究[D].武汉理工大学,复合材料学,2012,硕士.
[10]马翠华.我国侵害公民个人信息犯罪若干问题研究[D].华东政法大学,法律(专业学位),2012,硕士.
[11]王雪.7-连通图最长圈上的可收缩边及3-连通图可收缩非边的分布[D].山东大学,运筹学与控制论,2013,硕士.
[12]胡三影.储能用矩阵式AC/DC变换器的控制[D].华中科技大学,电气工程,2013,硕士.
[13]郝冀.呼出气一氧化氮测定在支气管哮喘中诊治的临床意义[D].吉林大学,临床医学,2013,硕士.
[14]祝由.风致振动压电能量采集器的电源管理电路研究[D].重庆大学,微电子学与固体电子学,2014,硕士.
[15]刘汝琪.我国城市街道办事处绩效评估指标研究[D].大连理工大学,行政管理,2013,硕士.
[16]朱晓燕.水权转让合同初论[D].河海大学,环境与资源保护法学,2004,硕士.
[17]李洋.社区德育资源开发与利用的个案研究[D].西北师范大学,课程与教学论,2013,硕士.
[18]周建建.初中级对外汉语教学词典参见系统构建研究[D].南京大学,英语语言文学,2013,硕士.
[19]刘鹏霄.清热活血方药抑制类风湿关节炎血管新生的分子免疫机制探究[D].北京中医药大学,中医学,2014,硕士.
[20]王林强.面向信息物理系统的自适应实时可靠无线MAC协议[D].大连理工大学,计算机应用技术,2013,硕士.
[21]夏永恒.CO_2加富条件下高温对温室黄瓜糖和淀粉代谢的影响[D].内蒙古农业大学,蔬菜学,2013,硕士.
[22]邹波,于渤,卜琳华.面向企业技术创新的校企知识转移作用机理——基于370家企业的实证研究[J].科学学研究,2012,07:1048-1055.
[23]姚凯,金丽玲,彭睿.在有多种胰蛋白酶抑制剂的情况GO-10k-br-PEG-NH2对胰蛋白酶有保护作用[A].中国化学会.中国化学会第28届学术年会第4分会场摘要集[C].中国化学会:,2012:1.
[24]刘万祝.吸液驱气法对多孔材料吸附行为的表征[D].大连理工大学,化学工程与技术,2013,硕士.
[25]相利萍.高中生化学符号学习现状的探查[D].扬州大学,学科教学,2012,硕士.
[26]王秋红.天津卫视C波段接收情况分析[J].广播与电视技术.2006(06)
[27]李子同.左旋匹莫苯和衍生物的合成及其抗心衰活性的研究[D].广西大学,应用化学,2003,硕士.
[28]黄小龙.南方亚麻微生物脱胶技术及其机理研究[D].湖南农业大学,生物化学与分子生物学,2004,硕士.
[29]梁朋.我国民事优先权的种类及顺位研究[D].沈阳工业大学,民商法学,2012,硕士.
[30]赵广川.基于VECM模型的江苏省消费结构、产业结构与经济增长关系研究[D].南京财经大学,数量经济学,2013,硕士.
[31]彭鑫.江西LED产业发展战略联盟研究[D].南昌大学,项目管理(专业学位),2012,硕士.
[32]刘玉.胶体法合成三元铜基纳米材料及其热电性质研究[D].安徽大学,应用化学,2014,硕士.
[33]姜翠.丙型肝炎病毒自发清除者的血清代谢组学研究[D].吉林大学,内科学,2013,硕士.
[34]左鹏,徐和龙,于国庆.Web挖掘在FDSS中的应用探讨[J].计算机与现代化,2001,05:16-19+25.
[35]徐敬领,刘洛夫,邹长春,张亚雄.精细井—震标定研究沉积层序旋回的方法[J].石油地球物理勘探,2012,06:990-997+1024+843.
[36]苏莉.利用氮杂环丙烷合成1,2-二胺和β-氟胺[D].湖北大学,有机化学,2012,硕士.
[37]米裕.网络消费合同履行问题研究[D].大连海事大学,法律,2014,硕士.
[38]黄橙子.酸溶性大豆蛋白的制备及其在酸性饮料中的应用[D].华东师范大学,生物化学与分子生物学,2013,硕士.
[39]杨阳.火电厂石膏旋流器空气柱特性及结构优化研究[D].华北电力大学,流体机械及工程,2014,博士.
[40]高金莉.PTEN在NK/T细胞淋巴瘤中的表达及意义[D].郑州大学,肿瘤学(专业学位),2014,博士.
[41]刘萍.江西城镇居民生活质量时空变化研究[D].江西财经大学,区域经济学,2013,硕士.
[42]苏彦捷,于晶.执行功能与心理理论关系的元分析:抑制控制和灵活转换的作用[J].心理发展与教育,2015,01:51-61.
[43]赵婷婷.老年人退休前后生活水平变化及其影响因素研究[D].吉林大学,人口学,2014,硕士.
[44]郑超.基于相位一致性的驾驶员疲劳检测算法[D].长春工业大学,信号与信息处理,2013,硕士.
[45]余一平,闵勇,陈磊,张毅威.基于能量函数的强迫功率振荡扰动源定位[J].电力系统自动化,2010,05:1-6.
[46]梁达明.P2P网络资源定位模型研究[D].浙江大学,2006.
[47]万姣.KCNQ1OT1基因多态性与肝细胞肝癌易感性关联研究及初步功能分析[D].苏州大学,法医学,2014,硕士.
[48]梁雪莱.大众文化视角下的《知音》文本研究[D].兰州大学,传播学,2013,硕士.
[49]邓晓爱.奢侈品牌属性的价值分析与营销策略建议[D].首都经济贸易大学,企业管理,2014,硕士.
[50]张亮.基于OLAP技术的业务流程多维数据模型分析[D].北京交通大学,2012.