首页

基于语义的Web文本聚类方法研究 11月09日

【摘要】随着信息技术尤其是互联网技术的发展与成熟,人们可获得的信息越来越多。面对如此海量的信息,一方面是人们对快捷、精准且全面获取信息的需求,而另一方面却是大量信息的冗余与无序。作为信息处理研究领域中最迫切的问题,有效地获得、分析、管理信息已越来越受到研究者们的关注。因此,Web文本聚类成为信息检索领域的重要研究方向之一。目前,基于空间向量模型的传统文本聚类方法由于其文本特征向量高维性、稀疏性等自 […]

【论文下载 - 中国知网/万方数据/维普/读秀/超星/国研/龙源/博看等资源库】

中文微博的热点话题发现 05月09日

【摘要】近些年,微博已然成为社会网络一个很重要的的应用,人们通过微博可以在任何地点,任何时间发布自己的所见,所闻,所想。这种较为简易的消息发布方式很大程度上降低了信息发布的壁垒,这也是微博得到广泛应用的重要因素之一。在这些用户发布的微博数据中,多数的微博信息都和现实生活中的事件有所关联。有些微博网站也会在网站主页中列出最近一段时间的热门关键词,但是这些微博主题词通常都很简短、分散,而且与某个话题有 […]

基于MapReduce的分布式聚类算法在社交网络上的应用研究 01月11日

【摘要】在信息爆炸的大数据时代,人们的生活、工作和思维方式逐渐在改变。对于数据分析而言,传统的抽样方法有悖于数据量的增长态势,使用全体数据取代随机抽样成为时代的发展需求。为了实现这个目标,仅仅依赖摩尔定律来提升计算性能是远远不够的,云计算等弹性计算体系架构逐渐受到关注。社交网络作为互联网发展史上的一个重要和成功的应用领域,也是大数据时代的重要数据来源之一。这不论对于社交网络服务提供商自身还是对其商 […]

标记样本规模对半监督文本聚类算法的影响 09月14日

【摘要】近年来,机器学习领域中半监督学习引起了广泛的关注。众所周知,有标记的样本的规模会显著地影响学习的结果。然而,究竟多少样本才完美符合是一个悬而未决的问题。在本文中,我们会尝试在文本聚类领域中揭示这个问题的规律以及最佳解决方案。在两种经典的的聚类算法k-均值和AP聚类的基础上,我们实现了五个改进的半监督文本聚类算法,分别是种子k-均值聚类算法(SeedK-means),约束k-均值聚类算法(C […]

基于Mapreduce的大规模中文短文本聚类算法的设计与实现 07月21日

【摘要】文本聚类是数据挖掘和信息检索领域的一个重要研究方向。如何挖掘网页上的海量文本信息已经成为计算机科学领域所面临的一个巨大挑战。文本聚类技术的出现为海量文本信息的分类管理提供了一条有效的途径。近年来文本聚类在信息检索、多文本自动摘要等互联网领域获得了广泛的应用。云计算的兴起,为分布式并行计算提供了更多的框架,文本挖掘技术的分布式实现也开始被越来越多的研究人员所关注。Hadoop是Apache的 […]

基于聚类分析的网络用户兴趣挖掘方法研究 09月06日

【摘要】网络应用的深入发展使网络信息服务系统的服务模式从集中统一的被动型向分布式个性化的主动型演进。实现这种服务模式转换的一个前提条件是对网络用户需求规律的深入理解,进而依据这些规律指导信息服务系统的信息资源组织与调整,使用户的需求信息与系统提供的尽可能一致。网络用户兴趣作为网络用户信息需求规律的一种形态,是构造新一代信息服务系统中资源组织自适应机制的工作基础。本文围绕用户兴趣模式提取这一目标,以 […]