中文文本挖掘基本理论与应用 08月06日
【摘要】文本挖掘的应用前景十分广泛,中文文本较西方语言文本有其独特性,本文研究的对象是中文文本。此文首先对文本挖掘的背景和发展简要综述,并介绍中文文本挖掘的概念和流程,其中重点介绍了特征的提取、降维及分类算法。介绍了R中文本挖掘相关的包,以及CHQ’S文本多分类系统,并应用此系统对文档进行分类。本文重点是借助被广泛应用的开源工具构建自己的中文文本挖掘系统。根据中文文本挖掘的流程,详细的描述了自己对 […]
中文短文本分类技术的研究与实现 07月26日
【摘要】文本分类是文本挖掘领域的一门重要学科,是指在已知的分类体系中,根据已知文本内容自动确定未知文本类别的过程,文本分类在一定程度上帮助用户处理获得的杂乱信息,有助于用户根据自己的倾向有选择地阅读海量的文本。目前多数情况下,文本分类大多是对于长文本进行分类,所处理的文本包含比较多的信息。然而,随着互联网的飞速发展,越来越多的短文本出现在生活中,由于短文本包含的信息量有限,传统的处理长文本的分类方 […]
基于学术社会网络特征的专家搜索算法 10月05日
【摘要】目前,学术的发展日新月异,学术活动和交流也日益频繁,文献的数量急剧膨胀,在大量的文献和学者数据等异构的学术数据中高效准确地搜索到用户所需要的学术专家信息来用于学术的研究,这是一个新的课题,专家搜索也正是基于此提出的,并且学术专家搜索也渐渐地成为了研究者所关注的一个新热点。现有常用的专家搜索是依赖于文本的文献检索,这种检索方法通过用户输入查询词搜索相关的文献。一般无法直接判断文献的作者是否为 […]
基于垂直搜索引擎的文本挖掘系统研究与实现 05月24日
【摘要】通用搜索引擎能够为人们提供针对海量信息的检索服务,搜索结果“广而全”,但是对于特定领域的搜索,通用搜索引擎往往不能满足人们“精而深”的检索需求。于是出现了越来越多的针对各个领域的垂直搜索引擎,满足人们对于特定领域的信息检索需求。而随着互联网技术的不断发展和普及,网络上的文本信息资源急剧增长,如何对这些网页中的信息进行文本挖掘就显得尤为重要。因此,针对特定领域的文本进行挖掘及相关的分析处理具 […]
面向证券应用的WEB主题观点挖掘若干关键问题研究 11月20日
【摘要】受有效市场假说的影响,证券行业不断重视对互联网文本数据的研究。但随着互联网技术的发展,尤其是近年来涌现出各种社交网络平台,互联网上的文本数据发生很大变化,开始出现大量带有感情色彩的主观性信息。这些主观性信息的内容涉及社会生活中的各种热点话题,因此在证券行业拥有巨大的应用空间。然而,主观性信息在文本中的表现形式与客观性信息不同,一般比客观性信息更加复杂,因此利用传统的文本挖掘方法已经无法解决 […]
文本数据的生物信息学模型及在前列腺癌中的应用研究 06月18日
【摘要】大量的生物文本为生物医学研究提供了丰富的资源。但由于文本数量巨大,无法通过人工处理来获取信息。文本挖掘能从现有的文献中自动地挖掘感兴趣的信息。借助于文本挖掘,可以从文献数据库检索需要的生物医学文本;这些非结构化的文本包含了大量的研究成果和实验数据,文本挖掘可以找出其中蕴含的重要信息和知识;在所发现的信息的基础上,研究人员可以进一步生成假设、进行推断和预测、指导实验和更深入的研究。癌症已经成 […]
人类肝脏疾病本体的构建及其应用 06月05日
【摘要】本体是对特定领域知识概念化的明确而规范的说明,是描述该领域的概念以及概念间关系等知识的标准化术语系统,也被称为领域本体。在本体中,概念和概念之间的关系被逐一确立,并被赋予明确唯一的定义。本体的使用者运用这些规范化的概念和关系来描述该领域的相关事物和知识,减少了对相同涵义信息的表达异质性,从而实现信息的标准化描述,因此有利于各领域知识和信息在数据库及互联网中的存储与传播,加强了人机之间的理解 […]