一种基于WordNet上下文的词义消歧算法 10月30日
【摘要】在由于万维网中的知识爆炸式增长,并随着万维网快速兴起,万维网上的海量数据都是以自然语言形式存储的,例如:网页微博、各种论坛、空间、贴吧等等存储介质上,所以,关于一些知识获取、挖掘,信息传播,自然语言处理NLP等研究方向迅速火热,但是,由于存储在“介质”上的知识存在歧义性,这样使得自然语言处理的过程就变得复杂、困难,而且机器学习无法判断语言之间的歧义性。于是,词义消歧应运而生了。词义消歧是自 […]
基于Hownet和Verbnet的中文动词性隐喻识别 02月11日
【摘要】隐喻是语言和思维的中心问题,是人类语言中普遍存在的现象。现今,隐喻的机器识别问题已经成为自然语言领域研究的热门课题。目前,汉语隐喻识别的研究大部分都集中在对名词的识别上,然而,相对于其它类型的隐喻,动词性隐喻在实际文本中出现的频率最高,更应该受到中文隐喻的研究者们的重视。本文的研究目的,是把中文动词性隐喻识别问题转化为英文的隐喻识别问题,利用完善的英文动词知识库Verbnet,去更好的进行 […]
基于相似性的汉语隐喻映射研究 10月08日
【摘要】隐喻是通过将具体的、熟悉的、简单的概念映射到抽象的、不熟悉的、复杂的概念来认识抽新概念。隐喻是从一个特定的域向一个抽象的域映射的结果。隐喻有助于我们了解语言的自然面貌和人类普遍的思维方式。隐喻过程即是从本体向喻体的映射,在认知语言学上称映射域。“我们把隐喻映射理解为一组约束条件,这组约束条件约定哪些知识有资格进行映射。这些约束条件不仅有助于避免将任何一种特征进行映射,也有助于刺激可能存在的 […]
基于小型搜索引擎的中文问答系统的设计与实现 08月10日
【摘要】如今在互联网上获得各种信息已经是一件与生活息息相关的事情,然而用户经常会用到的传统搜索引擎有很多缺点,例如搜索引擎的基于关键字查询,并不能够很好地表明用户的查询意图,而且返回的查询结果是一大堆相关网页,包含很多无用的信息,用户很难快速、准确地找到自己所需要的信息。问答系统正是为了克服搜索引擎这些缺点而产生,它允许用户使用自然语言的形式进行提问,返回给用户的结果是简短、精确的答案,而不是大量 […]
基于意象图式的语义理解模型研究 07月21日
【摘要】在自然语言处理领域,语义的表示方法一直是研究的重点和难点。语义表示的研究对于自然语言处理中的许多应用领域具有重要的意义,包括信息检索、机器学习、文本生成和自动问答等。当前,语义形式化存在种种困难,包括:推理的深度不能预测,形式化时定义原子命题的底线困难,概念化造成语义粒度趋于固定等。许多语言问题的出现和解决都涉及整个言语机制的内在特性,对语义的表示方法的探讨应该超过经典语言学、计算语言学的 […]
面向主题的关键词抽取方法研究 11月21日
【摘要】关键词是人们获取信息的快捷方式,在信息检索和自然语言处理等领域均有重要的理论价值和应用价值。现有的关键词抽取方法大都依靠词汇的统计信息进行抽取,忽略了话题的影响;而且它们仅仅专注于关键词个体的优化,而忽略了关键词的整体质量。本文针对如何对文档主题建模,并通过文档主题优化关键词的整体质量进行了以下工作:基于整数线性规划的关键词抽取;基于排序学习的摘要关键词抽取;基于话题翻译模型的微博关键词抽 […]
英文篇章结构分析关键问题研究 06月15日
【摘要】近三年来,篇章结构分析(DiscourseStructureAnalysis,简称DSA)受到了计算语言学界的广泛关注(据统计,每届ACL、COLING和EMNLP会议上均发表8篇以上篇章结构分析方面的论文,而这方向的投稿文章则达30篇以上)。篇章结构分析研究成为了继传统信息抽取/信息检索、机器翻译和句法/语义分析领域之后的又一个研究热点。DSA旨在研究自然语言文本的内在结构,通过对文本单 […]