面向非纯文本文档图像的检索技术研究与实现
【摘要】随着电子信息化进程的加快和互联网的快速发展,图像资源正海量的增长。越来越多的文档以图像的形式进行存储。文档图像中除了纯文本文档图像和纯表格文档图像外还有很多在文本中包含表格或图像的文档。如何对这些非纯文本内容的文档图像进行检索值得进行深入的研究。针对纯文本文档的检索技术主要提取与文本或字符有关的特征,这些特征对于文本中有表格或图像的文档图像则不适用。针对表格提取的特征同样不适用于文档中的文本部分。对于文本占主体同时包含表格或图像的文档图像,充分利用文本部分和非文本部分的特征,并且把两部分的特征很好的结合起来才能有效的表达图像。本文提出综合文档版面分析、全局特征以及局部特征的方法对文本图像进行特征提取和检索。在特征提取前首先对文档图像进行预处理。由于种种原因,文档以图像存储时可能会产生噪声或发生倾斜,这些干扰将影响到文档图像的特征提取,因此对文档图像进行预处理很有必要。本文通过对文档图像预处理的研究,对文档图像进行二值化、去噪、倾斜校正操作,使得文档图像便于特征提取。在特征提取时,分析文档的版面特征,把文档分为纯文本文档、包含表格的文档和包含图像的文档。针对纯文本文档和非纯文本文档中的文本部分,提取全局段落特征和局部像素特征;针对非纯文本文档中的表格部分,提取其相对空间位置特征和表格单元格框架特征;针对图像部分提取其空间位置特征和投影直方图特征。然后将所提取到的特征相结合作为文档图像的综合特征,以此作为对文档图像检索的依据。检索前,把图像库中文档图像的特征按文档类型的不同存到相应的特征库中。在检索时,根据文档的类型,把提取的文档图像特征与特征库中相应类型的特征进行匹配,根据特征向量之间距离的大小检索出最相似的图像。实验时分别对纯文本文档、包含表格的文档和包含图像的文档三种类型的文档进行检索,通过与针对文本文档的检索方法和针对表格文档的检索方法进行对比,实验结果表明:通过对文档进行版面分析并把文档分成不同的类型,然后针对每一种类型分别提取全局和局部特征,最后对提取的特征进行综合的方法对非纯文本文档的检索有较高的正确率。
【作者】郭加旋;
【导师】余建桥;
【作者基本信息】西南大学,计算机应用技术,2014,硕士
【关键词】文档图像检索;图像预处理;版面分析;特征提取;
【参考文献】
[1]李新.城镇化背景下中心镇公共产品供给问题及对策研究[D].安徽大学,行政管理,2013,硕士.
[2]于静.田纳西·威廉斯剧作中的浪漫主义色彩[D].河北师范大学,英语语言文学,2013,硕士.
[3]陈安亮,徐曦,韩铁成.HPC及其在桥梁中的应用优势[J].混凝土世界,2015,03:80-83.
[4]王穆棱,孙纯洲,张学增.大连钢厂精密合金热带生产线主轧区自动控制系统[J].冶金自动化,1996,05:19-21.
[5]姜玉泉,丁国勇,施永香.XBRL对审计的影响及其对策[J].审计与经济研究,2004,04:30-32.
[6]刘春青.基于能力目标的数字化资源共建共享课程设计的研究[D].广东技术师范学院,职业技术教育学,2014,硕士.
[7]黄伟芳.我国中小企业集合债券融资效率研究[D].中北大学,技术经济及管理,2013,硕士.
[8]薛丽霞.施工企业集成信息系统[J].建筑,2004,02:58-60.
[9]刘计龙,肖飞,陈伟,范学鑫,王瑞田.分布式控制同步误差对H桥并联拓扑结构均流特性影响分析[J].电力系统自动化,2015,04:123-128.
[10]林赫.奥巴马与罗姆尼总统辩论中模糊限制语的顺应性研究[D].吉林大学,外国语言学及应用语言学,2013,硕士.
[11]厉小润,赵光宙,赵辽英.决策树支持向量机多分类器设计的向量投影法[J].控制与决策,2008,07:745-750.
[12]郑宏.吉林省高速公路隧道运营安全保障技术研究[D].吉林大学,交通运输工程,2012,硕士.
[13]庄宇飞,马广富,黄海滨.欠驱动刚性航天器时间最优轨迹规划设计[J].控制与决策,2010,10:1469-1473.
[14]胡婷婷.我国税收征管的法律问题研究[D].贵州民族大学,经济法学,2014,硕士.
[15]关亚楠.己内酰胺—四丁基卤化铵离子液体水溶液吸收SO_2研究[D].河北科技大学,环境工程,2013,硕士.
[16]梁世桢.去势大鼠BMSCs增殖分化功能与骨组织微结构变化的相关研究[D].辽宁医学院,口腔临床医学,2012,硕士.
[17]张倩.信阳市皮影戏翻译实践报告[D].信阳师范学院,英语笔译,2014,硕士.
[18]任路伟.全日制教育硕士课程质量问题研究[D].河北大学,高等教育学,2014,硕士.
[19]蔺云宏.西安地铁二号线施工沉降对城墙影响研究[D].西安科技大学,建筑与土木工程,2013,硕士.
[20]史哲文.论方东树的唐诗观[D].华侨大学,中国语言文学,2014,硕士.
[21]王婷.企业知识产权质押融资若干问题研究[D].新疆师范大学,民商法学,2013,硕士.
[22]叶啸飞.卷边薄壁H型钢单向受弯构件的性能研究[D].山东建筑大学,建筑与土木工程(专业学位),2013,硕士.
[23]李静.文科生关于三角函数理解的研究[D].河北师范大学,学科教学,2014,硕士.
[24]李乃永,梁军,赵义术,刘益青.考虑分布式电源随机性的配电网保护方案[J].电力系统自动化,2011,19:33-38.
[25]杨天梅.王西麟交响组曲《云南音诗》创作技法研究[D].云南艺术学院,音乐学,2013,硕士.
[26]张月.汉韩否定词对比及韩国学生使用汉语否定副词的偏误分析[D].苏州大学,汉语国际教育(专业学位),2013,硕士.
[27]姚鹏.保险人对船舶污染海事请求抗辩的法律研究[D].大连海事大学,国际法学,2004,硕士.
[28]张泽欣.上市公司年报财务重述的短期市场反应研究[D].河北经贸大学,会计学,2012,硕士.
[29]赵宏展,徐向东.承包商管理——职业安全健康管理中的重要环节[J].中国安全科学学报.2005(06)
[30]彭金燕.网络就医情境下的医疗知识转移影响因素研究[D].浙江大学,企业管理,2012,硕士.
[31]丁合林.元杂剧历史剧浅论[D].首都师范大学,中国古代文学,2004,硕士.
[32]王知明.基于SyncML的移动数据同步过程的研究与优化[D].湖南大学,计算机应用技术,2010,硕士.
[33]甘婧.全球化背景下石油企业思想政治工作创新研究[D].东北石油大学,思想政治教育,2013,硕士.
[34]易文彪.一指禅推法促进前交叉韧带重建后早期功能康复的研究[D].福建中医药大学,中医骨伤科学(专业学位),2014,硕士.
[35]胡婷婷.基于住院患者角度的某医院品牌接触点研究[D].山西医科大学,护理学,2013,硕士.
[36]贾晓亮.聚类分析在我国矿业管理中的应用研究[D].内蒙古科技大学,企业管理,2013,硕士.
[37]周利展.纳米硅溶胶的表面修饰及其对丝织物增深性能的研究[D].浙江理工大学,纺织化学与染整工程,2014,硕士.
[38]陈张建.波浪补偿执行器设计研究[D].大连海事大学,轮机工程,2013,硕士.
[39]彭林.C_4神经根转位C_6后相应脊髓节段中ChAT变化的实验研究[D].辽宁医学院,外科学,2012,硕士.
[40]李文秀.论《蝇王》的后现代叙事策略[D].四川外国语大学,英语语言文学,2013,硕士.
[41]高文鸣.第30届奥运会羽毛球男子单打前四名运动员技战术运用研究[D].华东师范大学,体育教育训练学,2013,硕士.
[42]鲁荣辉.基于流程的应急预案有效性评估研究[D].大连理工大学,管理科学与工程,2013,硕士.
[43]李佳.长江河口潮区界和潮流界及其对重大工程的响应[D].华东师范大学,自然地理学,2004,硕士.
[44]梅丽珍.人力资源循证决策对人力资源管理效能影响机制研究[D].浙江大学,2014.
[45]李娟.论福柯写作中的文学经验[D].海南大学,文艺学,2014,硕士.
[46]秦彦波.数据通信网控中心设计技术研究[J].现代电信科技.1994(10)
[47]李凌云.都市休闲文化语境下农家乐的审美特征分析[D].西南大学,美学,2014,硕士.
[48]张海红.现代远程教育信息系统的研究与设计[D].浙江工业大学,2007.
[49]姚修远,金新民,吴学智,吴跃林,杜宇鹏.一种TNPC三电平逆变器的零电流软开关技术[J].北京交通大学学报,2015,02:55-61+68.
[50]金蕾.我国专利侵权诉讼与专利无效审理模式问题研究[D].南京大学,法律(专业学位),2013,硕士.
- 下一篇: 矿工思想政治工作人文关怀研究
- 上一篇: Q变形李代数在物理中的应用
相关推荐
- 辽宁华威生物质发电项目风险管理问题研究
- 03月20日
- 真人CS纳入宁夏高校体育选项课的开发研究
- 09月15日
- 无锡市职业技能公共实训平台建设与管理机制研究
- 06月27日
- 商周青铜簋整理与研究
- 06月01日