一种图文混合文本区域划分方法.doc

资料分类:工业大学 上传会员:将大紫 更新时间:2020-11-19
需要金币2000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:12047
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着信息科学的发展,越来越多的信息被数字化。例如我们常看的书籍、报纸等,都出现了电子版。同时,很多的纸质文档需要被数字化,以方便更多人的阅读及传播。所以我们就需要对纸质的文档进行文本分析,以转变成电子文档。如果是纯文字的文档,电子化可能会容易些。但对于一些图文混合的文本,就需要先进行文本区域划分,使文本分析更加容易些。

因此,本文采用了一种基于伽柏滤波器和区域生长的文本区域划分的方法,并通过实验证明了该方法的可行性。该方法是将灰度化后的图片进行二值化处理,再伽柏滤波器进行分析。分析完后使用区域生长法进行分块,将区域分开来。再对分开的区域进行分析,以此得到文本区域划分的效果。该方法在伽柏滤波器参数的选择需要多次手动调节,才能确定出最合适的参数。在用区域生长法进行区域分块的时候,虽然能直接分割出某一区域,但仍需要手动确定这一区域是文字区还是非文字区。所以这种方法更适合一些分块较少的文本,否则需要大量的人工操作。

同时,本文方法也与基于数学形态的文本划分方法进行了比较。比较得出,基于数学形态的文本划分方法在处理上少了很多的复杂运算,但是划分得出的结果也相对模糊写。所以,在进行文本区域划分时,要根据文档样式选择恰当的分析方法。

关键词:图文混合;文本区域划分;伽柏滤波器;区域生长法;数学形态法

 

目录

摘要

Abstract

一、绪论-1

(一)研究背景-1

(二) 文本区域划分基本研究方法-1

1. 基于连通域的文本区域划分-1

2. 版面分割中文本区域最佳结构表示树的生成算法-2

3.基于数学形态的版面划分-3

4.基于分割线提取的版面分割算法-3

(三) 主要研究工作-3

(四) 论文章节安排-3

二、文本区域划分的理论基础-4

(一)图像分割的意义-4

(二) 边缘检测-5

(三) 区域分割-7

1. 峰谷法-7

2. 最优阈值法-8

3. 自适应阈值的选取-9

三、 基于伽柏滤波和区域生长的文本划分-9

(一) 伽柏滤波-9

(二) 基于区域的图像分割——区域生长-11

1. 区域生长的原理-11

2. 区域生长实现的步骤-12

四、基于数学形态的文本划分-12

(一)数学形态学-12

(二)划分步骤-13

六、实验结果及分析-14

(一) 实验过程-14

(二) 实验结果-15

1. 基于伽柏滤波器与区域生长法的文本划分-15

2. 基于数学形态的版面划分-16

3. 分析比较-18

六、结束语-18

(一) 研究总结-18

(二) 研究展望-19

参 考 文 献-20

致 谢-21

附 录-22

相关论文资料:
最新评论
上传会员 将大紫 对本文的描述:对于一般的纯文本,光学字符识别系统可以轻易地识别出来,而对于一些图文混合文本就不能完全识别。因此文本区域划分在将纸质文档转化成电子版本的过程中是必不可少的。然而,......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: