需要金币:2000 个金币 | 资料包括:完整论文 | ||
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:10523 | ||
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:文档图像的文种识别就是对采集到的图像样本进行分析处理,从而自动识别图像样本所属的文种类别。文种识别技术在许多领域发挥着重要的作用。大连市作为海岸城市,与周边地区贸易往来密切,同时我国沿海地区情况与大连相似,因此识别中文、蒙语、韩语、日语、英语这5种语言具有重要的研究意义和实用价值。 本文利用HOG特征提取方法对采集样本进行处理,再利用支持向量机(SVM)对采集样本进行识别。研究内容如下: (1)五种语言文档图像库。通过网络和截图工具采集格式为JPG的图片样本,每种100个,并分类存储。 (2)HOG特征提取。针对样本特点,采用HOG特征提取方法,将采集样本的特征向量提取出来。 (3)构建分类器。由于采用了HOG特征提取方法,鉴于HOG与支持向量机相结合的应用广泛且实用性强,因此分类器决定采用支持向量机对提取的特征进行分类。 在本次课题采集的图像库中随机抽取一副图片,直接识别出该图片中文字所属类别,准确率为84.2%,说明本次课题采用HOG和SVM结合的方法是可行的且具有较高精度。
关键词:文种识别;HOG特征;支持向量机
目录 摘要 Abstract 1 绪论-1 1.1 课题背景与研究意义-1 1.2 国内外研究历史及现状-2 1.3 课题研究内容-3 1.4 课题研究目标-3 1.5 文章结构-3 2 课题相关软件介绍-5 2.1 Matlab软件-5 2.1.1 Matlab基本简介-5 2.1.2 Matlab的工作环境-6 2.1.3 Matlab的优势特点-6 2.1.3 Matlab的系统结构-6 2.1.4 Matlab图像处理工具箱简介-7 2.2 VisualStudio软件-8 2.2.1 VisualStudio简介-8 2.2.2 VisualStudio环境搭建-8 3 课题算法-9 3.1五种语言文档图像库-10 3.2 HOG特征提取方法-10 3.3 支持向量机分类器-13 4 课题仿真实验-14 结 论-20 参 考 文 献-21 致 谢-22 |