学院首页 软件应用 编程开发 创意设计 认证培训 软件论坛
操作系统 杀毒防黑 聊天软件 网络软件 应用软件 

您的位置:学院 >> 软件应用 >> 应用软件 >> 用OCR软件进行扫描识别文本的小技巧


用OCR软件进行扫描识别文本的小技巧


    扫描仪的一个重要功能就是通过OCR软件(即文字识别软件)将扫描后的文字图像转换成文本格式的文件,使文字处理软件能够调用处理。这样可以大大提高文字录入速度,极大地提高工作效率。目前,文字识别软件主要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。

    不过,我们在进行文字识别时经常会遇到识别率低的问题,其原因除了被识别稿件有问题外,主要还是我们没有掌握好扫描及OCR识别软件的使用技巧。那么进行文字识别时有哪些技巧呢?

    一、根据识别稿的质量进行处理

    进行扫描识别时,在可能的情况下应尽量选择清晰度与洁净度都很高的识别稿,识别稿的清晰度与洁净度的不同会使扫描后的识别率有很大差距。对一般的印刷稿、打印稿等质量较好的文稿进行识别,只要掌握好方法与技巧,其识别率一般可达到98%以上。而对报纸、杂志等清晰度不佳的原稿进行识别,无论使用何种识别软件都难以达到很高的识别率。

    1.对一些带有下划线、分隔线等符号的文本原稿,有些OCR软件是识别不出的,一般会出现乱码。如果必须扫描带有这些符号的原稿,一是要确保使用的识别软件能够识别这些符号。二是使用工具擦掉这些特殊符号,使识别软件能正确识别这些文字。

    如果扫描后的文档中含有OCR软件不能识别的图像、图形和一些特殊符号,可以考虑使用“擦拭”工具将文档中的图像、图形和一些特殊符号擦除,同时将图像上一些杂点也一并去除。使图像中除了文字没有多余的东西,这可以大大提高识别率并减少识别后的修改工作。

    2.在扫描识别报纸或纸张较薄的文稿时,扫描时稿件背面的文字通常会透过纸张造成错字或乱码,使识别率大大降低。在对这类原稿扫描时,我们可以在原稿的背面覆盖一张黑纸,在进行正式扫描时,适当增加扫描对比度或亮度,即可有效提高识别率。

    3.对于一些图文混排的原稿,扫描成一幅图像进行全区识别会严重影响OCR软件的识别率。我们可以根据实际情况将扫描后的版面切分成多个区域后再识别,切分区域的原则是:将图形、图像排除在区域之外(图1),尽量把文字字体、字号一致的划在一个区域内,不要嫌这个过程烦琐而选用自动切分区域,手动选取扫描区域会有更好识别效果,还应注意各识别区域不能有交叉情况。


用OCR软件进行扫描识别文本的小技巧
图1 版面切分

    二、扫描识别稿的操作技巧

    1.首先要保持工作环境的清洁,扫描仪的玻璃板以及若干个反光镜片及镜头,其中任何一部分脏污都会影响扫描文字图像的效果。因此,保持扫描仪的清洁是确保文字图像扫描质量及识别率较高的重要前提。

    2.扫描仪在刚开启时,光源的稳定性较差,而且光源的色温也没有达到正常工作所需的色温,所以开始扫描以前最好先让扫描仪预热一段时间。

    3.在放置扫描原稿时,把扫描的文字材料摆放在扫描起始线正中,可以最大限度地避免由于光学透镜导致的失真而影响识别率。

    4.扫描后的文字图像经常会有一定角度的倾斜,出现这种情况必须在扫描后使用自动或手动旋转工具进行纠正,OCR软件一般都设有自动纠偏和手动纠偏工具。否则OCR识别软件会将水平笔画当作斜笔画处理,识别率会下降很多。如果扫描后的文字图像倾斜角度超过15°,倾斜校正会产生较大的失真和误差,从而严重影响识别率,这种情况建议摆正原稿重新扫描。

    三、扫描参数的设置

    扫描参数的设置主要包括分辨率的设置及亮度和对比度的设置。

    1.一般来讲,分辨率越高识别率也就会越高。但这也不是绝对的,对于一些过大过粗的字体,设置过高的分辨率,识别率可能会降低,而且设置高分辨率后,扫描速度会大大降低。根据实际经验,1、2、3号字的文稿推荐使用200dpi,4、小4、5号字的文稿推荐使用300dpi,小5、6号字的文稿推荐使用400dpi,7、8号字的文稿推荐使用600dpi(图2)。

用OCR软件进行扫描识别文本的小技巧
图2 选择分辨率

    2.扫描时适当地调整好亮度和对比度值,对识别率的高低影响很大,在进行扫描亮度和对比度的设定时(图3),以扫描后的图像中文字的笔画较细、均匀,且没有明显断点为准。如果扫描后的文字图像存在黑点、黑斑或文字线条很粗很黑,分不清笔画,说明亮度值太小,应该增加亮度值再重新扫描。如果文字线条凹凸不平,有断线甚至图像中汉字轮廓严重残缺时,说明亮度值太大,应减小亮度后再重新扫描。如果要扫描质量比较差的文稿,比如报纸,扫描出的图像可能会出现大量的黑点,而且在字体的笔画上也会出现粘连现象,为获得较好的识别结果,必须仔细进行亮度和对比度值的调整,反复扫描多次才能获得比较理想的效果。

用OCR软件进行扫描识别文本的小技巧
图3 扫描亮度和对比度的设定

    四、识别后的处理工作

    1.文字校正

    文字校正是OCR识别工作中比较烦琐的一步。一般OCR软件对可能出现错误的文字,会显示出蓝色标记,请用户确认。但在没有提示出错的地方,也有可能出错。所以大家在校对时应该通读一遍,以提高文字录入的准确率。

    2.识别后文本的保存

    如果把识别后的文本简单复制粘贴到Word中保存处理,就需要去掉多余的硬回车,这样会非常麻烦。正确方法是:先将识别后的文本存盘,在存盘时设置为软回车就行了。对于《紫光OCR》,则需要在识别完成后,选择文件菜单下的导出命令,将存储类型选为TXT,段内回车字符选为无。注意:一定不要直接存盘,否则不能自动去掉文章的硬回车。《尚书OCR》、《汉王OCR》和《紫光OCR》都提供了段内去除硬回车的功能。

技术文章快速查找

栏目导航
软件应用
·操作系统 ·杀毒防黑 ·应用软件
·聊天软件 ·网络软件  
Web开发
·ASP ·JavaScript ·CGI
·JSP ·VbScript ·Web服务器
·PHP ·XML  
开发语言
·VB ·VC ·ASP.NET
·Java ·C/C++ ·Delphi
数据库开发
·MySQL ·SQL/Access ·PowerBuilder
·Oracle ·DB2  
网站设计
·Flash ·Dreamweaver ·HTML/CSS
·Fireworks ·FrontPage  
平面设计
·Photoshop ·CorelDraw ·AutoCAD
·FreeHand ·Illustrator ·3DsMAX
媒体动画
·Director ·Authorware ·Maya
·视频处理    


相关软件 产品库推荐
·笔记本 ·台式机 ·服务器
·数码相机 ·手机 ·GPS
·DV摄像机 ·MP3 ·MP4
·CPU ·硬盘 ·内存
·主板 ·显卡 ·显示器
·打印机 ·投影机 ·路由器

还没人留言,抢个先,哈哈!
对"用OCR软件进行扫描识别文本的小技巧"的评论 - 快速回贴
内容:
  [完成后可按Ctrl+Enter发布]

百度中 用OCR软件进行扫描识别文本的小技巧 相关内容
Google搜索中 用OCR软件进行扫描识别文本的小技巧 相关内容
雅虎中 用OCR软件进行扫描识别文本的小技巧 相关内容
Sogou搜索中 用OCR软件进行扫描识别文本的小技巧 相关内容

相关软件 最新回复帖子:

·没有mysql支持时的替代方案
·一个可以发送附件及HTML格式邮件的PHP类
·AutoCAD打造精致三维鸟笼实例详解
·Photoshop自定义水晶字特效样式
·AutoCAD三维基础实例教程
·PS为黑背景长发美女照片抠图换背
·用Photoshop自制个性摩托车贴花小经验
·轻松几步将美女照片处理为手工素描
·巧用Photoshop画笔轻松绘制创意特效
·用Photoshop通道将模糊肖像照片清晰化


  相关软件 用OCR软件进行扫描识别文本的小技巧相关文章
突破ADSL限制 通过路由多机共享上网 教你去除视频中自动弹出网页的好方法
教你排查无线局域网络故障方法和技巧 Windows优化大师出新版 突破发展思路
Windows优化大师出马 历史痕迹尽消失 教你简单两步彻底根除系统多余输入法
系统减肥 教你完全卸载智能ABC输入法 Discuz!6.0功能详解——多种搜索方式
掌中影音伴侣 视频剪切功能小窍门介绍 实战Windows优化大师 让木马无处藏身
四种宽带接入方式及其传输速率大比拼 在Windows Live Spaces中添加音乐视频
教你在新浪Blog显示来访者的IP及位置 教你精简Flash文件体积的几个小技巧
一键隐藏全部窗口 对抗老板的好工具 手机QQ在诺基亚主流机型中的配置方法
国庆节装机防骗 用优化大师攒机买电脑 让打字更快!搜狗拼音输入法八大妙用
就是不让你看 把隐私写进加密的记事本 亡羊补牢 利用Thumbs.db神奇恢复照片