用OCR软件进行扫描识别文本的技巧

2025-01-17 13:21:00
aiadmin
原创
334

扫描仪的一个紧要效力即是通过OCR软件(即文字识别软件)将扫描后的文字图像转换成文本格局的文献,使文字管束软件或许挪用途理。如此能够大大普及文字录入速率,极大地普及处事效劳。目前,文字识别软件重要有《尚书OCR》、《汉王OCR》和《紫光OCR》等几种。然而,咱们正在举办文字识别时通常会遭遇识别率低的题目,其来源除了被识别稿件有题目外,重要仍是咱们没有驾驭好扫描及OCR识别软件的行使伎俩。那么举办文字识别时有哪些伎俩呢?

举办扫描识别时,正在能够的景况下应尽量抉择了解度与清洁度都很高的识别稿,识别稿的了解度与清洁度的分歧会使扫描后的识别率有很大差异。对大凡的印刷稿、打印稿等质料较好的文稿举办识别,只消驾驭好步骤与伎俩,其识别率大凡可到达98%以上。而对报纸、杂志等了解度不佳的原稿举办识别,无论行使何种识别软件都难以到达很高的识别率。

1.对少许带有下划线、分开线等符号的文根源稿,有些OCR软件是识别不出的,大凡会映现乱码。假使务必扫描带有这些符号的原稿,一是要确保行使的识别软件或许识别这些符号。二是行使东西擦掉这些出格符号,使识别软件能精确识别这些文字。

假使扫描后的文档中含有OCR软件不行识其余图像、图形和少许出格符号,能够商酌行使“擦拭”东西将文档中的图像、图形和少许出格符号擦除,同时将图像上少许杂点也一并去除。使图像中除了文字没有众余的东西,这能够大大普及识别率并删除识别后的窜改处事。

2.正在扫描识别报纸或纸张较薄的文稿时,扫描时稿件反面的文字广泛会透过纸张变成错字或乱码,使识别率大大低重。正在对这类原稿扫描时,咱们能够正在原稿的反面笼盖一张黑纸,正在举办正式扫描时,适宜扩充扫描比拟度或亮度,即可有用普及识别率。

3.看待少许图文混排的原稿,扫描成一幅图像举办全区识别会告急影响OCR软件的识别率。咱们能够按照本质景况将扫描后的版面切分成众个区域后再识别,切分区域的规矩是:将图形、图像摈弃正在区域之外(图1),尽量把文字字体、字号类似的划正在一个区域内,不要嫌这个经过繁杂而选用自愿切分区域,手动采用扫描区域会有更好识别恶果,还应细心各识别区域不行有交叉景况。

1.最先要连结处事境况的洁净,扫描仪的玻璃板以及若干个反光镜片及镜头,个中任何一一面脏污都邑影响扫描文字图像的恶果。于是,连结扫描仪的洁净是确保文字图像扫描质料及识别率较高的紧要条件。

2.扫描仪正在刚开启时,光源的太平性较差,并且光源的色温也没有到达平常处事所需的色温,因此开头扫描以前最好先让扫描仪预热一段时期。

3.正在睡觉扫描原稿时,把扫描的文字质料摆放正在扫描开始线正中,能够最大限定地避免因为光学透镜导致的失线.扫描后的文字图像通常会有必然角度的倾斜,映现这种景况务必正在扫描后行使自愿或手动挽救东西举办更正,OCR软件大凡都设有自愿纠偏和手动纠偏东西。不然OCR识别软件会将水准笔画算作斜笔画管束,识别率会消重良众。假使扫描后的文字图像倾斜角度赶上15°,倾斜校正会发作较大的失真和偏差,从而告急影响识别率,这种景况创议摆正原稿从新扫描。

1.大凡来讲,离别率越高识别率也就会越高。但这也不是绝对的,看待少许过大过粗的字体,修树过高的离别率,识别率能够会低重,并且修树高离别率后,扫描速率会大大低重。按照本质阅历,1、2、3号字的文稿保举行使200dpi,4、小4、5号字的文稿保举行使300dpi,小5、6号字的文稿保举行使400dpi,7、8号字的文稿保举行使600dpi(图2)。

3回顶部2.扫描时适宜地调度好亮度和比拟度值,对识别率的坎坷影响很大,正在举办扫描亮度和比拟度的设守时(图3),以扫描后的图像中文字的笔画较细、匀称,且没有明白断点为准。假使扫描后的文字图像存正在斑点、黑斑或文字线条很粗很黑,分不清笔画,阐发亮度值太小,应当扩充亮度值再从新扫描。假使文字线条高卑不服,有断线乃至图像中汉字轮廓告急残破时,阐发亮度值太大,应减小亮度后再从新扫描。假使要扫描质料对比差的文稿,比方报纸,扫描出的图像能够会映现大方的斑点,并且正在字体的笔画上也会映现粘连征象,为获取较好的识别结果,务必小心举办亮度和比拟度值的调度,重复扫描众次能力获取对比理念的恶果。

文字校恰是OCR识别处事中对比繁杂的一步。大凡OCR软件对能够映现差错的文字,会显示出蓝色标帜,请用户确认。但正在没有提示失足的地方,也有能够失足。因此众人正在校正时应当通读一遍,以普及文字录入的切实率。

假使把识别后的文本纯粹复制粘贴到Word中生存管束,就须要去掉众余的硬回车,如此会格外费事。精确步骤是:先将识别后的文本存盘,正在存盘时修树为软回车就行了。看待《紫光OCR》,则须要正在识别杀青后,抉择文献菜单下的导出敕令,将存储类型选为TXT,段内回车字符选为无。细心:必然不要直接存盘,不然不行自愿去掉作品的硬回车。《尚书OCR》、《汉王OCR》和《紫光OCR》都供给了段内去除硬回车的效力。

苏泊尔电饭煲家用3-4-5-8部分4升电饭锅众效力一体家用蓝钻圆厚釜可做锅巴饭煲仔饭智能煮粥锅预定蒸米饭 不粘厚釜 4L 5-6人可用

绿联(UGREEN)65W氮化镓充电器套装兼容45W苹果16pd众口Type-C疾充头三星华为手机MacbookPro联念条记本电脑配线元

格兰仕(Galanz)电烤箱 家用烤箱 40L大容量 上下独立控温 众层烘培烤箱炉灯众效力 K42 经典黑 40L 玄色

美的(Midea)中药锅煎药壶 智能陶电砂锅炖药锅煲 煎药呆板 摄生熬药壶 大容量分格式全自愿煎药壶 长效预定 【4L容量】JYC4002 4L

美的(Midea)电压力锅 高压锅家用5L双胆鲜汤深胆煮汤锅 智能众效力电饭煲 智能预定焖香饭智能 7段调压 众重口感 50Q3-FS 5L

闲步者(EDIFIER)M25 一格式电脑声音 家用桌面台式机条记本音箱 蓝牙5.3 玄色 新年礼品

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号