Python實(shí)現(xiàn)基于PIL和tesseract的驗(yàn)證碼識別功能示例
本文實(shí)例講述了Python實(shí)現(xiàn)基于PIL和tesseract的驗(yàn)證碼識別功能。分享給大家供大家參考,具體如下:
之前搞這個(gè)搞了一段時(shí)間,后面遇到了點(diǎn)小麻煩,導(dǎo)致識別率太低了,最多也就百分之20的樣子。心灰意冷,棄了一段時(shí)間。上次在論壇看到一篇大牛的關(guān)于PIL對圖片各種處理各種算法的博突然又想起了這個(gè),又隨便搞了下,大大提高了識別率啊。先給代碼:
原圖:

im = Image.open("C:\Users\Administrator\Desktop\python\\3.png")
#調(diào)色
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
#把圖片調(diào)成只有黑白兩個(gè)顏色,處理后每個(gè)像素色用8位表示
im = im.convert('1')
im.show() #測試查看
經(jīng)過上面處理后:

現(xiàn)在到了關(guān)鍵的一步,這圖上好多好多小黑點(diǎn),要一個(gè)一個(gè)全部去除我估計(jì)我代碼寫到吐血都寫不出來。但是要去除一部分還是可以的。
xsize, ysize = im.size #長、寬
#對照片里的所有像素點(diǎn):如果像素色不是白色并且右邊的一個(gè)像素點(diǎn)像素色是白色(RGB(255,255,255))或者像素色不是白色并且下方的一個(gè)像素點(diǎn)是白色的,統(tǒng)一變成白色
for i in range(ysize-1):
for j in range(xsize-1):
if (im.getpixel((j, i)) !=255&im.getpixel((j+1,i))==255):
im.putpixel((j,i),255);
if(im.getpixel((j,i)) != 255&im.getpixel((j,i+1))==255):
im.putpixel((j, i), 255);
im.show(); #再看看效果
處理完之后:

之前那些黑色的小點(diǎn)點(diǎn)已經(jīng)去的差不多了,但是這樣也是有代價(jià)的啊- - 把圖片里面的字的一些像素色也去掉了一些,現(xiàn)在拿這張圖片去用tesseract識別的話其實(shí)對于tesseract來說跟之前那張沒有去小黑點(diǎn)的圖片識別難度差不了多少,然后后面又想了個(gè)辦法補(bǔ)救了一下:
#把上面我們變成白色的小黑點(diǎn)給他補(bǔ)一點(diǎn)回來- -
for i in range(ysize - 1):
for j in range(xsize - 1):
if (im.getpixel((j, i))!=255&im.getpixel((j+1,i)) !=255):
im.putpixel((j, i), 0);
if (im.getpixel((j, i))!=255&im.getpixel((j,i+1)) !=255):
im.putpixel((j, i), 0);
im.show(); #再看看效果
處理完之后:

比上面的圖清晰了蠻多。這個(gè)時(shí)候再去對照下剛開始的那種圖的話,對識別程序來說清楚了不止是一點(diǎn)點(diǎn)啊。
不過盡管如此,識別率還是不怎么樣,我估計(jì)也就百分之50左右的識別率,還是太低了,可能是因?yàn)槲胰サ袅艘恍╆P(guān)鍵的像素點(diǎn)的色,因?yàn)槲乙膊恢纓esseract具體的對比庫是怎么樣的,所以估計(jì)我又要棄了。有想過再繼續(xù)對圖片切割旋轉(zhuǎn),甚至還想過找人工智能的朋友給我拿去訓(xùn)練訓(xùn)練,不過那樣還是偏離我本意了,而且我也不是很喜歡搞學(xué)術(shù)的東西。不管怎么樣我這個(gè)感覺還是有點(diǎn)用的,說不定拿去做一下切割識別率大大提高也是有可能的。
最后如果有大牛偶然看到我這篇博的話還望不吝賜教。
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python數(shù)學(xué)運(yùn)算技巧總結(jié)》、《Python圖片操作技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》及《Python入門與進(jìn)階經(jīng)典教程》
希望本文所述對大家Python程序設(shè)計(jì)有所幫助。
- Python識別快遞條形碼及Tesseract-OCR使用詳解
- python利用Tesseract識別驗(yàn)證碼的方法示例
- Python3.6使用tesseract-ocr的正確方法
- python使用Tesseract庫識別驗(yàn)證
- python3.5+tesseract+adb實(shí)現(xiàn)西瓜視頻或頭腦王者輔助答題
- Python+Selenium+PIL+Tesseract自動識別驗(yàn)證碼進(jìn)行一鍵登錄
- python下調(diào)用pytesseract識別某網(wǎng)站驗(yàn)證碼的實(shí)現(xiàn)方法
- python識別文字(基于tesseract)代碼實(shí)例
相關(guān)文章
python的dict,set,list,tuple應(yīng)用詳解
這篇文章主要介紹了python的dict,set,list,tuple應(yīng)用詳解,需要的朋友可以參考下2014-07-07
Python?異之如何同時(shí)運(yùn)行多個(gè)協(xié)程詳解
這篇文章主要為大家介紹了Python?異之如何同時(shí)運(yùn)行多個(gè)協(xié)程詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-03-03
Pandas實(shí)現(xiàn)DataFrame的簡單運(yùn)算、統(tǒng)計(jì)與排序
本文主要介紹了Pandas實(shí)現(xiàn)DataFrame的簡單運(yùn)算、統(tǒng)計(jì)與排序,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2022-03-03
Django結(jié)合使用Scrapy爬取數(shù)據(jù)入庫的方法示例
這篇文章主要介紹了Django結(jié)合使用Scrapy爬取數(shù)據(jù)入庫的方法示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03
Python數(shù)據(jù)類型之列表和元組的方法實(shí)例詳解
這篇文章主要介紹了Python數(shù)據(jù)類型之列表和元組的相關(guān)知識,列表是一組有序項(xiàng)目的集合 ,可變的數(shù)據(jù)類型可 進(jìn)行增刪改查,本文通過實(shí)例文字相結(jié)合的形式給大家介紹的非常詳細(xì) ,需要的朋友可以參考下2019-07-07
python3批量刪除豆瓣分組下的好友的實(shí)現(xiàn)代碼
下面小編就為大家?guī)硪黄猵ython3批量刪除豆瓣分組下的好友的實(shí)現(xiàn)代碼。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2016-06-06

