python opencv將表格圖片按照表格框線分割和識別
更新時間:2019年10月30日 09:32:32 作者:HelloWorld!
這篇文章主要介紹了python opencv將表格圖片按照表格框線分割和識別,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
如下小程序為使用python+opencv將表格圖片,按照表格進行分割,并識別分割后的子圖片中的文字,希望對需要的小伙伴有一些些幫助。具體的實現(xiàn)見如下代碼。
# -*- coding: utf-8 -*-
"""
Created on Tue May 28 19:23:19 2019
將圖片按照表格框線交叉點分割成子圖片(傳入圖片路徑)
@author: hx
"""
import cv2
import numpy as np
import pytesseract
image = cv2.imread('C:/Users/Administrator/Desktop/7.jpg', 1)
#灰度圖片
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
#二值化
binary = cv2.adaptiveThreshold(~gray, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 35, -5)
#ret,binary = cv2.threshold(~gray, 127, 255, cv2.THRESH_BINARY)
cv2.imshow("二值化圖片:", binary) #展示圖片
cv2.waitKey(0)
rows,cols=binary.shape
scale = 40
#識別橫線
kernel = cv2.getStructuringElement(cv2.MORPH_RECT,(cols//scale,1))
eroded = cv2.erode(binary,kernel,iterations = 1)
#cv2.imshow("Eroded Image",eroded)
dilatedcol = cv2.dilate(eroded,kernel,iterations = 1)
cv2.imshow("表格橫線展示:",dilatedcol)
cv2.waitKey(0)
#識別豎線
scale = 20
kernel = cv2.getStructuringElement(cv2.MORPH_RECT,(1,rows//scale))
eroded = cv2.erode(binary,kernel,iterations = 1)
dilatedrow = cv2.dilate(eroded,kernel,iterations = 1)
cv2.imshow("表格豎線展示:",dilatedrow)
cv2.waitKey(0)
#標識交點
bitwiseAnd = cv2.bitwise_and(dilatedcol,dilatedrow)
cv2.imshow("表格交點展示:",bitwiseAnd)
cv2.waitKey(0)
# cv2.imwrite("my.png",bitwiseAnd) #將二值像素點生成圖片保存
#標識表格
merge = cv2.add(dilatedcol,dilatedrow)
cv2.imshow("表格整體展示:",merge)
cv2.waitKey(0)
#兩張圖片進行減法運算,去掉表格框線
merge2 = cv2.subtract(binary,merge)
cv2.imshow("圖片去掉表格框線展示:",merge2)
cv2.waitKey(0)
#識別黑白圖中的白色交叉點,將橫縱坐標取出
ys,xs = np.where(bitwiseAnd>0)
mylisty=[] #縱坐標
mylistx=[] #橫坐標
#通過排序,獲取跳變的x和y的值,說明是交點,否則交點會有好多像素值值相近,我只取相近值的最后一點
#這個10的跳變不是固定的,根據(jù)不同的圖片會有微調(diào),基本上為單元格表格的高度(y坐標跳變)和長度(x坐標跳變)
i = 0
myxs=np.sort(xs)
for i in range(len(myxs)-1):
if(myxs[i+1]-myxs[i]>10):
mylistx.append(myxs[i])
i=i+1
mylistx.append(myxs[i]) #要將最后一個點加入
i = 0
myys=np.sort(ys)
#print(np.sort(ys))
for i in range(len(myys)-1):
if(myys[i+1]-myys[i]>10):
mylisty.append(myys[i])
i=i+1
mylisty.append(myys[i]) #要將最后一個點加入
print('mylisty',mylisty)
print('mylistx',mylistx)
#循環(huán)y坐標,x坐標分割表格
for i in range(len(mylisty)-1):
for j in range(len(mylistx)-1):
#在分割時,第一個參數(shù)為y坐標,第二個參數(shù)為x坐標
ROI = image[mylisty[i]+3:mylisty[i+1]-3,mylistx[j]:mylistx[j+1]-3] #減去3的原因是由于我縮小ROI范圍
cv2.imshow("分割后子圖片展示:",ROI)
cv2.waitKey(0)
#special_char_list = '`~!@#$%^&*()-_=+[]{}|\\;:‘',。《》/?ˇ'
pytesseract.pytesseract.tesseract_cmd = 'E:/Tesseract-OCR/tesseract.exe'
text1 = pytesseract.image_to_string(ROI) #讀取文字,此為默認英文
#text2 = ''.join([char for char in text2 if char not in special_char_list])
print('識別分割子圖片信息為:'+text1)
j=j+1
i=i+1
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python常見加密模塊用法分析【MD5,sha,crypt模塊】
這篇文章主要介紹了Python常見加密模塊用法,結(jié)合實例形式較為詳細的分析了MD5,sha與crypt模塊加密的相關(guān)實現(xiàn)方法與操作技巧,需要的朋友可以參考下2017-05-05
win10安裝tensorflow-gpu1.8.0詳細完整步驟
這篇文章主要介紹了win10安裝tensorflow-gpu1.8.0詳細完整步驟,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-01-01
Python實現(xiàn)代碼統(tǒng)計工具(終極篇)
這篇文章主要介紹了Python實現(xiàn)代碼統(tǒng)計工具的相關(guān)資料,供大家參考,感興趣的小伙伴們可以參考一下2016-07-07
python學習基礎之循環(huán)import及import過程
python中的import語句是用來導入模塊的,下面這篇文章主要給大家介紹了關(guān)于python學習基礎之循環(huán)import及import過程的相關(guān)資料,需要的朋友可以參考借鑒,下面隨著小編來一起學習學習吧。2018-04-04
穩(wěn)扎穩(wěn)打?qū)WPython之容器 可迭代對象 迭代器 生成器專題講解
在剛開始學Python的時候,是不是經(jīng)常會聽到大佬們在講容器、可迭代對象、迭代器、生成器、列表/集合/字典推導式等等眾多概念,其實這不是大佬們沒事就擱那扯專業(yè)術(shù)語來裝B,而是這些東西都得要明白的,光知道字符串、列表等基礎還是不夠的,尤其是在Python的數(shù)據(jù)結(jié)構(gòu)方面2021-10-10

