基于Python快速處理PDF表格數(shù)據(jù)
我們有下面一張PDF格式存儲的表格,現(xiàn)在需要使用Python將它提取出來。

使用Python提取表格數(shù)據(jù)需要使用pdfplumber模塊,打開CMD,安裝代碼如下:
pip install pdfplumber
安裝完之后,將需要使用的模塊導入
import pdfplumberimport pandas as pd
然后打開PDF文件
# 使用with語句打開pdf文件
with pdfplumber.open("D:\\python\\cai\\yq.pdf") as pdf:
# pages[0]表示取第1頁
page = pdf.pages[0]
我們來打印輸出下獲取到的文本,這句語句只是幫我們驗證下是否成功獲取到PDF里的內容
print(page.extract_text())
執(zhí)行的結果如下,看來是成功了

然后可以使用extract_table()函數(shù)獲取表格,如果有多個表格,可以使用extract_tables()函數(shù),就是多了個s
d1=page.extract_table()
執(zhí)行代碼后,將得到一個列表,還不是數(shù)據(jù)框

所以最后一步就是將列表轉為數(shù)據(jù)框就可以了,代碼如下:
df = pd.DataFrame(d1[1:], columns=d1[0])
執(zhí)行代碼后,將得到了df數(shù)據(jù)框

有幾個注意事項要提醒下:
1.pdf表格中的數(shù)據(jù),對于同一個數(shù)據(jù)或內容,不要有換行,如果換行,可能被識別為2個數(shù)據(jù);
2.pdf中的表格一定要有邊框,沒有邊框的話,否則使用extract_table()函數(shù)就無法獲取表格數(shù)據(jù),extract_text()還是可以獲取文本信息的,不要問我是怎么知道的,說多了都是淚。
我們現(xiàn)在有一份PDF數(shù)據(jù),里面有三頁,每頁都有一樣數(shù)據(jù)結構但數(shù)據(jù)不同的數(shù)據(jù)表,現(xiàn)在需要使用Python將它批量提取出來。



有了上回經驗,我們就直接上代碼:
import pdfplumber
import pandas as pd
# 創(chuàng)建一個空數(shù)據(jù)框
df = pd.DataFrame()
# 使用with語句打開pdf文件
with pdfplumber.open("D:\\python\\cai\\5.pdf") as pdf:
# 使用for循環(huán)遍歷每個pages
for page in pdf.pages:
# 取出當前頁表格,結果為列表
d=page.extract_table()
# 將列表轉為數(shù)據(jù)框
df1 = pd.DataFrame(d[1:], columns=d[0])
#添加至df數(shù)據(jù)框中
df = df.append(df1)
執(zhí)行代碼后,將得到了df數(shù)據(jù)框

是不是so easy 呢?
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
Python中pow()和math.pow()函數(shù)用法示例
這篇文章主要介紹了Python中pow()和math.pow()函數(shù)用法,結合具體實例形式分析了Python使用pow()和math.pow()函數(shù)進行冪運算的相關操作技巧,需要的朋友可以參考下2018-02-02
python中翻譯功能translate模塊實現(xiàn)方法
在本篇文章中小編給各位整理了一篇關于python中翻譯功能translate模塊實現(xiàn)方法,有需要的朋友們可以參考下。2020-12-12
如何使用python的ctypes調用醫(yī)保中心的dll動態(tài)庫下載醫(yī)保中心的賬單
這篇文章主要介紹了如何使用python的ctypes調用醫(yī)保中心的dll動態(tài)庫下載醫(yī)保中心的賬單,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-05-05
Python利用 utf-8-sig 編碼格式解決寫入 csv 文件亂碼問題
這篇文章主要介紹了Python利用 utf-8-sig 編碼格式解決寫入 csv 文件亂碼問題,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-02-02
Python編程實現(xiàn)控制cmd命令行顯示顏色的方法示例
這篇文章主要介紹了Python編程實現(xiàn)控制cmd命令行顯示顏色的方法,結合實例形式分析了Python針對命令行字符串顯示顏色屬性相關操作技巧,需要的朋友可以參考下2017-08-08

