python實(shí)現(xiàn)PDF中表格轉(zhuǎn)化為Excel的方法
這幾天想統(tǒng)計(jì)一下《中國(guó)人文社會(huì)科學(xué)期刊 AMI 綜合評(píng)價(jià)報(bào)告(2018 年):A 刊評(píng)價(jià)報(bào)告》中的期刊,但是只找到了該報(bào)告的PDF版,對(duì)于表格的編輯不太方便,于是想到用Python將表格轉(zhuǎn)成Excel格式。

看過(guò)別人寫的博客,發(fā)現(xiàn)Python解析PDF有以下四種方式:
-pdfminer:擅長(zhǎng)文字的解析,把表格解析成普通的文本,沒(méi)有格式;
-pdf2html:把pdf解析成html,但html的標(biāo)簽并沒(méi)有規(guī)律,解析一個(gè)表格還可以,多個(gè)表格的話不太好提取;
-tabula:對(duì)于簡(jiǎn)單的表格,即單元格中沒(méi)有換行的,表頭表尾形式不復(fù)雜的,使用比較方便。但是單腦需要Java環(huán)境;
-pdfplumber:是一個(gè)可以處理pdf格式信息的庫(kù)??梢圆檎谊P(guān)于每個(gè)文本字符、矩陣、和行的詳細(xì)信息,也可以對(duì)表格進(jìn)行提取并進(jìn)行可視化調(diào)試。
本文采用pdfplumber庫(kù)讀取PDF中的表格,運(yùn)行環(huán)境:Python3.5.2,Anaconda4.2.0。首先簡(jiǎn)單介紹一下pdfplumber庫(kù):
-pdfplumber.pdf中包含了.metadata和.pages兩個(gè)屬性:
.metadata是一個(gè)包含pdf信息的字典。
.pages是一個(gè)包含頁(yè)面信息的列表。
-pdfplumber.page的類中包含的主要的屬性:
.page_number 頁(yè)碼。
.width 頁(yè)面寬度。
.height 頁(yè)面高度。
.objects/.chars/.lines/.rects 這些屬性中每一個(gè)都是一個(gè)列表,每個(gè)列表都包含一個(gè)字典,每個(gè)字典用于說(shuō)明頁(yè)面中的對(duì)象信息, 包括直線,字符, 方格等位置信息。
-一些常用的方法:
.extract_text() 用來(lái)提頁(yè)面中的文本,將頁(yè)面的所有字符對(duì)象整理為的那個(gè)字符串。
.extract_words() 返回的是所有的單詞及其相關(guān)信息。
.extract_tables() 提取頁(yè)面的表格。
.to_image() 用于可視化調(diào)試時(shí),返回PageImage類的一個(gè)實(shí)例。
import pdfplumber
import pandas as pd
path = 'test.pdf'
pdf = pdfplumber.open(path)
i=1
#writer=pd.ExcelWriter('output.xlsx')
df=pd.DataFrame(columns=['序號(hào)','刊名','主辦單位','等級(jí)'])
sheetname=['考古文博','歷史學(xué)','馬克思主義理論','民族學(xué)與文化學(xué)','文學(xué)-外國(guó)文學(xué)','文學(xué)-中國(guó)文學(xué)','藝術(shù)學(xué)','語(yǔ)言學(xué)','哲學(xué)','宗教學(xué)','法學(xué)'
,'管理學(xué)','環(huán)境科學(xué)','教育學(xué)','經(jīng)濟(jì)學(xué)-財(cái)政科學(xué)','經(jīng)濟(jì)學(xué)-工業(yè)經(jīng)濟(jì)','經(jīng)濟(jì)學(xué)-金融','經(jīng)濟(jì)學(xué)-經(jīng)濟(jì)管理','經(jīng)濟(jì)學(xué)-經(jīng)濟(jì)綜合','經(jīng)濟(jì)學(xué)-貿(mào)易經(jīng)濟(jì)'
,'經(jīng)濟(jì)學(xué)-農(nóng)業(yè)經(jīng)濟(jì)','經(jīng)濟(jì)學(xué)-世界經(jīng)濟(jì)','人文地理學(xué)','社會(huì)學(xué)','體育學(xué)','統(tǒng)計(jì)學(xué)','圖書(shū)館情報(bào)與檔案學(xué)','心理學(xué)','新聞學(xué)與傳播學(xué)'
,'政治學(xué)-國(guó)際政治','政治學(xué)-中國(guó)政治','綜合-高校綜合性學(xué)報(bào)','綜合-綜合性人文社科期刊']
##由于存在一個(gè)表格跨頁(yè)的情況,先將所有表格存放在一個(gè)DataFrame中,再根據(jù)序號(hào)拆分。
for page in pdf.pages[17:59]:
print (page)
# 獲取當(dāng)前頁(yè)面的全部文本信息,包括表格中的文字
# print(page.extract_text())
for table in page.extract_tables():
#print(table)
df=df.append(pd.DataFrame(table[1:],columns=table[0]),ignore_index=True)
print (df)
writer=pd.ExcelWriter('output3.xlsx')
new_df=pd.DataFrame()
j=1
index=[]
#記錄序號(hào)==1的行索引,用于后面的表格拆分
for i in range(len(df)):
if df.ix[i,0]=='1':
index.append(i)
print ("################")
index.append(len(df))
#print (index)
#按行索引將內(nèi)容切片并逐個(gè)添加到表中
for t in range(len(index)-1):
new_df=df.ix[index[t]:index[t+1]-1,:]
#print (new_df)
new_df.to_excel(writer,sheet_name=sheetname[t],encoding='gb2312',index=None)
writer.save()
pdf.close()
print('finished')
最終保存為Excel。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python實(shí)現(xiàn)圖片與視頻互轉(zhuǎn)代碼實(shí)戰(zhàn)(親測(cè)有效)
圖片轉(zhuǎn)視頻,視頻轉(zhuǎn)圖片手機(jī)一操作,立馬轉(zhuǎn)換過(guò)來(lái),那么基于代碼是如何操作的呢?下面小編給大家?guī)?lái)了Python實(shí)現(xiàn)圖片與視頻互轉(zhuǎn)代碼實(shí)戰(zhàn),感興趣的朋友跟隨小編一起看看吧2021-12-12
Python識(shí)別快遞條形碼及Tesseract-OCR使用詳解
這篇文章主要介紹了Python識(shí)別快遞條形碼及Tesseract-OCR使用詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-07-07
Python基于csv模塊實(shí)現(xiàn)讀取與寫入csv數(shù)據(jù)的方法
這篇文章主要介紹了Python基于csv模塊實(shí)現(xiàn)讀取與寫入csv數(shù)據(jù)的方法,結(jié)合實(shí)例形式分析了Python使用csv模塊針對(duì)csv文件的讀取與寫入相關(guān)操作技巧,需要的朋友可以參考下2018-01-01
python中queue.Queue之task_done的用法
這篇文章主要介紹了python中queue.Queue之task_done的用法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-02-02
python將字典內(nèi)容寫入json文件的實(shí)例代碼
在本篇文章里小編給大家整理的是一篇關(guān)于python將字典內(nèi)容寫入json文件的實(shí)例代碼,有需要的朋友們可以參考下。2020-08-08
python項(xiàng)目打包成exe和安裝包的方法步驟
本文主要介紹了python項(xiàng)目打包成exe和安裝包的方法步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03
Python設(shè)計(jì)模式之策略模式實(shí)例詳解
這篇文章主要介紹了Python設(shè)計(jì)模式之策略模式,結(jié)合實(shí)例形式分析了策略模式的概念、原理并結(jié)合實(shí)例形式分析了Python定義與使用策略模式相關(guān)操作技巧,需要的朋友可以參考下2019-01-01

