Python自動(dòng)化辦公之編寫PDF拆分工具
今天我們繼續(xù)分享真實(shí)的自動(dòng)化辦公案例,希望各位 Python 愛好者能夠從中得到些許啟發(fā),在自己的工作生活中更多的應(yīng)用 Python,使得工作事半功倍!
需求
需要從 PDF 中取出幾頁(yè)并將其保存為新的 PDF,為了后期使用方便,這個(gè)工具需要做成傻瓜式的帶有 GUI 頁(yè)面的形式

選擇源 pdf 文件,再指定下生成的新的 pdf 文件名稱及保存位置,和需要拆分的 page 信息,就可以得到新的 pdf 文件了
需求解析
對(duì)于 Python GUI,我們有太多種選擇了,下面我們先來(lái)橫向的簡(jiǎn)單對(duì)比下
從高層次上看,大的 GUI 工具有:
- Qt
- WxWindows
- Tkinter
- Customer libraries(Kivy,Toga等)
- Web相關(guān)(HTML,F(xiàn)lask等)
不過今天,我們選擇的工具是 appJar,這是一個(gè)由一位從事教育工作的大神發(fā)明的,所以它可以提供一個(gè)更加簡(jiǎn)單的 GUI 創(chuàng)建過程,而且是完全基于 Tkinter 的,Python 默認(rèn)支持
代碼實(shí)現(xiàn)
首先為了實(shí)現(xiàn) PDF 操作,我這里選擇了 pypdf2 庫(kù)
我們先硬編碼一個(gè)輸入輸出的示例
from?PyPDF2?import?PdfFileWriter,?PdfFileReader infile?=?"Input.pdf" outfile?=?"Output.pdf" page_range?=?"1-2,6"
接下來(lái)我們實(shí)例化 PdfFileWriter 和 PdfFIleReader 對(duì)象,并創(chuàng)建實(shí)際的 Output.pdf 文件
output?=?PdfFileWriter() input_pdf?=?PdfFileReader(open(infile,?"rb")) output_file?=?open(outfile,?"wb")
下面一個(gè)比較復(fù)雜的點(diǎn)就是需要拆分 pdf,提取頁(yè)面并保存在列表中
page_ranges?=?(x.split("-")?for?x?in?page_range.split(","))
range_list?=?[i?for?r?in?page_ranges?for?i?in?range(int(r[0]),?int(r[-1])?+?1)]
最后就是從原始文件中拷貝內(nèi)容到新的文件
for?p?in?range_list: ????output.addPage(input_pdf.getPage(p?-?1)) output.write(output_file)
下面來(lái)構(gòu)建 GUI 界面
對(duì)于這個(gè)拆分 PDF 的小工具,需要具有如下功能:
- 可以通過標(biāo)準(zhǔn)文件瀏覽器選擇 pdf 文件
- 可以選擇輸出文件的位置及文件名稱
- 可以自定義提取哪些頁(yè)面
- 有一些錯(cuò)誤檢查
通過 PIP 安裝好 appJar 后,我們就可以編碼了
from?appJar?import?gui from?PyPDF2?import?PdfFileWriter,?PdfFileReader from?pathlib?import?Path
創(chuàng)建 GUI 窗口
app?=?gui("PDF?Splitter",?useTtk=True)
app.setTtkTheme("default")
app.setSize(500,?200)
這里我使用了默認(rèn)主題,當(dāng)然也可以切換各種各樣的主題模式

下面是添加標(biāo)簽和數(shù)據(jù)輸入組件
app.addLabel("Choose?Source?PDF?File")
app.addFileEntry("Input_File")
app.addLabel("Select?Output?Directory")
app.addDirectoryEntry("Output_Directory")
app.addLabel("Output?file?name")
app.addEntry("Output_name")
app.addLabel("Page?Ranges:?1,3,4-10")
app.addEntry("Page_Ranges")
接下來(lái)添加按鈕,“處理”和“退出”,按下按鈕,調(diào)用如下函數(shù)
app.addButtons(["Process",?"Quit"],?press)
最后就是運(yùn)行這個(gè) app 啦
#?start?the?GUI app.go()
這樣我們就完成了 GUI 的搭建,下面編寫內(nèi)部處理邏輯。程序讀取任何輸入,判斷是否為 PDF,并拆分
def?press(button):
????if?button?==?"Process":
????????src_file?=?app.getEntry("Input_File")
????????dest_dir?=?app.getEntry("Output_Directory")
????????page_range?=?app.getEntry("Page_Ranges")
????????out_file?=?app.getEntry("Output_name")
????????errors,?error_msg?=?validate_inputs(src_file,?dest_dir,?page_range,?out_file)
????????if?errors:
????????????app.errorBox("Error",?"\n".join(error_msg),?parent=None)
????????else:
????????????split_pages(src_file,?page_range,?Path(dest_dir,?out_file))
????else:
????????app.stop()
如果單擊 “處理(Process)”按鈕,則調(diào)用 app.getEntry() 檢索輸入值,每個(gè)值都會(huì)被存儲(chǔ),然后通過調(diào)用 validate_inputs() 進(jìn)行驗(yàn)證
來(lái)看看 validate_inputs 函數(shù)
def?validate_inputs(input_file,?output_dir,?range,?file_name):
????errors?=?False
????error_msgs?=?[]
????#?Make?sure?a?PDF?is?selected
????if?Path(input_file).suffix.upper()?!=?".PDF":
????????errors?=?True
????????error_msgs.append("Please?select?a?PDF?input?file")
????#?Make?sure?a?range?is?selected
????if?len(range)?<?1:
????????errors?=?True
????????error_msgs.append("Please?enter?a?valid?page?range")
????#?Check?for?a?valid?directory
????if?not(Path(output_dir)).exists():
????????errors?=?True
????????error_msgs.append("Please?Select?a?valid?output?directory")
????#?Check?for?a?file?name
????if?len(file_name)?<?1:
????????errors?=?True
????????error_msgs.append("Please?enter?a?file?name")
????return(errors,?error_msgs)
這個(gè)函數(shù)就是執(zhí)行一些檢查來(lái)確保輸入有數(shù)據(jù)并且有效
在收集驗(yàn)證了所有數(shù)據(jù)后,就可以調(diào)用 split 函數(shù)來(lái)處理文件了
def?split_pages(input_file,?page_range,?out_file):
????output?=?PdfFileWriter()
????input_pdf?=?PdfFileReader(open(input_file,?"rb"))
????output_file?=?open(out_file,?"wb")
????page_ranges?=?(x.split("-")?for?x?in?page_range.split(","))
????range_list?=?[i?for?r?in?page_ranges?for?i?in?range(int(r[0]),?int(r[-1])?+?1)]
????for?p?in?range_list:
????????#?Need?to?subtract?1?because?pages?are?0?indexed
????????try:
????????????output.addPage(input_pdf.getPage(p?-?1))
????????except?IndexError:
????????????#?Alert?the?user?and?stop?adding?pages
????????????app.infoBox("Info",?"Range?exceeded?number?of?pages?in?input.\nFile?will?still?be?saved.")
????????????break
????output.write(output_file)
????if(app.questionBox("File?Save",?"Output?PDF?saved.?Do?you?want?to?quit?")):
????????app.stop()
好了,這樣我們就完成了一個(gè)簡(jiǎn)易的 GUI 拆分 PDF 文件的工具嘍
到此這篇關(guān)于Python自動(dòng)化辦公之編寫PDF拆分工具的文章就介紹到這了,更多相關(guān)Python PDF拆分內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python實(shí)現(xiàn)文件壓縮和解壓的示例代碼
這篇文章主要介紹了Python實(shí)現(xiàn)文件壓縮和解壓的方法,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下2020-08-08
Python如何爬取實(shí)時(shí)變化的WebSocket數(shù)據(jù)的方法
這篇文章主要介紹了Python如何爬取實(shí)時(shí)變化的WebSocket數(shù)據(jù)的方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03
Python3.10動(dòng)態(tài)修改Windows系統(tǒng)本地IP地址
這篇文章主要介紹了Python3.10動(dòng)態(tài)修改Windows系統(tǒng)本地IP地址,需要的朋友可以參考下2023-05-05
六個(gè)Python編程最受用的內(nèi)置函數(shù)使用詳解
在日常的python編程中使用這幾個(gè)函數(shù)來(lái)簡(jiǎn)化我們的編程工作,經(jīng)常使用能使編程效率大大地提高。本文為大家總結(jié)了六個(gè)Python編程最受用的內(nèi)置函數(shù),感興趣的可以了解一下2022-07-07
Python3.6簡(jiǎn)單操作Mysql數(shù)據(jù)庫(kù)
這篇文章主要為大家詳細(xì)介紹了Python3.6簡(jiǎn)單操作Mysql數(shù)據(jù)庫(kù),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-09-09

