Python自動(dòng)化辦公之編寫PDF拆分工具

更新時(shí)間：2022年03月22日 09:25:22 作者：蘿卜大雜燴

這篇文章主要為大家分享一個(gè)Python自動(dòng)化辦公的小工具——PDF拆分工具，文中的示例代碼講解詳細(xì)，感興趣的小伙伴可以跟隨小編一起動(dòng)手試一試

需求

需要從 PDF 中取出幾頁(yè)并將其保存為新的 PDF，為了后期使用方便，這個(gè)工具需要做成傻瓜式的帶有 GUI 頁(yè)面的形式

選擇源 pdf 文件，再指定下生成的新的 pdf 文件名稱及保存位置，和需要拆分的 page 信息，就可以得到新的 pdf 文件了

需求解析

對(duì)于 Python GUI，我們有太多種選擇了，下面我們先來(lái)橫向的簡(jiǎn)單對(duì)比下

從高層次上看，大的 GUI 工具有：

Qt
WxWindows
Tkinter
Customer libraries(Kivy，Toga等)
Web相關(guān)（HTML，F(xiàn)lask等）

不過今天，我們選擇的工具是 appJar，這是一個(gè)由一位從事教育工作的大神發(fā)明的，所以它可以提供一個(gè)更加簡(jiǎn)單的 GUI 創(chuàng)建過程，而且是完全基于 Tkinter 的，Python 默認(rèn)支持

代碼實(shí)現(xiàn)

首先為了實(shí)現(xiàn) PDF 操作，我這里選擇了 pypdf2 庫(kù)

我們先硬編碼一個(gè)輸入輸出的示例

from?PyPDF2?import?PdfFileWriter,?PdfFileReader

infile?=?"Input.pdf"
outfile?=?"Output.pdf"

page_range?=?"1-2,6"

接下來(lái)我們實(shí)例化 PdfFileWriter 和 PdfFIleReader 對(duì)象，并創(chuàng)建實(shí)際的 Output.pdf 文件

output?=?PdfFileWriter()
input_pdf?=?PdfFileReader(open(infile,?"rb"))
output_file?=?open(outfile,?"wb")

下面一個(gè)比較復(fù)雜的點(diǎn)就是需要拆分 pdf，提取頁(yè)面并保存在列表中

page_ranges?=?(x.split("-")?for?x?in?page_range.split(","))
range_list?=?[i?for?r?in?page_ranges?for?i?in?range(int(r[0]),?int(r[-1])?+?1)]

最后就是從原始文件中拷貝內(nèi)容到新的文件

for?p?in?range_list:
????output.addPage(input_pdf.getPage(p?-?1))
output.write(output_file)

下面來(lái)構(gòu)建 GUI 界面

對(duì)于這個(gè)拆分 PDF 的小工具，需要具有如下功能：

可以通過標(biāo)準(zhǔn)文件瀏覽器選擇 pdf 文件
可以選擇輸出文件的位置及文件名稱
可以自定義提取哪些頁(yè)面
有一些錯(cuò)誤檢查

通過 PIP 安裝好 appJar 后，我們就可以編碼了

from?appJar?import?gui
from?PyPDF2?import?PdfFileWriter,?PdfFileReader
from?pathlib?import?Path

創(chuàng)建 GUI 窗口

app?=?gui("PDF?Splitter",?useTtk=True)
app.setTtkTheme("default")
app.setSize(500,?200)

這里我使用了默認(rèn)主題，當(dāng)然也可以切換各種各樣的主題模式

下面是添加標(biāo)簽和數(shù)據(jù)輸入組件

app.addLabel("Choose?Source?PDF?File")
app.addFileEntry("Input_File")

app.addLabel("Select?Output?Directory")
app.addDirectoryEntry("Output_Directory")

app.addLabel("Output?file?name")
app.addEntry("Output_name")

app.addLabel("Page?Ranges:?1,3,4-10")
app.addEntry("Page_Ranges")

接下來(lái)添加按鈕，“處理”和“退出”，按下按鈕，調(diào)用如下函數(shù)

app.addButtons(["Process",?"Quit"],?press)

最后就是運(yùn)行這個(gè) app 啦

#?start?the?GUI
app.go()

這樣我們就完成了 GUI 的搭建，下面編寫內(nèi)部處理邏輯。程序讀取任何輸入，判斷是否為 PDF，并拆分

def?press(button):
????if?button?==?"Process":
????????src_file?=?app.getEntry("Input_File")
????????dest_dir?=?app.getEntry("Output_Directory")
????????page_range?=?app.getEntry("Page_Ranges")
????????out_file?=?app.getEntry("Output_name")
????????errors,?error_msg?=?validate_inputs(src_file,?dest_dir,?page_range,?out_file)
????????if?errors:
????????????app.errorBox("Error",?"\n".join(error_msg),?parent=None)
????????else:
????????????split_pages(src_file,?page_range,?Path(dest_dir,?out_file))
????else:
????????app.stop()

如果單擊 “處理（Process）”按鈕，則調(diào)用 app.getEntry() 檢索輸入值，每個(gè)值都會(huì)被存儲(chǔ)，然后通過調(diào)用 validate_inputs() 進(jìn)行驗(yàn)證

來(lái)看看 validate_inputs 函數(shù)

def?validate_inputs(input_file,?output_dir,?range,?file_name):
????errors?=?False
????error_msgs?=?[]

????#?Make?sure?a?PDF?is?selected
????if?Path(input_file).suffix.upper()?!=?".PDF":
????????errors?=?True
????????error_msgs.append("Please?select?a?PDF?input?file")

????#?Make?sure?a?range?is?selected
????if?len(range)?<?1:
????????errors?=?True
????????error_msgs.append("Please?enter?a?valid?page?range")

????#?Check?for?a?valid?directory
????if?not(Path(output_dir)).exists():
????????errors?=?True
????????error_msgs.append("Please?Select?a?valid?output?directory")

????#?Check?for?a?file?name
????if?len(file_name)?<?1:
????????errors?=?True
????????error_msgs.append("Please?enter?a?file?name")

????return(errors,?error_msgs)

這個(gè)函數(shù)就是執(zhí)行一些檢查來(lái)確保輸入有數(shù)據(jù)并且有效

在收集驗(yàn)證了所有數(shù)據(jù)后，就可以調(diào)用 split 函數(shù)來(lái)處理文件了

def?split_pages(input_file,?page_range,?out_file):
????output?=?PdfFileWriter()
????input_pdf?=?PdfFileReader(open(input_file,?"rb"))
????output_file?=?open(out_file,?"wb")

????page_ranges?=?(x.split("-")?for?x?in?page_range.split(","))
????range_list?=?[i?for?r?in?page_ranges?for?i?in?range(int(r[0]),?int(r[-1])?+?1)]

????for?p?in?range_list:
????????#?Need?to?subtract?1?because?pages?are?0?indexed
????????try:
????????????output.addPage(input_pdf.getPage(p?-?1))
????????except?IndexError:
????????????#?Alert?the?user?and?stop?adding?pages
????????????app.infoBox("Info",?"Range?exceeded?number?of?pages?in?input.\nFile?will?still?be?saved.")
????????????break
????output.write(output_file)

????if(app.questionBox("File?Save",?"Output?PDF?saved.?Do?you?want?to?quit?")):
????????app.stop()

好了，這樣我們就完成了一個(gè)簡(jiǎn)易的 GUI 拆分 PDF 文件的工具嘍

到此這篇關(guān)于Python自動(dòng)化辦公之編寫PDF拆分工具的文章就介紹到這了,更多相關(guān)Python PDF拆分內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: