9行Python3代碼實(shí)現(xiàn)批量提取PDF文件的指定內(nèi)容
1、引言
小絲:魚哥, 你有沒有什么辦法,提取PDF文檔的內(nèi)容。
小魚:這個(gè)還問我??
小絲:哎呀,這個(gè)不是被難住了嘛 。
小魚:有啥難得?提示你一下,
小絲:嗯,可以可以。
小魚:去我的博文找,沒記錯(cuò)的話,有兩種方法提取pdf的文字。
小絲:好嘞, 我這就去…找找…
小絲:魚哥,魚哥~
小魚:怎么樣,你的這個(gè)需求,解決了吧。
小絲:沒呢,我想批量提取指定PDF文檔的內(nèi)容…
小魚:批…量…
小絲:對(duì)啊,是批量,
小魚:這…還挺…
小絲:挺費(fèi)勁嗎?
小魚:挺好的 ,不費(fèi)勁, 一口氣,上7樓…
小絲:打住… 說正事! !
小魚:好嘞…
想到提取PDF文件的內(nèi)容,我們第一反應(yīng)就是pypdf,
因?yàn)閜ypdf這個(gè)庫(kù)我在很多篇文章都介紹過, 還蠻好用的。
但是,今天,我們不使用pypdf,而是使用另一個(gè)庫(kù),即:pdfminer。
2、代碼實(shí)戰(zhàn)
2.1 介紹
pdfminer我相信很多同學(xué)都沒聽說過,除非,你經(jīng)常提取/解析PDF文件的內(nèi)容,否則,你對(duì)ta,只能是陌生。
其實(shí),提取PDF文件內(nèi)容解決方案,截止到現(xiàn)在, 只有pypdf 和pdfminer這兩種。
所以, 如果你厭倦了, pypdf,那只能選擇pdfminer了。
那什么是pdfminer 呢,或者 pdfminer有什么神奇之處呢?
定義
PDFMiner是用于從PDF文檔提取信息的工具;
與其他PDF相關(guān)工具不同,它完全專注于獲取和分析文本數(shù)據(jù);
功能
PDFMiner允許獲取頁(yè)面中文本的確切位置以及其他信息,例如字體或線條;
它包括一個(gè)PDF轉(zhuǎn)換器,可以將PDF文件轉(zhuǎn)換為其他文本格式(例如HTML);
2.2 安裝
由于pdfminer是python 的第三方庫(kù), 所以,需要安裝,
老規(guī)矩, 直接pip 安裝
安裝
pip install pdfminer
安裝完成:

因?yàn)槲覀冃枰玫?pdfminer的high_level 方法,所以
這里必須要在安裝pdfminer.six模塊,否則會(huì)報(bào)錯(cuò):
安裝
pip install pdfminer.six
安裝完成:

其它安裝方式,直接看這兩篇:
《Python3,選擇Python自動(dòng)安裝第三方庫(kù),從此跟pip說拜拜??!》
《Python3:我低調(diào)的只用一行代碼,就導(dǎo)入Python所有庫(kù)!》
2.3 實(shí)例
安裝完成,我們就來(lái)寫上代碼,
我們先來(lái)捋順一下思路,主要分3步:
1、遍歷pdf文件
注:如果文件夾的文件多個(gè),需要單獨(dú)提取目標(biāo)pdf文件,否則都會(huì)輪巡匹配,費(fèi)事費(fèi)力費(fèi)資源;
2、提取pdf文檔內(nèi)容
3、根據(jù)正則匹配,提取需要的文檔信息
我們就根據(jù)這個(gè)思路,來(lái)提取"企業(yè)基本情況",代碼如下:
代碼示例
# -*- coding:utf-8 -*-
# @Time : 2022-11-30
# @Author : Carl_DJ
from pdfminer import high_level
import re,os
#pdf文件路徑
#root:文件夾路徑,dirs:文件夾下子目錄名,files:文件夾下的文件
for root,dirs,files in os.walk('./data/'):
#遍歷pdf文件
for f in files:
file_name = os.path.join(root,f)
if file_name.endswith('.pdf'):
#提取整個(gè) pdf 文本信息
text = high_level.extract_text(file_name)
#提取 pdf文檔中 "企業(yè)進(jìn)本情況:" 后面的信息,利用正則進(jìn)行匹配
regex = r'企業(yè)基本情況-(.*?)\n'
qy_base = re.findall(regex,text)
print(f'輸出信息:{qy_base}')pdf文件

運(yùn)行結(jié)果

3、總結(jié)
看到這里,今天的分享,差不多就該結(jié)束了。
解析PDF是一件非常耗時(shí)和耗內(nèi)存的工作,因此,pdfminer使用一種稱作Lazy Parsing的策略,減少內(nèi)耗…
小絲:怪不得, 提到批量提取pdf的文檔內(nèi)容, 你會(huì)猶豫了…
小魚:對(duì)啊,因?yàn)槲覀兊牡臏y(cè)試文檔內(nèi)容很少,所以對(duì)內(nèi)存的消耗相對(duì)來(lái)說沒那么驗(yàn)證,當(dāng)PDF文檔的內(nèi)容很多時(shí), 就不得不使用pdfminer了。
到此這篇關(guān)于9行Python3代碼實(shí)現(xiàn)批量提取PDF文件的指定內(nèi)容的文章就介紹到這了,更多相關(guān)Python提取PDF指定內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python基于Tkinter開發(fā)一個(gè)爬取B站直播彈幕的工具
這篇文章主要介紹了Python Tkinter如何開發(fā)一個(gè)爬取B站直播彈幕的工具,幫助大家更好的利用python進(jìn)行圖形界面的開發(fā)學(xué)習(xí),感興趣的朋友可以了解下2021-05-05
python實(shí)現(xiàn)將文件名批量命名為四位數(shù)or五位數(shù)
這篇文章主要介紹了python實(shí)現(xiàn)將文件名批量命名為四位數(shù)or五位數(shù)問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08
python爬蟲之Appium爬取手機(jī)App數(shù)據(jù)及模擬用戶手勢(shì)
這篇文章主要介紹了python爬蟲怎樣通過Appium爬取手機(jī)App數(shù)據(jù)及模擬用戶手勢(shì),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-08-08
Python?字符串使用多個(gè)分隔符分割成列表的2種方法
本文主要介紹了Python?字符串使用多個(gè)分隔符分割成列表,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-04-04
Python中的引用知識(shí)點(diǎn)總結(jié)
在本文里我們給大家整理了關(guān)于Python中的引用知識(shí)點(diǎn)以及相關(guān)代碼總結(jié),需要的朋友們跟著學(xué)習(xí)下。2019-05-05

