9行Python3代碼實(shí)現(xiàn)批量提取PDF文件的指定內(nèi)容

更新時(shí)間：2022年12月09日 08:39:11 作者：Carl_奕然

這篇文章主要為大家詳細(xì)介紹了如何通過9行Python3代碼實(shí)現(xiàn)批量提取PDF文件的指定內(nèi)容，文中的示例代碼講解詳細(xì)，感興趣的小伙伴可以嘗試一下

1、引言

小絲：魚哥，你有沒有什么辦法，提取PDF文檔的內(nèi)容。

小魚：這個(gè)還問我？？

小絲：哎呀，這個(gè)不是被難住了嘛。

小魚：有啥難得？提示你一下，

小絲：嗯，可以可以。

小魚：去我的博文找，沒記錯(cuò)的話，有兩種方法提取pdf的文字。

小絲：好嘞，我這就去…找找…

小絲：魚哥，魚哥~

小魚：怎么樣，你的這個(gè)需求，解決了吧。

小絲：沒呢，我想批量提取指定PDF文檔的內(nèi)容…

小魚：批…量…

小絲：對(duì)啊，是批量，

小魚：這…還挺…

小絲：挺費(fèi)勁嗎？

小魚：挺好的，不費(fèi)勁，一口氣，上7樓…

小絲：打住… 說正事！！

小魚：好嘞…

想到提取PDF文件的內(nèi)容，我們第一反應(yīng)就是pypdf，

因?yàn)閜ypdf這個(gè)庫(kù)我在很多篇文章都介紹過，還蠻好用的。

但是，今天，我們不使用pypdf，而是使用另一個(gè)庫(kù)，即：pdfminer。

2、代碼實(shí)戰(zhàn)

2.1 介紹

pdfminer我相信很多同學(xué)都沒聽說過，除非，你經(jīng)常提取/解析PDF文件的內(nèi)容，否則，你對(duì)ta，只能是陌生。

其實(shí)，提取PDF文件內(nèi)容解決方案，截止到現(xiàn)在，只有pypdf 和pdfminer這兩種。
所以，如果你厭倦了， pypdf，那只能選擇pdfminer了。

那什么是pdfminer 呢，或者 pdfminer有什么神奇之處呢？

定義

PDFMiner是用于從PDF文檔提取信息的工具；

與其他PDF相關(guān)工具不同，它完全專注于獲取和分析文本數(shù)據(jù)；

功能

PDFMiner允許獲取頁(yè)面中文本的確切位置以及其他信息，例如字體或線條；

它包括一個(gè)PDF轉(zhuǎn)換器，可以將PDF文件轉(zhuǎn)換為其他文本格式（例如HTML)；

2.2 安裝

由于pdfminer是python 的第三方庫(kù)，所以，需要安裝，

老規(guī)矩，直接pip 安裝

安裝

pip install pdfminer

安裝完成：

因?yàn)槲覀冃枰玫?pdfminer的high_level 方法，所以

這里必須要在安裝pdfminer.six模塊，否則會(huì)報(bào)錯(cuò)：

安裝

pip install pdfminer.six

安裝完成：

其它安裝方式，直接看這兩篇:

《Python3，選擇Python自動(dòng)安裝第三方庫(kù)，從此跟pip說拜拜??！》

《Python3：我低調(diào)的只用一行代碼，就導(dǎo)入Python所有庫(kù)！》

2.3 實(shí)例

安裝完成，我們就來(lái)寫上代碼，

我們先來(lái)捋順一下思路，主要分3步：

1、遍歷pdf文件

注：如果文件夾的文件多個(gè)，需要單獨(dú)提取目標(biāo)pdf文件，否則都會(huì)輪巡匹配，費(fèi)事費(fèi)力費(fèi)資源；

2、提取pdf文檔內(nèi)容

3、根據(jù)正則匹配，提取需要的文檔信息

我們就根據(jù)這個(gè)思路，來(lái)提取"企業(yè)基本情況"，代碼如下：

代碼示例

# -*- coding:utf-8 -*-
# @Time   : 2022-11-30
# @Author : Carl_DJ


from pdfminer import high_level
import re,os

#pdf文件路徑
#root：文件夾路徑，dirs:文件夾下子目錄名，files：文件夾下的文件
for root,dirs,files in os.walk('./data/'):
    #遍歷pdf文件
    for f in files:
        file_name = os.path.join(root,f)
        if file_name.endswith('.pdf'):
            #提取整個(gè) pdf 文本信息
            text = high_level.extract_text(file_name)
            #提取 pdf文檔中 "企業(yè)進(jìn)本情況:" 后面的信息，利用正則進(jìn)行匹配
            regex = r'企業(yè)基本情況-(.*?)\n'
            qy_base = re.findall(regex,text)
            print(f'輸出信息：{qy_base}')

pdf文件

運(yùn)行結(jié)果

3、總結(jié)

看到這里，今天的分享，差不多就該結(jié)束了。

解析PDF是一件非常耗時(shí)和耗內(nèi)存的工作，因此，pdfminer使用一種稱作Lazy Parsing的策略，減少內(nèi)耗…

小絲：怪不得，提到批量提取pdf的文檔內(nèi)容，你會(huì)猶豫了…

小魚：對(duì)啊，因?yàn)槲覀兊牡臏y(cè)試文檔內(nèi)容很少，所以對(duì)內(nèi)存的消耗相對(duì)來(lái)說沒那么驗(yàn)證，當(dāng)PDF文檔的內(nèi)容很多時(shí)，就不得不使用pdfminer了。

到此這篇關(guān)于9行Python3代碼實(shí)現(xiàn)批量提取PDF文件的指定內(nèi)容的文章就介紹到這了,更多相關(guān)Python提取PDF指定內(nèi)容內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: