Python批量提取PDF文件中文本的腳本

更新時間：2021年04月05日 09:02:00 作者：董付國

這篇文章主要為大家詳細(xì)介紹了Python批量提取PDF文件中文本的腳本，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下

本文實例為大家分享了Python批量提取PDF文件中文本的具體代碼，供大家參考，具體內(nèi)容如下

首先需要執(zhí)行命令pip install pdfminer3k來安裝處理PDF文件的擴展庫。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #調(diào)用命令行工具pdf2txt.py進(jìn)行轉(zhuǎn)換
 #如果pdf加密過可以改寫下面的代碼
 #在-o前面使用-P來指定密碼
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #轉(zhuǎn)換需要一定時間，一般小文件2秒鐘足夠了
 time.sleep(2)
 #輸出轉(zhuǎn)換后的文本，前200個字符
 with open(txt, encoding='utf8') as fp:
 print(fp.read(200))
 except:
 pass

來源：python小屋

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python 使用遞歸的方式實現(xiàn)語義圖片分割功能
這篇文章主要介紹了python 使用遞歸的方式實現(xiàn)語義圖片分割,本文通過實例代碼給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-07-07
python 解決函數(shù)返回return的問題
這篇文章主要介紹了python 解決函數(shù)返回return的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-12-12
Python利用contextvars實現(xiàn)管理上下文變量
Python?在?3.7?的時候引入了一個模塊：contextvars，從名字上很容易看出它指的是上下文變量。所以本文就來和大家詳細(xì)講講如何使用contextvars實現(xiàn)管理上下文變量，需要的可以參考一下
2022-07-07
python編寫簡單爬蟲資料匯總
本文給大家匯總介紹了下幾種使用Python編寫簡單爬蟲的方法和代碼，非常的不錯，這里分享給大家，希望大家能夠喜歡。
2016-03-03
Python實現(xiàn)將字典內(nèi)容寫入json文件
這篇文章主要為大家詳細(xì)介紹了如何利用Python語言實現(xiàn)將字典內(nèi)容寫入json文件，文中的示例代碼講解詳細(xì)，感興趣的小伙伴可以了解一下
2022-08-08
將 Ubuntu 16 和 18 上的 python 升級到最新 python3.8 的方法教程
這篇文章主要介紹了如何將 Ubuntu 16 和 18 上的 python 升級到最新 3.8 版,本文通過實例代碼相結(jié)合給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-03-03
詳解Python自帶的日期日歷處理calendar庫的使用
在?Python?開發(fā)中,我們經(jīng)常需要處理日期和時間,雖然?datetime?庫是最常用的選擇,但其實?Python?標(biāo)準(zhǔn)庫中的?calendar?模塊也是一個強大的工具,下面我們就來看看它的具體使用吧
2024-12-12
Python實現(xiàn)從url中提取域名的幾種方法
這篇文章主要介紹了Python實現(xiàn)從url中提取域名的幾種方法,本文給出了3種方法實現(xiàn)在URL中提取域名的需求,需要的朋友可以參考下
2014-09-09
Python繪圖之桃花盛開
這篇文章主要介紹了如何用python繪制桃花樹，幫助大家更好的使用python處理圖片，本文給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2021-08-08
解決python web項目意外關(guān)閉,但占用端口的問題
今天小編就為大家分享一篇解決python web項目意外關(guān)閉,但占用端口的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12