Python批量提取PDF文件中文本的腳本
更新時間:2021年04月05日 09:02:00 作者:董付國
這篇文章主要為大家詳細(xì)介紹了Python批量提取PDF文件中文本的腳本,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
本文實例為大家分享了Python批量提取PDF文件中文本的具體代碼,供大家參考,具體內(nèi)容如下
首先需要執(zhí)行命令pip install pdfminer3k來安裝處理PDF文件的擴展庫。
import os
import sys
import time
pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))
for pdf1 in pdfs:
pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
os.rename(pdf1, pdf)
print('='*30)
print(pdf)
txt = pdf[:-4] + '.txt'
exe = '"' + sys.executable + '" "'
pdf2txt = os.path.dirname(sys.executable)
pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
try:
#調(diào)用命令行工具pdf2txt.py進(jìn)行轉(zhuǎn)換
#如果pdf加密過可以改寫下面的代碼
#在-o前面使用-P來指定密碼
cmd = exe + pdf2txt + txt + ' ' + pdf
os.popen(cmd)
#轉(zhuǎn)換需要一定時間,一般小文件2秒鐘足夠了
time.sleep(2)
#輸出轉(zhuǎn)換后的文本,前200個字符
with open(txt, encoding='utf8') as fp:
print(fp.read(200))
except:
pass
來源:python小屋
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python 使用遞歸的方式實現(xiàn)語義圖片分割功能
這篇文章主要介紹了python 使用遞歸的方式實現(xiàn)語義圖片分割,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-07-07
Python利用contextvars實現(xiàn)管理上下文變量
Python?在?3.7?的時候引入了一個模塊:contextvars,從名字上很容易看出它指的是上下文變量。所以本文就來和大家詳細(xì)講講如何使用contextvars實現(xiàn)管理上下文變量,需要的可以參考一下2022-07-07
Python實現(xiàn)將字典內(nèi)容寫入json文件
這篇文章主要為大家詳細(xì)介紹了如何利用Python語言實現(xiàn)將字典內(nèi)容寫入json文件,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-08-08
將 Ubuntu 16 和 18 上的 python 升級到最新 python3.8 的方法教程
這篇文章主要介紹了如何將 Ubuntu 16 和 18 上的 python 升級到最新 3.8 版,本文通過實例代碼相結(jié)合給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-03-03
解決python web項目意外關(guān)閉,但占用端口的問題
今天小編就為大家分享一篇解決python web項目意外關(guān)閉,但占用端口的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12

