利用python將pdf輸出為txt的實(shí)例講解

更新時(shí)間：2018年04月23日 09:24:05 作者：n不正

下面小編就為大家分享一篇利用python將pdf輸出為txt的實(shí)例講解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧

一個(gè)禮拜前一個(gè)同學(xué)問(wèn)我這個(gè)事情，由于之前在參加華為的比賽，所以賽后看了一下，據(jù)說(shuō)需要用到pdfminer這個(gè)包。于是安裝了一下，安裝過(guò)程很簡(jiǎn)單：

sudo pip install pdfminer;

中間也沒(méi)有任何的報(bào)錯(cuò)。至于如何調(diào)用，本人也沒(méi)有很好的研究過(guò)pdfminer這個(gè)庫(kù)，于是開始了百度……

官方文檔：http://www.unixuser.org/~euske/python/pdfminer/index.html

完全使用python編寫。（適用于2.4或更新版本）

解析，分析，并轉(zhuǎn)換成PDF文檔。

PDF-1.7規(guī)范的支持。（幾乎）

中日韓語(yǔ)言和垂直書寫腳本支持。

各種字體類型（Type1、TrueType、Type3，和CID）的支持。

基本加密（RC4）的支持。

PDF與HTML轉(zhuǎn)換。

綱要（TOC）的提取。

標(biāo)簽內(nèi)容提取。

通過(guò)分組文本塊重建原始的布局。

一些基本的類

PDFParser：從一個(gè)文件中獲取數(shù)據(jù)

PDFDocument：保存獲取的數(shù)據(jù)，和PDFParser是相互關(guān)聯(lián)的

PDFPageInterpreter處理頁(yè)面內(nèi)容

PDFDevice將其翻譯成你需要的格式

PDFResourceManager用于存儲(chǔ)共享資源，如字體或圖像。

簡(jiǎn)單的實(shí)現(xiàn)

讀取test.pdf輸出為output.txt:

# -*- coding: utf-8 -*-  
from pdfminer.pdfparser import PDFParser 
from pdfminer.pdfdocument import PDFDocument 
from pdfminer.pdfpage import PDFPage 
from pdfminer.pdfpage import PDFTextExtractionNotAllowed 
from pdfminer.pdfinterp import PDFResourceManager 
from pdfminer.pdfinterp import PDFPageInterpreter 
from pdfminer.pdfdevice import PDFDevice 
from pdfminer.layout import * 
from pdfminer.converter import PDFPageAggregator 
import os 
fp = open('test.pdf', 'rb') 
#來(lái)創(chuàng)建一個(gè)pdf文檔分析器 
parser = PDFParser(fp) 
#創(chuàng)建一個(gè)PDF文檔對(duì)象存儲(chǔ)文檔結(jié)構(gòu) 
document = PDFDocument(parser) 
# 檢查文件是否允許文本提取 
if not document.is_extractable: 
 raise PDFTextExtractionNotAllowed 
else: 
 # 創(chuàng)建一個(gè)PDF資源管理器對(duì)象來(lái)存儲(chǔ)共賞資源 
 rsrcmgr=PDFResourceManager() 
 # 設(shè)定參數(shù)進(jìn)行分析 
 laparams=LAParams() 
 # 創(chuàng)建一個(gè)PDF設(shè)備對(duì)象 
 # device=PDFDevice(rsrcmgr) 
 device=PDFPageAggregator(rsrcmgr,laparams=laparams) 
 # 創(chuàng)建一個(gè)PDF解釋器對(duì)象 
 interpreter=PDFPageInterpreter(rsrcmgr,device) 
 # 處理每一頁(yè) 
 for page in PDFPage.create_pages(document): 
  interpreter.process_page(page) 
  # 接受該頁(yè)面的LTPage對(duì)象 
  layout=device.get_result() 
  for x in layout: 
   if(isinstance(x,LTTextBoxHorizontal)): 
    with open('output.txt','a') as f: 
     f.write(x.get_text().encode('utf-8')+'\n')

以上這篇利用python將pdf輸出為txt的實(shí)例講解就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章: