Ubuntu下使用python讀取doc和docx文檔的內容方法
讀取docx文檔
使用的包是python-docx
1. 安裝python-docx包
sudo pip install python-docx
2. 使用python-docx包讀取數(shù)據(jù)
#encoding:utf8
import docx
doc = docx.Document('test.docx')
docText = '\n'.join([paragraph.text for paragraph in doc.paragraphs])
#print(docText)
python-docx這個包是不能處理doc文檔的,要讀取doc文檔內容的話需要使用antiword這個工具。
讀取doc文檔
1. 到網(wǎng)站下載antiword。
2. 下載完畢之后解壓,在解壓得到的文件夾中依次運行make和make install命令。
3. 使用antiword讀取doc文檔內容
#encoding:utf8 import subprocess word = 'test.doc' output = subprocess.check_output(['antiword',word]) print(output)
以上這篇Ubuntu下使用python讀取doc和docx文檔的內容方法就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
pandas計數(shù) value_counts()的使用
這篇文章主要介紹了pandas計數(shù) value_counts()的使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-06-06
Python深度學習實戰(zhàn)PyQt5安裝與環(huán)境配置過程詳解
本系列面向 Python 小白,從零開始實戰(zhàn)解說應用 QtDesigner 進行 PyQt5 的項目實戰(zhàn)。什么叫從零開始?從軟件安裝、環(huán)境配置開始。不跳過一個細節(jié),不漏掉一行代碼,不省略一個例圖2021-10-10
Python?pandas?DataFrame基礎運算及空值填充詳解
pandas除了可以drop含有空值的數(shù)據(jù)之外,當然也可以用來填充空值,下面這篇文章主要給大家介紹了關于Python?pandas?DataFrame基礎運算及空值填充的相關資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下2022-07-07

