基于Python獲取docx/doc文件內(nèi)容代碼解析

更新時(shí)間：2020年02月17日 11:53:17 作者：python許三多

這篇文章主要介紹了基于Python獲取docx/doc文件內(nèi)容代碼解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

整體思路：

下載文件并修改后綴為ｚｉｐ文件，解壓ｚｉｐ文件，所要獲取的內(nèi)容在固定的文件夾下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自帶，不需要額外下載安裝．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'


def create(newfile):
  """下載docx文件，并修改后綴為zip"""
  res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

  if not os.path.exists(newfile):
    f = open(newfile, 'wb')
    for chunk in res.iter_content(100000):
      f.write(chunk)
    f.close()

  os.rename(newfile, 'test.zip')  這種方法發(fā)現(xiàn)只能解決一部分doc文件,具體原因不得而知,有明白的歡迎留言
  # 將doc/docx文件壓縮成ｚｉｐ文件
  #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)　
  #pf.write(newfile)

def get_txt():
  """解壓zip，并在work/temp/word/document.xml獲取文本內(nèi)容，進(jìn)行正則替換標(biāo)簽等操作"""
  f = zipfile.ZipFile('test.zip', 'r')
  for file in f.namelist():
    f.extract(file, "temp/")
  
  f = xml.dom.minidom.parse('./temp/word/document.xml')
  
  txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
  print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
  create(newfile)
  get_txt()

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python如何實(shí)現(xiàn)大型數(shù)組運(yùn)算（使用NumPy）
這篇文章主要介紹了Python如何實(shí)現(xiàn)大型數(shù)組運(yùn)算，文中講解非常細(xì)致，幫助大家更好的了解和學(xué)習(xí)，感興趣的朋友可以了解下
2020-07-07
python非遞歸全排列實(shí)現(xiàn)方法
下面小編就為大家?guī)硪黄猵ython非遞歸全排列實(shí)現(xiàn)方法。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-04-04
Python特效之文字成像方法詳解
文字成像，即將原圖片經(jīng)過 python 處理后，生成完全由純文字組成的圖像。本文將具體為大家介紹如何通過Python實(shí)現(xiàn)這一效果，感興趣的可以學(xué)習(xí)一下
2022-01-01
Python實(shí)現(xiàn)我的世界小游戲源代碼
這篇文章主要介紹了Python實(shí)現(xiàn)我的世界小游戲源代碼,代碼簡單易懂，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下
2021-03-03
Python面向?qū)ο缶幊袒A(chǔ)解析（一）
這篇文章主要介紹了Python面向?qū)ο缶幊袒A(chǔ)解析的相關(guān)內(nèi)容，如果您想對Python編程的基礎(chǔ)部分有所了解，這篇文章是值得一看的，需要的朋友可以參考下。
2017-10-10
Python同步遍歷多個(gè)列表的示例
今天小編就為大家分享一篇Python同步遍歷多個(gè)列表的示例，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-02-02
Python?使用BeautifulSoup庫的方法
BeautifulSoup庫用于從HTML或XML文件中提取數(shù)據(jù),它可以自動將復(fù)雜的HTML文檔轉(zhuǎn)換為樹形結(jié)構(gòu),并提供簡單的方法來搜索文檔中的節(jié)點(diǎn),使得我們可以輕松地遍歷和修改HTML文檔的內(nèi)容,本文給大家介紹Python?使用BeautifulSoup庫的方法,感興趣的朋友一起看看吧
2023-10-10
python中如何以空格為分割符,給列表賦予數(shù)值
這篇文章主要介紹了python中如何以空格為分割符,給列表賦予數(shù)值問題,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-02-02
python 如何獲取頁面所有a標(biāo)簽下href的值
這篇文章主要介紹了python 獲取頁面所有a標(biāo)簽下href的值操作，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2021-05-05
python 順時(shí)針打印矩陣的超簡潔代碼
今天小編就為大家分享一篇python 順時(shí)針打印矩陣的超簡潔代碼，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-11-11