Python實現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例

更新時間：2020年12月22日 09:40:31 作者：州的先生

這篇文章主要介紹了Python實現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例，幫助大家更好的理解和使用python，感興趣的朋友可以了解下

隨著SaaS服務的流行，越來越多的人選擇在各個平臺上編寫文檔，制作表格并進行分享。

同時，隨著Markdown語法的破圈，很多平臺開始集成支持這種簡潔的書寫標記語言，這樣可以保證平臺上用戶文檔樣式的統(tǒng)一性。

但是在一些場景下，我們還是會在本地的Office軟件上寫有很多文檔，或者歷史遺留了很多本地文檔。

如果我們需要將其上傳到各大平臺，直接復制粘貼，大概率是會造成文檔內(nèi)容結(jié)構(gòu)和樣式的丟失。于此我們需要將其轉(zhuǎn)換為 Markdown 語法。

很多桌面軟件（比如Typora）都提供了導入 Word 文件的功能，這類功能一般是通過 Pandoc 這個軟件來擴展實現(xiàn)的。

Pandoc 是一個全能型的文檔格式轉(zhuǎn)換工具，其能夠?qū)⒍喾N文檔格式轉(zhuǎn)換為各類常見的文檔格式。具體的文檔格式之間的轉(zhuǎn)換如下圖所示（來源于官網(wǎng)）：

Pandoc 是瑞士軍刀一般的存在，能夠較好的處理各類的文檔格式轉(zhuǎn)換，但是如果我們需要自己寫程序，調(diào)用 Pandoc 則需要額外的安裝 Pandoc 才行，并且也不方便自定義。

幸而，在 Python 中有很多第三方模塊提供了此類文檔格式的轉(zhuǎn)換功能。今天，我們來實現(xiàn)一下比較頻繁使用到的 Word 文檔轉(zhuǎn) Markdown 文檔。

轉(zhuǎn)換邏輯

Word 文檔到 Markdown 文檔的轉(zhuǎn)換總體而言分兩步來實現(xiàn)：

第一步，將 Word 文檔轉(zhuǎn)換為 HTML 文檔；
第二步，將 HTML 文檔轉(zhuǎn)換為 Markdown 文檔；

依賴模塊

要實現(xiàn)這個功能我們需要借助 Python 的兩個第三方模塊：

mammoth
markdownify

mammoth 是一個用于將 Word 文檔轉(zhuǎn)換為 HTML 的模塊，它支持在 Python、JavaScript、Java、.Net等平臺使用。而 markdownify 則是將 HTML 轉(zhuǎn)換為 Markdown 文檔的模塊。

處理 Word 圖片

因為 Word 文檔中不可避免地會存在很多圖片，為了在轉(zhuǎn)換后的文檔中能夠正確地顯示圖片，我們需要自定義一下Word 文檔內(nèi)圖片的處理方式。默認情況下，mammoth 會將圖片轉(zhuǎn)換為 base64 編碼的字符串，這樣不用生成額外的本地圖片文件，但是會使文檔體積變得很大。所以我們選擇將圖片另存為本地圖片：

# 轉(zhuǎn)存Word文檔內(nèi)的圖片
def convert_img(image):
  with image.open() as image_bytes:
    file_suffix = image.content_type.split("/")[1]
    path_file = "./img/{}.{}".format(str(time.time()),file_suffix)
    with open(path_file, 'wb') as f:
      f.write(image_bytes.read())

  return {"src":path_file}

正式轉(zhuǎn)換

在這里，我們以州的先生很久以前寫的《Python爬蟲實戰(zhàn)與機器學習應用》（需要這本書的小伙伴可以微信私聊我）這本書的 Word 文檔來演示。

代碼如下所示：

# 讀取Word文件
with open(r"F:\自媒體\Python爬蟲實戰(zhàn)與機器學習應用.docx" ,"rb") as docx_file:
  # 轉(zhuǎn)化Word文檔為HTML
  result = mammoth.convert_to_html(docx_file,convert_image=mammoth.images.img_element(convert_img))
  # 獲取HTML內(nèi)容
  html = result.value
  # 轉(zhuǎn)化HTML為Markdown
  md = markdownify(html,heading_style="ATX")
  print(md)
  with open("./docx_to_html.html",'w',encoding='utf-8') as html_file,open("./docx_to_md.md","w",encoding='utf-8') as md_file:
    html_file.write(html)
    md_file.write(md)
  messages = result.messages

運行程序，最終生成2個文件：

docx_to_html.html
docx_to_md.md

其中，docx_to_html.html 是 Word 文檔轉(zhuǎn)換為 HTML 后的文檔：

docx_to_md.md 是 HTML 轉(zhuǎn)換為 Markdown 后的文檔：

最后是另存為的圖片：

怎么樣，簡單的二三十行代碼就完成了 Word 到 Markdown 文檔的轉(zhuǎn)換，是不是很簡單？

此功能將集成到覓道文檔作為文檔導入的功能實現(xiàn)，歡迎持續(xù)進行關注！

文章版權(quán)所有：州的先生博客

原文地址：https://zmister.com/archives/1601.html

以上就是Python實現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例的詳細內(nèi)容，更多關于python Word文檔轉(zhuǎn)換Markdown的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

python自動更新pom文件的方法
這篇文章主要介紹了python自動更新pom文件的方法，本文通過圖文實例代碼相結(jié)合給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2022-09-09
python linecache讀取行更新的實現(xiàn)
本文主要介紹了python linecache讀取行更新的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2023-03-03
python 普通克里金（Kriging）法的實現(xiàn)
這篇文章主要介紹了python 普通克里金（Kriging）法的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-12-12
pytorch torch.gather函數(shù)的使用
torch.gather 是 PyTorch 中用于在指定維度上通過索引從源張量中提取元素的函數(shù),它需要輸入張量、維度索引和索引張量,示例代碼展示了如何使用 torch.gather 從輸入張量中按索引提取元素,返回的結(jié)果張量形狀與索引張量相同
2024-09-09
python使用paramiko模塊實現(xiàn)ssh遠程登陸上傳文件并執(zhí)行
使用paramiko，ssh遠程登陸，長傳文件并執(zhí)行。其中用到了多線程和隊列,paramiko是用python語言寫的一個模塊，遵循SSH2協(xié)議，支持以加密和認證的方式，進行遠程服務器的連接。
2014-01-01
python 正則表達式如何實現(xiàn)重疊匹配
這篇文章主要介紹了python 正則表達式如何實現(xiàn)重疊匹配，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2022-07-07
安裝PyInstaller失敗問題解決
這篇文章主要介紹了安裝PyInstaller失敗問題解決,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-12-12
python 求1-100之間的奇數(shù)或者偶數(shù)之和的實例
今天小編就為大家分享一篇python 求1-100之間的奇數(shù)或者偶數(shù)之和的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-06-06
Python結(jié)合FFmpeg實現(xiàn)批量提取視頻音頻
在日常開發(fā)或音頻處理場景中,我們經(jīng)常需要從大量視頻文件中批量提取音頻,本文介紹一種使用 Python 調(diào)用 FFmpeg 的通用方案,同時支持 Windows、macOS 和 Linux,有需要的小伙伴可以了解下
2026-01-01
詳解anaconda安裝步驟
這篇文章主要介紹了詳解anaconda安裝步驟，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-11-11