Python實現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例
隨著SaaS服務的流行,越來越多的人選擇在各個平臺上編寫文檔,制作表格并進行分享。
同時,隨著Markdown語法的破圈,很多平臺開始集成支持這種簡潔的書寫標記語言,這樣可以保證平臺上用戶文檔樣式的統(tǒng)一性。
但是在一些場景下,我們還是會在本地的Office軟件上寫有很多文檔,或者歷史遺留了很多本地文檔。
如果我們需要將其上傳到各大平臺,直接復制粘貼,大概率是會造成文檔內(nèi)容結(jié)構(gòu)和樣式的丟失。于此我們需要將其轉(zhuǎn)換為 Markdown 語法。
很多桌面軟件(比如Typora)都提供了導入 Word 文件的功能,這類功能一般是通過 Pandoc 這個軟件來擴展實現(xiàn)的。
Pandoc 是一個全能型的文檔格式轉(zhuǎn)換工具,其能夠?qū)⒍喾N文檔格式轉(zhuǎn)換為各類常見的文檔格式。具體的文檔格式之間的轉(zhuǎn)換如下圖所示(來源于官網(wǎng)):

Pandoc 是瑞士軍刀一般的存在,能夠較好的處理各類的文檔格式轉(zhuǎn)換,但是如果我們需要自己寫程序,調(diào)用 Pandoc 則需要額外的安裝 Pandoc 才行,并且也不方便自定義。
幸而,在 Python 中有很多第三方模塊提供了此類文檔格式的轉(zhuǎn)換功能。今天,我們來實現(xiàn)一下比較頻繁使用到的 Word 文檔轉(zhuǎn) Markdown 文檔。
轉(zhuǎn)換邏輯
Word 文檔到 Markdown 文檔的轉(zhuǎn)換總體而言分兩步來實現(xiàn):
- 第一步,將 Word 文檔轉(zhuǎn)換為 HTML 文檔;
- 第二步,將 HTML 文檔轉(zhuǎn)換為 Markdown 文檔;
依賴模塊
要實現(xiàn)這個功能我們需要借助 Python 的兩個第三方模塊:
- mammoth
- markdownify
mammoth 是一個用于將 Word 文檔轉(zhuǎn)換為 HTML 的模塊,它支持在 Python、JavaScript、Java、.Net等平臺使用。而 markdownify 則是將 HTML 轉(zhuǎn)換為 Markdown 文檔的模塊。
處理 Word 圖片
因為 Word 文檔中不可避免地會存在很多圖片,為了在轉(zhuǎn)換后的文檔中能夠正確地顯示圖片,我們需要自定義一下Word 文檔內(nèi)圖片的處理方式。默認情況下,mammoth 會將圖片轉(zhuǎn)換為 base64 編碼的字符串,這樣不用生成額外的本地圖片文件,但是會使文檔體積變得很大。所以我們選擇將圖片另存為本地圖片:
# 轉(zhuǎn)存Word文檔內(nèi)的圖片
def convert_img(image):
with image.open() as image_bytes:
file_suffix = image.content_type.split("/")[1]
path_file = "./img/{}.{}".format(str(time.time()),file_suffix)
with open(path_file, 'wb') as f:
f.write(image_bytes.read())
return {"src":path_file}
正式轉(zhuǎn)換
在這里,我們以州的先生很久以前寫的《Python爬蟲實戰(zhàn)與機器學習應用》(需要這本書的小伙伴可以微信私聊我)這本書的 Word 文檔來演示。

代碼如下所示:
# 讀取Word文件
with open(r"F:\自媒體\Python爬蟲實戰(zhàn)與機器學習應用.docx" ,"rb") as docx_file:
# 轉(zhuǎn)化Word文檔為HTML
result = mammoth.convert_to_html(docx_file,convert_image=mammoth.images.img_element(convert_img))
# 獲取HTML內(nèi)容
html = result.value
# 轉(zhuǎn)化HTML為Markdown
md = markdownify(html,heading_style="ATX")
print(md)
with open("./docx_to_html.html",'w',encoding='utf-8') as html_file,open("./docx_to_md.md","w",encoding='utf-8') as md_file:
html_file.write(html)
md_file.write(md)
messages = result.messages
運行程序,最終生成2個文件:
- docx_to_html.html
- docx_to_md.md
其中,docx_to_html.html 是 Word 文檔轉(zhuǎn)換為 HTML 后的文檔:

docx_to_md.md 是 HTML 轉(zhuǎn)換為 Markdown 后的文檔:

最后是另存為的圖片:

怎么樣,簡單的二三十行代碼就完成了 Word 到 Markdown 文檔的轉(zhuǎn)換,是不是很簡單?
此功能將集成到覓道文檔作為文檔導入的功能實現(xiàn),歡迎持續(xù)進行關注!
文章版權(quán)所有:州的先生博客
以上就是Python實現(xiàn)Word文檔轉(zhuǎn)換Markdown的示例的詳細內(nèi)容,更多關于python Word文檔轉(zhuǎn)換Markdown的資料請關注腳本之家其它相關文章!
相關文章
python linecache讀取行更新的實現(xiàn)
本文主要介紹了python linecache讀取行更新的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2023-03-03
python 普通克里金(Kriging)法的實現(xiàn)
這篇文章主要介紹了python 普通克里金(Kriging)法的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-12-12
pytorch torch.gather函數(shù)的使用
torch.gather 是 PyTorch 中用于在指定維度上通過索引從源張量中提取元素的函數(shù),它需要輸入張量、維度索引和索引張量,示例代碼展示了如何使用 torch.gather 從輸入張量中按索引提取元素,返回的結(jié)果張量形狀與索引張量相同2024-09-09
python使用paramiko模塊實現(xiàn)ssh遠程登陸上傳文件并執(zhí)行
使用paramiko,ssh遠程登陸,長傳文件并執(zhí)行。其中用到了多線程和隊列,paramiko是用python語言寫的一個模塊,遵循SSH2協(xié)議,支持以加密和認證的方式,進行遠程服務器的連接。2014-01-01
python 求1-100之間的奇數(shù)或者偶數(shù)之和的實例
今天小編就為大家分享一篇python 求1-100之間的奇數(shù)或者偶數(shù)之和的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06
Python結(jié)合FFmpeg實現(xiàn)批量提取視頻音頻
在日常開發(fā)或音頻處理場景中,我們經(jīng)常需要從大量視頻文件中批量提取音頻,本文介紹一種 使用 Python 調(diào)用 FFmpeg 的通用方案,同時支持 Windows、macOS 和 Linux,有需要的小伙伴可以了解下2026-01-01

