利用Python實現(xiàn)Word文檔的智能解析與圖片處理

更新時間：2025年12月18日 09:30:51 作者：風(fēng)清揚【coder】

在數(shù)字化信息爆炸的時代,處理文檔數(shù)據(jù)是許多應(yīng)用場景中的關(guān)鍵任務(wù),本文將深入探討如何使用Python編寫一個強大的腳本,實現(xiàn)對Word文檔的智能解析,包括按章節(jié)切分段落,并識別和處理其中的圖片,需要的朋友可以參考下

引言

在數(shù)字化信息爆炸的時代，處理文檔數(shù)據(jù)是許多應(yīng)用場景中的關(guān)鍵任務(wù)。本文將深入探討如何使用Python編寫一個強大的腳本，實現(xiàn)對Word文檔的智能解析，包括按章節(jié)（H1、H2、H3標(biāo)題）切分段落，并識別和處理其中的圖片，將圖片上傳后替換為可訪問鏈接。

一、技術(shù)背景

在處理復(fù)雜的Word文檔時，尤其是包含大量結(jié)構(gòu)化內(nèi)容和圖片的文檔，如技術(shù)手冊、報告等，我們常常需要將文檔內(nèi)容進行結(jié)構(gòu)化處理，以便后續(xù)的分析、展示或存儲。Python作為一種功能強大且簡潔易用的編程語言，擁有豐富的庫來應(yīng)對這類任務(wù)。python - docx庫用于讀取和操作Word文檔，requests庫用于與外部API進行交互（如圖片上傳），而操作系統(tǒng)相關(guān)的os庫則用于文件和目錄的管理。

二、核心代碼實現(xiàn)

1. 圖片上傳函數(shù)

def upload_image(image_path, upload_url):
    try:
        with open(image_path, 'rb') as file:
            files = {'image': file}
            response = requests.post(upload_url, files=files)
            if response.status_code == 200:
                return response.json().get('url')
            else:
                print(f"上傳失敗，狀態(tài)碼: {response.status_code}")
    except Exception as e:
        print(f"上傳時發(fā)生錯誤: {e}")
    return None

這個函數(shù)負責(zé)將從Word文檔中提取的圖片上傳到指定的upload_url。它使用requests庫發(fā)送一個POST請求，將圖片文件作為files參數(shù)傳遞。如果上傳成功（狀態(tài)碼為200），則從響應(yīng)的JSON數(shù)據(jù)中提取圖片的可訪問鏈接并返回；否則，打印錯誤信息并返回None。

2. 文檔處理主函數(shù)

def process_docx(docx_path, upload_url):
    doc = docx.Document(docx_path)
    sections = {}
    stack = []  
    temp_image_dir = 'temp_images'
    os.makedirs(temp_image_dir, exist_ok=True)

    for para in doc.paragraphs:
        if para.style.name.startswith('Heading'):
            level = int(para.style.name.split()[1])  

            while stack and stack[-1][2] >= level:
                prev_title, prev_paras, _ = stack.pop()
                if prev_title not in sections:
                    sections[prev_title] = prev_paras

            title = para.text
            stack.append((title, [], level))
        else:
            p_text = para.text
            image_count = 0
            for rel in para._element.xpath('.//w:drawing/wp:inline/a:graphic/a:graphicData/pic:pic'):
                for blip in rel.xpath('.//a:blip'):
                    rId = blip.get('{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed')
                    if rId in doc.part.rels:
                        image_part = doc.part.rels[rId].target_part
                        image_ext = image_part.content_type.split('/')[-1]
                        image_path = os.path.join(temp_image_dir, f'{rId}.{image_ext}')
                        with open(image_path, 'wb') as f:
                            f.write(image_part.blob)
                        image_url = upload_image(image_path, upload_url)
                        if image_url:
                            placeholder = f'[圖片 {image_count}]'
                            p_text = p_text + f' {placeholder}'
                            p_text = p_text.replace(placeholder, image_url)
                            image_count += 1

            if stack:
                stack[-1][1].append(p_text)

    while stack:
        prev_title, prev_paras, _ = stack.pop()
        if prev_title not in sections:
            sections[prev_title] = prev_paras

    for filename in os.listdir(temp_image_dir):
        file_path = os.path.join(temp_image_dir, filename)
        os.remove(file_path)
    os.rmdir(temp_image_dir)

    return sections

該函數(shù)是整個腳本的核心，負責(zé)讀取Word文檔，按章節(jié)切分段落，并處理其中的圖片。

初始化部分：使用docx.Document打開指定路徑的Word文檔，創(chuàng)建一個空字典sections用于存儲切分后的章節(jié)內(nèi)容，一個空列表stack用于跟蹤當(dāng)前處理的標(biāo)題層級，同時創(chuàng)建一個臨時目錄temp_image_dir用于存儲從文檔中提取的圖片。
段落遍歷：
- 標(biāo)題處理：當(dāng)遇到標(biāo)題段落（樣式名稱以Heading開頭）時，提取標(biāo)題級別（如H1為1，H2為2等）。通過比較當(dāng)前標(biāo)題級別與棧頂標(biāo)題級別，決定是否將棧頂?shù)臉?biāo)題和段落存入sections字典。如果當(dāng)前標(biāo)題級別小于等于棧頂標(biāo)題級別，說明層級降低或保持不變，將棧頂元素彈出并存儲到sections中（前提是標(biāo)題不在sections中已存在）。然后將當(dāng)前標(biāo)題及其對應(yīng)的空段落列表和標(biāo)題級別壓入棧中。
- 普通段落處理：對于非標(biāo)題段落，首先處理其中的圖片。通過xpath從段落的XML元素中查找圖片相關(guān)信息，提取圖片并保存到臨時目錄，調(diào)用upload_image函數(shù)上傳圖片并獲取可訪問鏈接，將鏈接替換到段落文本中。最后將處理后的段落文本添加到棧頂?shù)亩温淞斜碇小?/li>
剩余內(nèi)容處理：遍歷結(jié)束后，棧中可能還剩余一些標(biāo)題和段落，將它們依次彈出并存儲到sections字典中。
清理臨時目錄：最后，刪除臨時目錄及其所有文件，釋放資源。

3. 主程序部分

if __name__ == "__main__":
    docx_path = 'Z:/知識圖譜問答/黑龍江省一卡通平臺 軟件操作手冊 202501（財政）.docx'
    upload_url = 'http://localhost:5000/upload'
    result = process_docx(docx_path, upload_url)
    for section_title, paragraphs in result.items():
        print(f"章節(jié): {section_title}")
        for para in paragraphs:
            # print('-------------')
            print(para)
        print("-" * 50)

在主程序中，指定要處理的Word文檔路徑和圖片上傳的接口地址，調(diào)用process_docx函數(shù)處理文檔，并將結(jié)果按章節(jié)打印輸出。

三、代碼運行與測試

在運行代碼之前，確保已經(jīng)安裝了所需的庫：

pip install python - docx requests

將docx_path替換為實際的Word文檔路徑，upload_url替換為有效的圖片上傳接口地址（如本地運行的Flask應(yīng)用提供的上傳接口）。運行腳本后，你將看到文檔按章節(jié)切分，圖片被正確上傳并替換為可訪問鏈接的輸出結(jié)果。

四、總結(jié)與展望

通過上述腳本，我們展示了如何利用Python高效地處理Word文檔，實現(xiàn)按章節(jié)切分和圖片處理的功能。這在知識圖譜構(gòu)建、文檔管理系統(tǒng)開發(fā)、內(nèi)容提取與分析等領(lǐng)域具有廣泛的應(yīng)用前景。未來，可以進一步優(yōu)化代碼，例如增加對更多圖片格式的支持、提高上傳效率、完善錯誤處理機制等。同時，可以將該功能集成到更復(fù)雜的應(yīng)用系統(tǒng)中，為用戶提供更強大的文檔處理服務(wù)。希望本文能為你在處理Word文檔相關(guān)任務(wù)時提供有益的參考和啟發(fā)。

您可能感興趣的文章: