Python自動化Office文檔處理全攻略

更新時間：2025年02月25日 15:02:07 作者：傻啦嘿喲

在日常辦公中,處理Word、Excel和PDF等Office文檔是再常見不過的任務,手動操作這些文檔不僅耗時耗力,還容易出錯,幸運的是,Python提供了豐富的庫,使得自動化處理這些文檔變得輕松高效,本文將通過通俗易懂的表達方式,帶你領略Python自動化Office文檔處理的魅力

一、自動化處理Word文檔

1. 安裝python-docx庫

python-docx是一個強大的庫，可以讀取、修改和創(chuàng)建Word文檔。在開始之前，你需要確保已經安裝了該庫。你可以通過以下命令安裝：

pip install python-docx

2. 讀取Word文檔內容

讀取Word文檔內容非常簡單，你可以逐段讀取文檔中的文字。以下是一個示例代碼：

from docx import Document
 
# 打開一個Word文檔
doc = Document('example.docx')
 
# 遍歷文檔中的段落并打印內容
for paragraph in doc.paragraphs:
    print(paragraph.text)

這段代碼會打開名為example.docx的文檔，并逐段打印其內容。

3. 修改Word文檔內容

python-docx同樣允許你修改文檔內容。例如，你可以替換文檔中的特定詞語：

from docx import Document
 
# 打開一個Word文檔
doc = Document('example.docx')
 
# 遍歷段落并替換特定詞語
for paragraph in doc.paragraphs:
    if 'old_word' in paragraph.text:
        new_text = paragraph.text.replace('old_word', 'new_word')
        paragraph.text = new_text
 
# 保存修改后的文檔
doc.save('modified_example.docx')

這段代碼會將文檔中的所有old_word替換為new_word，并保存為新的文檔。

4. 添加新的段落和文字

你還可以向文檔中添加新的段落和文字：

from docx import Document
 
# 打開一個Word文檔
doc = Document('example.docx')
 
# 添加一個新的段落
new_paragraph = doc.add_paragraph()
 
# 在新段落里添加文字
new_paragraph.add_run('This is a new paragraph added by Python.')
 
# 保存修改后的文檔
doc.save('modified_example.docx')

這段代碼會在文檔的末尾添加一個新的段落，并寫入指定的文字。

5. 實戰(zhàn)案例：批量調整Word樣式

如果你有多個Word文檔需要統(tǒng)一調整字體、字號、段落格式等樣式，python-docx可以大顯身手。以下是一個批量調整Word樣式的示例代碼：

import os
from docx import Document
 
# 定義調整樣式的函數
def adjust_word_style(file_path):
    doc = Document(file_path)
    for paragraph in doc.paragraphs:
        for run in paragraph.runs:
            run.font.name = 'Times New Roman'  # 設置字體
            run.font.size = 12  # 設置字號
        paragraph.paragraph_format.line_spacing = 1.5  # 設置行距
    doc.save(file_path)
 
# 指定文件夾路徑
folder_path = 'your_folder_path'  # 替換為你的文件夾路徑
 
# 遍歷文件夾中的所有文件
for file_name in os.listdir(folder_path):
    if file_name.endswith('.docx'):
        file_path = os.path.join(folder_path, file_name)
        adjust_word_style(file_path)

這段代碼會遍歷指定文件夾中的所有.docx文件，并統(tǒng)一調整其樣式。

二、自動化處理Excel文檔

1. 安裝openpyxl和pandas庫

openpyxl和pandas是處理Excel文檔的兩大利器。你可以通過以下命令安裝它們：

pip install openpyxl pandas

2. 使用openpyxl讀取和修改Excel文件

openpyxl可以輕松讀取和修改Excel文件。以下是一個示例代碼：

import openpyxl
 
# 加載現有的Excel文件
workbook = openpyxl.load_workbook('example.xlsx')
 
# 選擇工作表
sheet = workbook.active
 
# 讀取單元格值
cell_value = sheet['A1'].value
print(f"單元格 A1 的值是: {cell_value}")
 
# 修改單元格值
sheet['A1'] = "新的值"
 
# 保存修改后的文件
workbook.save('modified_example.xlsx')

這段代碼會打開名為example.xlsx的Excel文件，讀取A1單元格的值，將其修改為“新的值”，并保存為新的文件。

3. 使用pandas讀取、清洗和保存Excel數據

pandas在處理Excel數據時更加靈活和強大。以下是一個使用pandas讀取、清洗和保存Excel數據的示例代碼：

import pandas as pd
 
# 讀取Excel文件
data = pd.read_excel('data.xlsx')
 
# 查看前五行數據
print(data.head())
 
# 數據清洗：刪除空值
data = data.dropna()
 
# 數據篩選：選擇特定列
selected_columns = data[['Name', 'Age']]
 
# 數據排序
sorted_data = data.sort_values(by='Age', ascending=False)
 
# 保存處理后的數據到新的Excel文件
sorted_data.to_excel('cleaned_data.xlsx', index=False)

這段代碼會讀取名為data.xlsx的Excel文件，刪除空值，選擇Name和Age兩列，按Age列降序排序，并將處理后的數據保存為新的Excel文件。

4. 實戰(zhàn)案例：數據提取與匯總

從一個復雜的Excel表格中提取特定的數據并進行匯總計算是常見的任務。以下是一個從銷售數據表格中提取每個月的銷售額總和的示例代碼：

import openpyxl
 
# 加載Excel工作簿
wb = openpyxl.load_workbook('sales_data.xlsx')
 
# 選擇工作表
sheet = wb.active
 
# 初始化一個字典來存儲每個月的銷售額
monthly_sales = {}
 
# 遍歷表格中的行（假設第一行是標題行）
for row in range(2, sheet.max_row + 1):
    month = sheet.cell(row=row, column=2).value  # 假設月份在第二列
    sales_amount = sheet.cell(row=row, column=3).value  # 假設銷售額在第三列
    if month in monthly_sales:
        monthly_sales[month] += sales_amount
    else:
        monthly_sales[month] = sales_amount
 
# 打印每個月的銷售額總和
for month, sales in monthly_sales.items():
    print(f"{month}: {sales}")

這段代碼會讀取名為sales_data.xlsx的Excel文件，提取每個月的銷售額總和，并打印出來。

三、自動化處理PDF文檔

1. 安裝PyPDF2和pdfplumber庫

PyPDF2和pdfplumber是處理PDF文檔的兩大工具。你可以通過以下命令安裝它們：

pip install PyPDF2 pdfplumber

2. 使用PyPDF2讀取和合并PDF文件

PyPDF2可以讀取PDF文件的內容、獲取文件頁數、提取指定頁的內容以及合并多個PDF文件。以下是一個示例代碼：

import PyPDF2
 
# 打開PDF文件
with open('example.pdf', 'rb') as file:
    reader = PyPDF2.PdfFileReader(file)
 
# 獲取PDF文件的頁數
num_pages = reader.getNumPages()
print(f"PDF 文件有 {num_pages} 頁")
 
# 提取第一頁的內容
page = reader.getPage(0)
text = page.extractText()
print(f"第一頁的內容是:\n{text}")
 
# 創(chuàng)建新的PDF文件
writer = PyPDF2.PdfFileWriter()
for i in range(num_pages):
    page = reader.getPage(i)
    writer.addPage(page)
 
with open('new_example.pdf', 'wb') as output_file:
    writer.write(output_file)
print("新的 PDF 文件已保存")

這段代碼會打開名為example.pdf的PDF文件，提取第一頁的內容并打印出來，然后創(chuàng)建一個包含所有頁的新PDF文件。

3. 使用pdfplumber更準確地提取PDF文本

相比PyPDF2，pdfplumber在提取PDF文本時更加準確。以下是一個使用pdfplumber提取PDF文本內容的示例代碼：

import pdfplumber
 
# 打開PDF文件
with pdfplumber.open('example.pdf') as pdf:
    # 獲取PDF文件的頁數
    num_pages = len(pdf.pages)
    print(f"PDF 文件有 {num_pages} 頁")
 
    # 提取第一頁的內容
    first_page = pdf.pages[0]
    text = first_page.extract_text()
 
    print(f"第一頁的內容是:\n{text}")

實戰(zhàn)案例：批量提取PDF中的表格數據

在處理包含表格數據的PDF文件時，pdfplumber能夠準確地提取表格內容。以下是一個批量提取指定文件夾中所有PDF文件的表格數據的示例代碼：

import os
import pdfplumber
 
指定文件夾路徑
folder_path = 'your_pdf_folder_path' # 替換為你的文件夾路徑
output_data = []
 
遍歷文件夾中的所有文件
for file_name in os.listdir(folder_path):
if file_name.endswith('.pdf'):
file_path = os.path.join(folder_path, file_name)
 
# 打開PDF文件
    with pdfplumber.open(file_path) as pdf:
        # 假設每個PDF文件只有一頁包含表格數據
        page = pdf.pages[0]  # 根據實際情況調整頁碼
        
        # 提取表格
        table = page.extract_table()
        
        # 將表格數據添加到輸出列表中（可以根據需要調整數據結構）
        output_data.append({
            'file_name': file_name,
            'table_data': table
        })
打印或保存提取的表格數據
for item in output_data:
print(f"文件名: {item['file_name']}")
for row in item['table_data']:
print(row)
print("\n")
 
如果需要保存為Excel文件，可以使用pandas的DataFrame和to_excel方法
import pandas as pd
df = pd.DataFrame(output_data_reformatted) # 需要根據實際情況調整數據結構以適應DataFrame
df.to_excel('extracted_tables.xlsx', index=False)

注意：在實際應用中，可能需要調整代碼以適應不同PDF文件的表格結構和數據格式。此外，如果PDF文件中的表格跨越多頁，需要相應地修改代碼以遍歷所有相關頁面。

通過本文的介紹，你已經掌握了使用Python自動化處理Word、Excel和PDF文檔的基本方法。這些技能將極大地提高你的辦公效率，減少手動操作的錯誤率。隨著你對這些庫和工具的深入了解，還可以探索更多高級功能，以滿足更復雜的文檔處理需求。

以上就是Python自動化Office文檔處理全攻略的詳細內容，更多關于Python自動化Office處理的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

Python創(chuàng)建數字列表的示例
今天小編就為大家分享一篇Python創(chuàng)建數字列表的示例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-11-11
Python辦公自動化之將任意文件轉為PDF格式
這種把某個文件轉為pdf枯燥無聊的工作,既沒有什么技術含量又累. 今天辰哥就教大家將任意文件批量轉為PDF,這里以日常辦公的word、excel、ppt為例,這三種格式的文件轉為PDF.需要的朋友可以參考下
2021-06-06
python基于pyppeteer制作PDF文件
這篇文章主要介紹了python基于pyppeteer制作PDF文件的方法，幫助大家更好的理解和學習使用python，感興趣的朋友可以了解下
2021-03-03
Python必備技巧之Pandas數據合并函數
Pandas中一共有五個數據合并函數，分別為：concat、append、merge、join、combine，本文詳細講解這五個函數的使用方法，需要的可以參考一下
2022-03-03
基于Python實現簡單的學生點名系統(tǒng)
現在的學生大部分都很積極，會主動舉手回答問題。但是，也會遇到一些不好的情況，比如年級越高主動舉手的人越少，所以本文做了一個隨機的學生點名系統(tǒng)可以幫老師解決這些問題
2022-09-09
python爬蟲看看虎牙女主播中誰最“頂”步驟詳解
這篇文章主要介紹了python爬蟲看看虎牙女主播中誰最“頂”,本文分步驟通過圖文實例相結合給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-12-12
用python的requests第三方模塊抓取王者榮耀所有英雄的皮膚實例
下面小編就為大家分享一篇用python的requests第三方模塊抓取王者榮耀所有英雄的皮膚實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨想過來看看吧
2017-12-12
Scrapy框架爬取西刺代理網免費高匿代理的實現代碼
今天小編就為大家分享一篇關于Scrapy框架爬取西刺代理網免費高匿代理的實現代碼，小編覺得內容挺不錯的，現在分享給大家，具有很好的參考價值，需要的朋友一起跟隨小編來看看吧
2019-02-02
Django配置文件代碼說明
在本篇文章里小編給大家整理了關于Django配置文件代碼說明知識點，有需要的朋友們學習下。
2019-12-12
Python list與NumPy array 區(qū)分詳解
這篇文章主要介紹了Python list與NumPy array 區(qū)分詳解，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-11-11

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python自動化Office文檔處理全攻略

目錄

一、自動化處理Word文檔

1. 安裝python-docx庫

2. 讀取Word文檔內容

3. 修改Word文檔內容

4. 添加新的段落和文字

5. 實戰(zhàn)案例：批量調整Word樣式

二、自動化處理Excel文檔

1. 安裝openpyxl和pandas庫

2. 使用openpyxl讀取和修改Excel文件

3. 使用pandas讀取、清洗和保存Excel數據

4. 實戰(zhàn)案例：數據提取與匯總

三、自動化處理PDF文檔

1. 安裝PyPDF2和pdfplumber庫

2. 使用PyPDF2讀取和合并PDF文件

3. 使用pdfplumber更準確地提取PDF文本

實戰(zhàn)案例：批量提取PDF中的表格數據

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python自動化Office文檔處理全攻略

目錄

一、自動化處理Word文檔

1. 安裝python-docx庫

2. 讀取Word文檔內容

3. 修改Word文檔內容

4. 添加新的段落和文字

5. 實戰(zhàn)案例：批量調整Word樣式

二、自動化處理Excel文檔

1. 安裝openpyxl和pandas庫

2. 使用openpyxl讀取和修改Excel文件

3. 使用pandas讀取、清洗和保存Excel數據

4. 實戰(zhàn)案例：數據提取與匯總

三、自動化處理PDF文檔

1. 安裝PyPDF2和pdfplumber庫

2. 使用PyPDF2讀取和合并PDF文件

3. 使用pdfplumber更準確地提取PDF文本

實戰(zhàn)案例：批量提取PDF中的表格數據

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、自動化處理Word文檔

二、自動化處理Excel文檔