python借助pandas操作excel的常見場景及進階技巧詳解
Python的Pandas庫是處理Excel文件的強大工具,它提供了簡潔高效的接口來讀取、處理和分析表格數(shù)據(jù)。下面將詳細介紹使用Pandas操作Excel的核心方法、常見場景及進階技巧。
一、安裝與環(huán)境準備
使用Pandas處理Excel文件前,需要安裝Pandas及相應的引擎庫(如openpyxl或xlrd)??梢酝ㄟ^pip命令安裝:
pip install pandas openpyxl
其中,openpyxl主要用于讀寫.xlsx格式文件(Excel 2007及以上版本),而xlrd則適用于較舊的.xls格式。
二、讀取Excel文件
Pandas通過read_excel()函數(shù)讀取Excel文件,并將其轉(zhuǎn)換為DataFrame對象進行后續(xù)操作。
基本讀取:
import pandas as pd
df = pd.read_excel('data.xlsx')
print(df.head())
讀取特定工作表:通過sheet_name參數(shù)指定工作表名稱或索引。
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
讀取多個工作表:可一次性讀取所有工作表,返回一個以工作表名為鍵的字典。
dfs = pd.read_excel('data.xlsx', sheet_name=['Sheet1', 'Sheet2'])
選擇性讀取列:使用usecols參數(shù)僅讀取需要的列,提升處理效率。
df = pd.read_excel('data.xlsx', usecols=['A', 'C'])
三、數(shù)據(jù)處理與清洗
讀取數(shù)據(jù)后,Pandas提供了豐富的數(shù)據(jù)處理功能:
處理缺失值:使用dropna()刪除含空值的行/列,或fillna()填充空值。
df = df.dropna() # 刪除空行 df = df.fillna(0) # 用0填充空值
刪除重復值:drop_duplicates()可移除重復行。
數(shù)據(jù)類型轉(zhuǎn)換:astype()方法可調(diào)整列的數(shù)據(jù)類型。
df['Age'] = df['Age'].astype(int)
數(shù)據(jù)篩選與排序:支持條件過濾和按列排序。
filtered_df = df[df['銷售額'] > 0] # 過濾 sorted_df = df.sort_values(by='日期', ascending=False) # 排序
四、寫入Excel文件
使用to_excel()方法可將DataFrame寫入Excel文件。
基本寫入:
df.to_excel('output.xlsx', index=False) # index=False避免寫入行索引
寫入多個工作表:通過pd.ExcelWriter實現(xiàn)。
with pd.ExcelWriter('output.xlsx') as writer:
df1.to_excel(writer, sheet_name='Sheet1', index=False)
df2.to_excel(writer, sheet_name='Sheet2', index=False)
追加寫入現(xiàn)有文件:結(jié)合openpyxl可實現(xiàn)向已存在文件追加數(shù)據(jù)。
from openpyxl import load_workbook
book = load_workbook('input.xlsx')
with pd.ExcelWriter('input.xlsx', engine='openpyxl', mode='a') as writer:
writer.book = book
df_new.to_excel(writer, sheet_name='Sheet1', startrow=writer.sheets['Sheet1'].max_row, index=False)
五、進階應用與性能優(yōu)化
批量文件處理:可結(jié)合os模塊遍歷文件夾,合并多個Excel文件。
import os
all_files = [f for f in os.listdir('folder_path') if f.endswith('.xlsx')]
combined_df = pd.concat([pd.read_excel(f) for f in all_files])
大數(shù)據(jù)分塊讀取:處理大型文件時,使用chunksize參數(shù)分塊讀取以減少內(nèi)存占用。
for chunk in pd.read_excel('large_file.xlsx', chunksize=10000):
process(chunk)
數(shù)據(jù)可視化集成:Pandas可結(jié)合Matplotlib或Seaborn生成圖表,并利用openpyxl或XlsxWriter將圖表嵌入Excel。
格式定制:通過openpyxl或XlsxWriter引擎,可在寫入時設(shè)置單元格格式(如字體、顏色、列寬)。
六、應用場景示例
- 財務報表生成:自動讀取原始數(shù)據(jù),進行匯總計算后,生成帶格式和圖表的工作簿。
- 數(shù)據(jù)分析報告:自動化數(shù)據(jù)清洗、分析,并輸出包含透 視表和圖表的報告。
- 項目管理:跟蹤項目數(shù)據(jù),自動計算進度指標并生成可視化報表。
七、庫選擇建議
- Pandas:適合大多數(shù)數(shù)據(jù)處理場景,支持讀寫、清洗、分析,是綜合性首選。
- OpenPyXL:需精細控制單元格格式、公式或圖表時使用,支持
.xlsx文件的讀寫。 - XlsxWriter:專注于創(chuàng)建和寫入
.xlsx文件,支持復雜圖表和格式,但不支持讀取。 - xlrd/xlwt:僅處理舊版
.xls格式時考慮,功能較有限。
通過上述方法,你可以高效地使用Pandas完成Excel數(shù)據(jù)的自動化處理。根據(jù)具體需求(如數(shù)據(jù)量、格式復雜度、是否需要圖表)選擇合適的庫和技巧,能顯著提升工作效率。
到此這篇關(guān)于python借助pandas操作excel的常見場景及進階技巧詳解的文章就介紹到這了,更多相關(guān)pandas操作excel內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python不使用int()函數(shù)把字符串轉(zhuǎn)換為數(shù)字的方法
今天小編就為大家分享一篇Python不使用int()函數(shù)把字符串轉(zhuǎn)換為數(shù)字的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07
python 刪除系統(tǒng)中的文件(按時間,大小,擴展名)
這篇文章主要介紹了python 如何刪除系統(tǒng)中的文件,分別按時間,大小,擴展名刪除,滿足不同需求,感興趣的朋友可以了解下2020-11-11
Python中高效抓取數(shù)據(jù)的實戰(zhàn)指南
在數(shù)據(jù)驅(qū)動的時代,網(wǎng)絡(luò)爬蟲已成為獲取信息的核心工具,本文將用通俗的語言,帶您掌握Python爬蟲結(jié)合代理IP抓取數(shù)據(jù)的全流程,希望對大家有一定的幫助2025-04-04
Python通用循環(huán)的構(gòu)造方法實例分析
這篇文章主要介紹了Python通用循環(huán)的構(gòu)造方法,結(jié)合實例形式分析了Python常見的交互循環(huán)、哨兵循環(huán)、文件循環(huán)、死循環(huán)等實現(xiàn)與處理技巧,需要的朋友可以參考下2018-12-12
Python利用Bokeh進行數(shù)據(jù)可視化的教程分享
Bokeh是Python中的數(shù)據(jù)可視化庫,提供高性能的交互式圖表和繪圖。本文將利用Bokeh繪制一些可視化圖表,文中的示例代碼講解詳細,感興趣的可以了解一下2022-08-08
Python實現(xiàn)區(qū)間調(diào)度算法
區(qū)間調(diào)度算法是一種在給定的一組任務中,選擇盡可能多的相互不沖突的任務的算法,本文主要介紹了如何使用Python實現(xiàn)區(qū)間調(diào)度算法,有需要的可以參考下2024-10-10
Python基于DB-API操作MySQL數(shù)據(jù)庫過程解析
這篇文章主要介紹了Python基于DB-API操作MySQL數(shù)據(jù)庫過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-04-04
Python如何利用Har文件進行遍歷指定字典替換提交的數(shù)據(jù)詳解
這篇文章主要給大家介紹了關(guān)于Python如何利用Har文件進行遍歷指定字典替換提交的數(shù)據(jù)的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-11-11
Pytorch Dataset,TensorDataset,Dataloader,Sampler關(guān)系解讀
這篇文章主要介紹了Pytorch Dataset,TensorDataset,Dataloader,Sampler關(guān)系,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-09-09
Python實現(xiàn)的選擇排序算法原理與用法實例分析
這篇文章主要介紹了Python實現(xiàn)的選擇排序算法,簡單描述了選擇排序的原理,并結(jié)合實例形式分析了Python實現(xiàn)與應用選擇排序的具體操作技巧,需要的朋友可以參考下2017-11-11

