詳解pandas庫pd.read_excel操作讀取excel文件參數(shù)整理與實(shí)例

更新時(shí)間：2019年02月17日 10:09:40 作者：brucewong0516

這篇文章主要介紹了pandas庫pd.read_excel操作讀取excel文件參數(shù)整理與實(shí)例，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧

除了使用xlrd庫或者xlwt庫進(jìn)行對excel表格的操作讀與寫，而且pandas庫同樣支持excel的操作；且pandas操作更加簡介方便。

首先是pd.read_excel的參數(shù)：函數(shù)為：

pd.read_excel(io, sheetname=0,header=0,skiprows=None,index_col=None,names=None,
    arse_cols=None,date_parser=None,na_values=None,thousands=None, 
    convert_float=True,has_index_names=None,converters=None,dtype=None,
    true_values=None,false_values=None,engine=None,squeeze=False,**kwds)

表格數(shù)據(jù)：

常用參數(shù)解析：

io ：excel 路徑；

In [10]: import pandas as pd
#定義路徑IO
In [11]: IO = 'example.xls'
#讀取excel文件
In [12]: sheet = pd.read_excel(io=IO)
#此處由于sheetname默認(rèn)是0，所以返回第一個(gè)表
In [13]: sheet
Out[13]:
 姓名 年齡  出生日 愛好 關(guān)系
0 小王 23 1991-10-02 足球 朋友
1 小麗 23 1992-11-02 籃球 NaN
2 小黑 25 1991-10-18 游泳 同學(xué)
3 小白 21 1989-09-09 游戲 NaN
4 小紅 25 1990-08-07 看劇 NaN
5 小米 24 1991-12-12 足球 NaN
6 大錘 26 1988-09-09 看劇 個(gè)人
#上述列表返回的結(jié)果和原表格存在合并單元格的差異

sheetname：默認(rèn)是sheetname為0，返回多表使用sheetname=[0,1]，若sheetname=None是返回全表。注意：int/string返回的是dataframe，而none和list返回的是dict of dataframe。

In [7]: sheet = pd.read_excel('example.xls',sheetname= [0,1])
#參數(shù)為None時(shí)，返回全部的表格，是一個(gè)表格的字典；
#當(dāng)參數(shù)為list = [0，1，2，3]此類時(shí)，返回的多表格同樣是字典
In [8]: sheet
Out[8]:
{0: 姓名 年齡  出生日 愛好 關(guān)系
 0 小王 23 1991-10-02 足球 朋友
 1 小麗 23 1992-11-02 籃球 NaN
 2 小黑 25 1991-10-18 游泳 同學(xué)
 3 小白 21 1989-09-09 游戲 NaN
 4 小紅 25 1990-08-07 看劇 NaN
 5 小米 24 1991-12-12 足球 NaN
 6 大錘 26 1988-09-09 看劇 個(gè)人, 1: 1 3 5 學(xué)生
 0 2 3 4 老師
 1 4 1 9 教授}
#value是一個(gè)多位數(shù)組
In [15]: sheet[0].values
Out[15]:
array([['小王', 23, Timestamp('1991-10-02 00:00:00'), '足球', '朋友'],
  ['小麗', 23, Timestamp('1992-11-02 00:00:00'), '籃球', nan],
  ['小黑', 25, Timestamp('1991-10-18 00:00:00'), '游泳', '同學(xué)'],
  ['小白', 21, Timestamp('1989-09-09 00:00:00'), '游戲', nan],
  ['小紅', 25, Timestamp('1990-08-07 00:00:00'), '看劇', nan],
  ['小米', 24, Timestamp('1991-12-12 00:00:00'), '足球', nan],
  ['大錘', 26, Timestamp('1988-09-09 00:00:00'), '看劇', '個(gè)人']], dtype=object)

#同樣可以根據(jù)表頭名稱或者表的位置讀取該表的數(shù)據(jù)
#通過表名
In [17]: sheet = pd.read_excel('example.xls',sheetname= 'Sheet2')
In [18]: sheet
Out[18]:
 1 3 5 學(xué)生
0 2 3 4 老師
1 4 1 9 教授

#通過表的位置
In [19]: sheet = pd.read_excel('example.xls',sheetname= 1)

In [20]: sheet
Out[20]:
 1 3 5 學(xué)生
0 2 3 4 老師
1 4 1 9 教授

header ：指定作為列名的行，默認(rèn)0，即取第一行，數(shù)據(jù)為列名行以下的數(shù)據(jù)；若數(shù)據(jù)不含列名，則設(shè)定 header = None；

#數(shù)據(jù)不含作為列名的行
In [21]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None)
In [22]: sheet
Out[22]:
 0 1 2 3
0 1 3 5 學(xué)生
1 2 3 4 老師
2 4 1 9 教授
#默認(rèn)第一行數(shù)據(jù)作為列名
In [23]: sheet = pd.read_excel('example.xls',sheetname= 1,header =0)
In [24]: sheet
Out[24]:
 1 3 5 學(xué)生
0 2 3 4 老師
1 4 1 9 教授

skiprows：省略指定行數(shù)的數(shù)據(jù)

In [25]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skiprows= 1)
#略去1行的數(shù)據(jù)，自上而下的開始略去數(shù)據(jù)的行
In [26]: sheet
Out[26]:
 0 1 2 3
0 2 3 4 老師
1 4 1 9 教授

skip_footer：省略從尾部數(shù)的行數(shù)據(jù)

In [27]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skip_footer= 1)
#從尾部開始略去行的數(shù)據(jù)
In [28]: sheet
Out[28]:
 0 1 2 3
0 1 3 5 學(xué)生
1 2 3 4 老師

index_col ：指定列為索引列，也可以使用 u'string'

#指定第二列的數(shù)據(jù)作為行索引
In [30]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skip_footer= 1,index_col=1)

In [31]: sheet
Out[31]:
 0 2 3
1
3 1 5 學(xué)生
3 2 4 老師

names：指定列的名字，傳入一個(gè)list數(shù)據(jù)

In [32]: sheet = pd.read_excel('example.xls',sheetname= 1,header = None,skip_footer= 1,index_col=1,names=['a','b','c'])
 ...:

In [33]: sheet
Out[33]:
 a b c
1
3 1 5 學(xué)生
3 2 4 老師

總體而言，pandas庫的pd.read_excel和pd.read_csv的參數(shù)比較類似，且相較之前的xlrd庫的讀表操作更加簡單，針對一般批量的數(shù)據(jù)處理最好選擇pandas庫操作。但是功能有待完善或者本次研究的不夠深入，比如合并單元格的問題，歡迎一起討論交流。

以上就是本文的全部內(nèi)容，希望對大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: