Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對(duì)應(yīng)行的合并
寫在前面
最近有朋友問我怎么把一個(gè)Excel工作表中的數(shù)據(jù)按照對(duì)應(yīng)的匹配規(guī)則放到另外一個(gè)表中, 要求是兩個(gè)對(duì)應(yīng)的列要相同, 具體來看就是sheet1中數(shù)據(jù)比較多, sheet2中只含有兩列, 這兩列包含了年份和行業(yè)信息, 這兩個(gè)表的header(pandas中的術(shù)語(yǔ), 表示表頭或者列名)都是相同的, 所以關(guān)鍵點(diǎn)就是讓表1中的數(shù)據(jù)與表2中的數(shù)據(jù)建立對(duì)應(yīng)即可, 然后注意一下選取過的數(shù)據(jù)就不能選了這個(gè)條件.
當(dāng)然可能會(huì)有直接使用Pandas內(nèi)置高級(jí)函數(shù)的方法來做, 但是畢竟不是主要研究數(shù)據(jù)分析了, 能用就行…
為了數(shù)據(jù)安全, 這里就不放截圖了.
主要思路
因?yàn)橐畛浔?, 那么當(dāng)然要遍歷表二的每一行, 針對(duì)這每一行給出的列標(biāo)信息, 然后遍歷表1中滿足條件的行, 填入表二之后break即可, 因?yàn)榭赡軙?huì)出現(xiàn)重復(fù)遍歷, 這里用到了哈希表的方法, 并且哈希表也有兩種實(shí)現(xiàn),
一種是給表1新添加一個(gè)列, 這個(gè)列可以是布爾值或者全0列, 表示沒有遍歷過(unused), 然后在滿足條件的行添加到表二之后, 將對(duì)應(yīng)值設(shè)置為1即可, 這樣可以在之后的遍歷過程中忽略掉已添加的數(shù)據(jù).
另一種方法就是使用哈希表存儲(chǔ)表一中遍歷過的行的索引, 思路跟上面是一樣的, 但是不會(huì)對(duì)原始數(shù)據(jù)進(jìn)行增刪.
代碼
代碼部分我給出了兩個(gè)版本, 一種是我首先想到的, 不借助pandas內(nèi)置函數(shù), 將數(shù)據(jù)轉(zhuǎn)換為列表來完成, 這樣雖然好想當(dāng)然之后還要手動(dòng)處理表頭, 比較麻煩, 代碼如下:
import pandas as pd
df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0).values.tolist()
df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0).values.tolist()
for i in range(len(df1)):
? ? df1[i].append(0)
for i, item in enumerate(df2):
? ? for j in range(len(df1)):
? ? ? ? if df1[j][-1] == 0 and df1[j][0] == item[0] and df1[j][2] == item[2]:
? ? ? ? ? ? df2[i] = df1[j]
? ? ? ? ? ? df1[j][-1] = 1
? ? ? ? ? ? break
df2 = pd.DataFrame(df2)
print(df2)
with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer:
? ? df2.to_excel(writer, sheet_name="Sheet3")另一種用到了pandas內(nèi)置的行遍歷方法和索引等方法, 對(duì)Dataframe這種pandas內(nèi)置的原生數(shù)據(jù)結(jié)構(gòu)支持比較好, 但是不用的話就總忘…
import pandas as pd
# pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
df1 = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)
df2 = pd.read_excel('data.xlsx', sheet_name='Sheet2', header=0)
# 標(biāo)記是否匹配過
used = set()
for idx2, row2 in df2.iterrows():
? ? tmp = df1[(df1['所屬行業(yè)'] == row2['所屬行業(yè)']) & (df1['新年份'] == row2['新年份'])]
? ? for idx1, row1 in tmp.iterrows():
? ? ? ? if idx1 not in used:
? ? ? ? ? ? df2.iloc[idx2, :] = row1
? ? ? ? ? ? used.add(idx1)
? ? ? ? ? ? break
df2.set_index('所屬行業(yè)', inplace=True)
print(df2)
with pd.ExcelWriter("data.xlsx", mode='a', engine='openpyxl') as writer:
? ? df2.to_excel(writer, sheet_name="Sheet4")到此這篇關(guān)于Pandas操作兩個(gè)Excel實(shí)現(xiàn)數(shù)據(jù)對(duì)應(yīng)行的合并的文章就介紹到這了,更多相關(guān)Pandas Excel行合并內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- 利用pandas合并多個(gè)excel的方法示例
- Python pandas實(shí)現(xiàn)excel工作表合并功能詳解
- Pandas讀取excel合并單元格的正確方式(openpyxl合并單元格拆分并填充內(nèi)容)
- 利用Python pandas對(duì)Excel進(jìn)行合并的方法示例
- 利用python Pandas實(shí)現(xiàn)批量拆分Excel與合并Excel
- Pandas快速合并多張excel表格的兩種方法
- python使用pandas自動(dòng)化合并Excel文件的實(shí)現(xiàn)方法
- Pandas數(shù)據(jù)分析之批量拆分/合并Excel
- Pandas實(shí)現(xiàn)批量拆分與合并Excel的示例代碼
- Pandas實(shí)現(xiàn)復(fù)雜Excel的轉(zhuǎn)置合并的示例代碼
相關(guān)文章
Python單元測(cè)試框架unittest簡(jiǎn)明使用實(shí)例
這篇文章主要介紹了Python單元測(cè)試框架unittest簡(jiǎn)明使用實(shí)例,本文講解了基本測(cè)試步驟、和測(cè)試實(shí)例,需要的朋友可以參考下2015-04-04
Python Django路徑配置實(shí)現(xiàn)過程解析
這篇文章主要介紹了Python Django路徑配置實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11
解決Python的str強(qiáng)轉(zhuǎn)int時(shí)遇到的問題
下面小編就為大家分享一篇解決Python的str強(qiáng)轉(zhuǎn)int時(shí)遇到的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-04-04
Python進(jìn)程間通信Queue消息隊(duì)列用法分析
這篇文章主要介紹了Python進(jìn)程間通信Queue消息隊(duì)列用法,結(jié)合實(shí)例形式分析了基于Queue的進(jìn)程間通信相關(guān)操作技巧與使用注意事項(xiàng),需要的朋友可以參考下2019-05-05
jupyter?notebook加載和運(yùn)行.py文件方式
這篇文章主要介紹了jupyter?notebook加載和運(yùn)行.py文件方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-07-07

