python的去重以及數(shù)據(jù)合并的用法說明
python去重及數(shù)據(jù)合并
drop_dupicates
參數(shù)含義:
subset:即表示要去重指定參考的列keep: {‘first’, ‘last’, False}, default ‘first’
inplace:boolean, default False, 直接在原來的數(shù)據(jù)上修改還是保留副本
data = pd.DataFrame({'id':[1,1,2],'value':[12,14,27]})
#第一個參數(shù)傳入需要比對的列,在"id"列有相同的id,則進(jìn)行去重
data.drop_duplicates(['id'],keep='last',inplace=True)
#我想比較"id"、"value"兩列的值全部相同時則去重
data.drop_duplicates(['id','value'],keep='last',inplace=True)
#如果想直接比較數(shù)據(jù)中的全部列都相同時才能去除,則可以按照如下方法.keep默認(rèn)的是保留第一個
data.drop_duplicates()merge
首先關(guān)于連接,從SQL中的可以得知,連接主要分為外連接和內(nèi)連接:
內(nèi)連接
內(nèi)連接是指在兩個數(shù)據(jù)表中,根據(jù)其指定合并的列,找到其交集,也就是既在df1中出現(xiàn),也在df2中出現(xiàn)的數(shù)據(jù)
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
? ? ? ? ? ? ? ? ? 'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
? ? ? ? ? ? ? ? ? 'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='inner') #不寫how也沒關(guān)系,因為merge默認(rèn)的就是內(nèi)連接?假設(shè)如果在df1和df2中的指定要合并的列的列名不一致的話,則需要顯式指定根據(jù)哪一列進(jìn)行合并
df3=pd.DataFrame({'key1':['b','b','a','c','a','a','b'],
? ? ? ? ? ? ? ? ? 'data':range(7)})
df4=pd.DataFrame({'key2':['a','b','d'],
? ? ? ? ? ? ? ? ? 'data2':range(3)})
df = pd.merge(df3,df4,left_on='key1',right_on='key2')
# 該結(jié)果比上面的on='key'的結(jié)果多一列相同的列,但是兩個的本質(zhì)是一樣的,都是內(nèi)連接外連接
外連接可以分為三種,全外連接、左連接和右連接。
全外連接就是保留兩個表中指定合并的列關(guān)鍵字的并集,然后在左右兩個表中找到相對應(yīng)的數(shù)據(jù)進(jìn)行填充,沒有的用NAN代替
df1=pd.DataFrame({'key':['b','b','a','c','a','a','b'],
? ? ? ? ? ? ? ? ? 'data':range(7)})
df2=pd.DataFrame({'key':['a','b','d'],
? ? ? ? ? ? ? ? ? 'data2':range(3)})
df = pd.merge(df1,df2,on='key',how='outer')右連接是保留右表中指定列的所有關(guān)鍵字,然后去左表中找到指定列對應(yīng)的數(shù)據(jù)進(jìn)行補(bǔ)充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='right')
左連接是保留左表中指定列的所有關(guān)鍵字,然后去右表中找到指定列對應(yīng)的數(shù)據(jù)進(jìn)行補(bǔ)充,沒有的就NAN代替
df = pd.merge(df1,df2,on='key',how='left')
python去重腳本
可以用來去除字典、漏洞數(shù)量等
使用方法,將要去重的部分保存成為csv格式,并命名為all.csv,直接執(zhí)行后,會在當(dāng)前目錄下生成qc.csv的文件!
#coding:utf-8
ciku=open(r'all.csv','r') ? #打開需要去重文件
xieci=open(r'qc.csv','w') ? #打開處理后存放的文件
cikus=ciku.readlines()?
list2 = {}.fromkeys(cikus).keys() ? ? #列表去重方法,將列表數(shù)據(jù)當(dāng)作字典的鍵寫入字典,依據(jù)字典鍵不可重復(fù)的特性去重
i=1
for line in list2:
?? ?if line[0]!=',':
?? ??? ?# print line[0:-1].decode('utf-8').encode('gbk')
?? ??? ?# print ?u"writing"+i
?? ??? ?i+=1
?? ??? ?xieci.writelines(line)
xieci.close()總結(jié)
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python?Pygame實戰(zhàn)之打磚塊游戲的實現(xiàn)
這篇文章主要介紹了如何利用Python實現(xiàn)經(jīng)典的游戲—打磚塊。玩家操作一根螢?zāi)簧纤降摹鞍糇印?,讓一顆不斷彈來彈去的“球”在撞擊作為過關(guān)目標(biāo)消去的“磚塊”的途中不會落到螢?zāi)坏紫隆8信d趣的小伙伴可以了解一下2022-03-03
python使用PIL模塊實現(xiàn)給圖片打水印的方法
這篇文章主要介紹了python使用PIL模塊實現(xiàn)給圖片打水印的方法,涉及使用PIL模塊操作圖片的相關(guān)技巧,需要的朋友可以參考下2015-05-05
PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample?Dropout方式
這篇文章主要介紹了PyTorch使用Tricks:Dropout,R-Dropout和Multi-Sample?Dropout方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02
Appium+Python實現(xiàn)簡單的自動化登錄測試的實現(xiàn)
這篇文章主要介紹了Appium+Python實現(xiàn)簡單的自動化登錄測試的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01
使用pycharm和pylint檢查python代碼規(guī)范操作
這篇文章主要介紹了使用pycharm和pylint檢查python代碼規(guī)范操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06
windows端python版本管理工具pyenv-win安裝使用
這篇文章主要介紹了如何通過git方式下載和配置pyenv-win,包括下載、克隆倉庫、配置環(huán)境變量等步驟,同時還詳細(xì)介紹了如何使用pyenv-win管理Python版本,需要的朋友可以參考下2025-01-01

