Pandas的DataFrame如何做交集,并集,差集與對稱差集
一、簡介
Python的數(shù)據(jù)類型集合:由不同元素組成的集合,集合中是一組無序排列的可 Hash 的值(不可變類型),可以作為字典的Key
Pandas中的DataFrame:DataFrame是一個表格型的數(shù)據(jù)結(jié)構(gòu),可以理解為帶有標簽的二維數(shù)組。
常用的集合操作如下圖所示:

二、交集

pandas的merge功能默認為 inner 連接,可以實現(xiàn)取交集- 集合
set可以直接用 & 取交集
import pandas as pd
print("CSDN葉庭云:https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 & set2
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])
df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])
pd.merge(df1, df2, on=['id','name'])操作如下所示:

三、并集

- Pandas的 merge 方法里參數(shù) how 的取值有 “left”, “right”, “inner”, “outer”,默認是inner。outer外連接可以實現(xiàn)取并集。另一種方法也可以df1.append(df2)后去重,保留第一次出現(xiàn)的也可以實現(xiàn)取并集。
- 集合 set 可以直接用 | 取并集
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 | set2
print("CSDN葉庭云:https://yetingyun.blog.csdn.net/")
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])
df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])
pd.merge(df1, df2,
? ? ? ? ?on=['id','name'],
? ? ? ? ?how='outer')
? ? ? ? ?
df3 = df1.append(df2)
df3.drop_duplicates(subset=['id'], keep="first")
四、差集

set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 - set2
print("CSDN葉庭云:https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set2 - set1
# df1-df2
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])
df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])
df1 = df1.append(df2)
df1 = df1.append(df2)
set_diff_df = df1.drop_duplicates(subset=df1.columns,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? keep=False)
set_diff_df
# df2-df1
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])
df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])
print("CSDN葉庭云:https://yetingyun.blog.csdn.net/")
df2 = df2.append(df1)
df2 = df2.append(df1)
set_diff_df = df2.drop_duplicates(subset=df2.columns,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? keep=False)
set_diff_df
# df1-df2
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])
df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])
pd.concat([df1, df2, df2]).drop_duplicates(keep=False)
# df2-df1
df1 = pd.DataFrame([
? ? ? ? ['1', 'Python'],
? ? ? ? ['2', 'Go'],
? ? ? ? ['3', 'C++'],
? ? ? ? ['4', 'Java'],
? ? ], columns=['id','name'])
df2 = pd.DataFrame([
? ? ? ? ['2','Go'],
? ? ? ? ['3','C++'],
? ? ? ? ['5','JavaScript'],
? ? ? ? ['6','C'],
? ? ], columns=['id','name'])
pd.concat([df2, df1, df1]).drop_duplicates(keep=False)
五、對稱差集

print("CSDN葉庭云:https://yetingyun.blog.csdn.net/")
set1 = {"Python", "Go", "C++", "Java"}
set2 = {"Go", "C++", "JavaScript", "C"}
set1 ^ set2 ? ?# 對稱差集
# 去重 ? 不保留重復的:即可實現(xiàn)取對稱差集
df3 = df1.append(df2)
df3.drop_duplicates(subset=['id'], keep=False)
到此這篇關于Pandas的DataFrame如何做交集,并集,差集與對稱差集的文章就介紹到這了,更多相關Pandas的DataFrame如何做交集,并集,差集與對稱差集內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Django通用類視圖實現(xiàn)忘記密碼重置密碼功能示例
今天小編就為大家分享一篇Django通用類視圖實現(xiàn)忘記密碼重置密碼功能示例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
翻轉(zhuǎn)數(shù)列python實現(xiàn),求前n項和,并能輸出整個數(shù)列的案例
這篇文章主要介紹了翻轉(zhuǎn)數(shù)列python實現(xiàn),求前n項和,并能輸出整個數(shù)列的案例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05
Python中還原JavaScript的escape函數(shù)編碼后字符串的方法
這篇文章主要介紹了Python中解析JavaScript的escape函數(shù)編碼后字符串的方法,即Python中如何還原JavaScript escape函數(shù)編碼后的字符串,需要的朋友可以參考下2014-08-08
Python實戰(zhàn)案例之可增刪改查的員工管理系統(tǒng)
本實戰(zhàn)案例主要對MySQL進行一些基本操作,通過完成本實驗任務,要求學生熟練掌握MySQL的增刪改查,并對MySQL的增刪改查基本操作進行管理員工的信息,需要的朋友跟著小編往下看吧2021-10-10
python采用django框架實現(xiàn)支付寶即時到帳接口
這篇文章主要介紹了python采用django框架實現(xiàn)支付寶即時到帳接口的相關資料,需要的朋友可以參考下2016-05-05
如何實現(xiàn)更換Jupyter Notebook內(nèi)核Python版本
這篇文章主要介紹了如何實現(xiàn)更換Jupyter Notebook內(nèi)核Python版本,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-05-05
對pytorch的函數(shù)中的group參數(shù)的作用介紹
今天小編就為大家分享一篇對pytorch的函數(shù)中的group參數(shù)的作用介紹,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02
Python統(tǒng)計日志中每個IP出現(xiàn)次數(shù)的方法
這篇文章主要介紹了Python統(tǒng)計日志中每個IP出現(xiàn)次數(shù)的方法,實例分析了Python基于正則表達式解析日志文件的相關技巧,需要的朋友可以參考下2015-07-07

