python?pandas遍歷每行并累加進行條件過濾方式
pandas遍歷每行并累加進行條件過濾

本次記錄主要實現(xiàn)對每行進行排序,并保留前80%以前的偏好。
思路:
將每行的概率進行排序,然后累加,累加值小于等于0.8的偏好保留,獲得一個累加過濾的dataframe,然后映射回原始數(shù)據(jù)中,保留每行的偏好。接下來是代碼的實現(xiàn)
a = [[0.2, 0.35, 0.45], [0.1,0.2, 0.7], [0.3, 0.5, 0.2]] data = pd.DataFrame(a, index=['user1','user2','user3'], columns=["a", "b", "c"])
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
sum_df.append(new_df)
sum_df = pd.DataFrame(sum_df)
print(sum_df) 
這是累加之后每個用戶保留的前80%偏好的類型,接下來如何將這個特征映射回去,將累加后的dataframe通過空值將其轉化為0-1dataframe,再和原數(shù)據(jù)集一一對應相乘,就可以映射回去了,代碼如下
d = (sum_df.notnull())*1 print(d)

final_df = d*data #將保留地特征映射到原始數(shù)據(jù)中 print(final_df)

本節(jié)內容目標明確,實現(xiàn)了每個用戶的前80%偏好,不知道正在看的小伙伴有沒有懂?可以一起討論哦!
接下來,考慮優(yōu)化這個實現(xiàn)的代碼,前面的思路是通過兩個dataframe相乘實現(xiàn)的,當數(shù)據(jù)集非常大的時候,效率很低,于是不用list,利用字典的形式實現(xiàn)
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
origin = row.to_dict() #原始每個用戶值
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
name = new_df.name #user
tmp = new_df.to_dict()
for key in tmp.keys(): # 原始值映射
tmp[key] = origin[key]
tmp['user'] = name
sum_df.append(tmp)
sum_df = pd.DataFrame(sum_df).set_index('user').fillna(0)
print(sum_df) 
通過字典映射效率很高,新測有效!
python DataFrame遍歷
在數(shù)據(jù)分析的過程中,往往需要用到DataFrame的類型,因為這個類型就像EXCEL表格一樣,便于我們個中連接、計算、統(tǒng)計等操作。在數(shù)據(jù)分析的過程中,避免不了的要對數(shù)據(jù)進行遍歷,那么,DataFrame如何遍歷呢?之前,小白每次使用時都是Google或百度,想想,還是總結一下~
小白經(jīng)常用到的有三種方式,如下:
首先,先讀入一個DataFrame
import pandas as pd
#讀入數(shù)據(jù)
df = pd.read_table('d:/Users/chen_lib/Desktop/tmp.csv',sep=',', header='infer')
df.head()
?
-----------------result------------------
? ? ? ? mas ?effectdate?? ? num
0?? ?371379?? ?2019-07-15?? ?361
1?? ?344985?? ?2019-07-13?? ?77
2?? ?425090?? ?2019-07-01?? ?105
3?? ?344983?? ?2019-02-19?? ?339
4?? ?432430?? ?2019-02-21?? ?1621.DataFrame.iterrows()
將DataFrame的每一行迭代為{索引,Series}對,對DataFrame的列,用row['cols']讀取元素
for index, row in df.iterrows(): ? ? print(index,row['mas'],row['num'])? ?? ? ------------result--------------- 0 371379 361 1 344985 77 2 425090 105 3 344983 339 4 432430 162
從結果可以看出,第一列就是對應的index,也就是索引,從0開始,第二第三列是自定義輸出的列,這樣就完成了對DataFrame的遍歷。
2.DataFrame.itertuples()
將DataFrame的每一行迭代為元祖,可以通過row['cols']對元素進行訪問,方法一效率高。
for row in df.itertuples(): ? ? print(getattr(row, 'mas'), getattr(row, 'num')) # 輸出每一行 ? ? -------------result----------------- 371379 361 344985 77 425090 105 344983 339 432430 162
從結果可以看出,這種方法是沒有index的,直接輸出每一行的結果。
3.DataFrame.iteritems()
這種方法和上面兩種不同,這個是按列遍歷,將DataFrame的每一列迭代為(列名, Series)對,可以通過row['cols']對元素進行訪問。
for index, row in df.iteritems(): ? ? print(index,row[0],row[1],row[2]) ? ? -------------result------------------ masterhotelid 371379 344985 425090 effectdate 2019-07-15 2019-07-13 2019-07-01 quantity 361 77 105
從結果可以看出,index輸出的是列名,row是用來讀取第幾行的數(shù)據(jù),結果是按列展示
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
Python基礎globlal nonlocal和閉包函數(shù)裝飾器語法糖
這篇文章主要為大家介紹了Python基礎globlal nonlocal和閉包函數(shù)裝飾器語法糖示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-11-11
巧妙使用Python裝飾器處理if...elif...else
大家好,今天在 Github 閱讀 EdgeDB[1] 的代碼,發(fā)現(xiàn)它在處理大量if…elif…else的時候,巧妙地使用了裝飾器,方法設計精巧,分享給大家一下,歡迎收藏學習,喜歡點贊支持2021-11-11
Python + opencv對拍照得到的圖片進行背景去除的實現(xiàn)方法
這篇文章主要介紹了Python + opencv對拍照得到的圖片進行背景去除的實現(xiàn)方法,本文通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-11-11

