Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解

更新時間：2022年10月08日 15:05:28 作者：Mr_Darcy8

這篇文章主要為大家介紹了Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

正文

今天本人在趕學(xué)校課程作業(yè)的時候突然發(fā)現(xiàn)groupby這個分組函數(shù)還是蠻有用的，有了這個分組之后你可以實(shí)現(xiàn)很多統(tǒng)計目標(biāo)。

當(dāng)然，最主要的是，他的使用非常簡單

本期我們以上期作業(yè)為例，單走一篇文章來看看這個函數(shù)可以實(shí)現(xiàn)哪些功能：

（本期需要準(zhǔn)備的行囊）：

jupyter notebook環(huán)境（anaconda自帶）
pandas第三方庫
numpy第三方庫（也許會用吧）
能運(yùn)行以上依賴的電腦和舒服的外設(shè)
一定的python基礎(chǔ)
需要是吃飽喝足的你，帶上能運(yùn)作的小腦瓜來繼續(xù)

一、了解groupby

這是一個函數(shù)，一般作用于dataframe上，有返回值，不改變原變量。輸出的是原dataframe按照傳入?yún)?shù)分組后的結(jié)果。

我們一通引入獲得了一個dataframe，按照“user”進(jìn)行了分組，發(fā)現(xiàn)得到的是一個dataframegroupby對象。這個對象內(nèi)部是什么呢？我們用遍歷循環(huán)來看看：

for i in f.groupby("user"):
    print(i)

發(fā)現(xiàn)這個對象內(nèi)部是一個個元組，每個元組的第一個元素是我們設(shè)定的分組依據(jù)的值

（例如這里我們設(shè)定的分組依據(jù)是user，這里第一個元組包含的是user為19500時的所有記錄，元組第一個元素就是19500）

而當(dāng)我們輸出元組里的第二個元素的時候，發(fā)現(xiàn)得到的是類似dataframe的結(jié)果

看前面user下面的數(shù)據(jù),整齊劃一,是不是？o(〃＾▽＾〃)o

二、數(shù)據(jù)文件簡介

文章中所用數(shù)據(jù)為某時段內(nèi)消費(fèi)者的行為數(shù)據(jù)。user為消費(fèi)者編號，brand為品牌編號，behavr為消費(fèi)者行為（0代表瀏覽，1代表購買，2代表收藏，3代表加入購物車。且允許存在不瀏覽直接購買的行為）

接下來我們要針對這些數(shù)據(jù)進(jìn)行處理，輸出一些有用的結(jié)果

三、求各個商品購買量

因?yàn)橐蠼y(tǒng)計的“購買”行為屬于behavr列中的某特殊值。很容易想到先用條件篩選選出所有購買的記錄，再用groupby按各個商品分類，再用size（）方法統(tǒng)計分組后每組的數(shù)量，以此輸出各個商品的購買量。

那么會了這個之后來舉一反三一下：求各個商品瀏覽量

自行思考一下再往下翻哦

沒錯，就是改一下一開始條件過濾的數(shù)值即可。把購買（1）改成瀏覽（0）

四、求各個商品轉(zhuǎn)化率

商業(yè)數(shù)據(jù)分析經(jīng)常會遇到一個數(shù)據(jù)量——轉(zhuǎn)化率，其實(shí)就是購買的數(shù)量比上瀏覽的數(shù)量。以此來看這個商品是否足夠吸引人。

我們這里在上面已經(jīng)計算出了各個商品的瀏覽量和購買量，事實(shí)上只需要比一比就可以了。

正好，pandas的series計算是我們想要的，他會根據(jù)鍵值對去分別計算

這個series里user名字是鍵，數(shù)量是值，非常完美符合series計算設(shè)定，我們直接除一下就行。

pandas用.div()來實(shí)現(xiàn)比值功能（前面的比后面的）。

要注意的是，series計算可能會帶來缺失值，因?yàn)閮蓚€series計算的時候并不能保證兩個series的鍵完全一樣

即有可能出現(xiàn)前一個series有的鍵而后一個沒有。比如這里可以看出brand 11就只有瀏覽沒有購買，因此統(tǒng)計購買量的時候沒有11這個鍵，但是瀏覽量中有11這個鍵。

在計算的時候不共有的鍵會以缺失值的形式出現(xiàn)，即NaN：

如果我們不想看到這個缺失值NaN，在div內(nèi)添加fill_value參數(shù)可以把缺失值補(bǔ)充上

五、轉(zhuǎn)化率最高的30個商品及其轉(zhuǎn)化率

這就需要用到排序了。其實(shí)也很簡單。我們把前面計算好的轉(zhuǎn)化率用sort_values()函數(shù)排序之后輸出前30個即可：

sort_value()函數(shù)中設(shè)置ascending參數(shù)為False即為降序，默認(rèn)為True升序
head(n)用來輸出前n個，同理tail(n)用來輸出最后n個

小小の總結(jié)

其實(shí)我們不難發(fā)現(xiàn)，python語言其實(shí)本身過于“高級”。他不需要你思考用什么算法來完成這些操作（特別是你本身還在用第三方庫的時候）。

她總有相關(guān)的函數(shù)或者方法可以替你完成。并且這個函數(shù)內(nèi)部可能是C語言等基礎(chǔ)語言實(shí)現(xiàn)的，代碼效率會比你自己在python上手碼要快很多

作為使用者，想要快速入門的話，你所需要的——

只是把這些都記住就行了

大概這就是一個像文科一樣的編程語言吧……

以上就是Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解的詳細(xì)內(nèi)容，更多關(guān)于Pandas數(shù)據(jù)分析groupby函數(shù)的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解

目錄

正文

一、了解groupby

二、數(shù)據(jù)文件簡介

三、求各個商品購買量

四、求各個商品轉(zhuǎn)化率

五、轉(zhuǎn)化率最高的30個商品及其轉(zhuǎn)化率

小小の總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解

目錄

正文

一、了解groupby

二、數(shù)據(jù)文件簡介

三、求各個商品購買量

四、求各個商品轉(zhuǎn)化率

五、轉(zhuǎn)化率最高的30個商品及其轉(zhuǎn)化率

小小の總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

一、了解groupby

三、求各個商品購買量

五、轉(zhuǎn)化率最高的30個商品及其轉(zhuǎn)化率