推薦一款高效的python數(shù)據(jù)框處理工具Sidetable
我們知道 Pandas 是數(shù)據(jù)科學(xué)社區(qū)中流行的 Python 包,它包含許多函數(shù)和方法來(lái)分析數(shù)據(jù)。盡管它的功能對(duì)于數(shù)據(jù)分析來(lái)說(shuō)足夠有效,但定制的庫(kù)可以為 Pandas 增加更多的價(jià)值。
Sidetable 就是一個(gè)開(kāi)源 Python 庫(kù),它是一種可用于數(shù)據(jù)分析和探索的工具,作為 value_counts 和 crosstab 的功能組合使用的。在本文中,我們將更多地討論和探索其功能。歡迎收藏學(xué)習(xí)、點(diǎn)贊支持。
安裝
可以使用從 PyPI 安裝 Sidetable
pip install sidetable
用法
我們將使用從 Kaggle 下載的 Titanic 數(shù)據(jù)集來(lái)實(shí)現(xiàn)該庫(kù)。
sidetable 的思想是減少數(shù)據(jù)分析所需的代碼行數(shù)并加快工作流程。對(duì)于任何數(shù)據(jù)集,都需要執(zhí)行一些數(shù)據(jù)分析任務(wù),包括可視化特征分布、頻率計(jì)數(shù)、缺失記錄計(jì)數(shù)。
我們將使用 Titanic 數(shù)據(jù)集詳細(xì)討論 Sidetable 庫(kù)的特性。
1、freq()
Pandas 提供了 value_counts() 函數(shù),用于計(jì)算特征的頻率計(jì)數(shù)。Pandas 可以計(jì)算分布計(jì)數(shù)和概率分布,但你可能希望更容易組合這些值。

分布計(jì)數(shù)和概率分布可以結(jié)合使用,但需要大量的輸入和代碼記憶。
對(duì)于 sidetable,使用 freq() 函數(shù)在一行Python代碼中實(shí)現(xiàn)它更簡(jiǎn)單。你可以獲得累計(jì)總數(shù)、百分比和更大的靈活性。

除此之外,還可以對(duì)多個(gè)列進(jìn)行分組,以可視化已分組要素的分布。

你還可以使用參數(shù) value 指定要素列,以指示分組的數(shù)據(jù)“sum”應(yīng)基于特定列。

2、Counts
sidetable 中的 counts() 函數(shù)可以生成一個(gè)匯總表,該匯總表可用于確定你需要考慮為分類或數(shù)值的特征,以便進(jìn)一步分析和建模。counts() 函數(shù)顯示特征的唯一值的數(shù)量以及最頻繁和最不頻繁的值。

可以使用 exclude 和 include 參數(shù)從數(shù)據(jù)集中排除或包含特定數(shù)據(jù)類型。
3、missing()
sidetable 中 missing()函數(shù)生成一個(gè)匯總表,該匯總表按每列的總?cè)笔е档挠?jì)數(shù)和百分比顯示缺失記錄。

4、subtotal()
Sidetable 中 subtotal() 函數(shù)最適合與 Pandas 中的 group by 函數(shù)一起使用。它可用于計(jì)算數(shù)據(jù)幀分組的一個(gè)或多個(gè)級(jí)別的小計(jì)。

subtotal()函數(shù)可以將其添加到分組數(shù)據(jù)的一個(gè)或多個(gè)級(jí)別。你需要首先使用groupby()函數(shù)對(duì)數(shù)據(jù)框進(jìn)行分組,然后在每個(gè)級(jí)別添加一個(gè)小計(jì)。

結(jié)論
Sidetable 是一種高效且方便的工具,它結(jié)合了 Pandas 的 value_counts 和 crosstab,生成一個(gè)可解釋且易于理解的匯總表,還可用于提供分析結(jié)果。語(yǔ)法的簡(jiǎn)單性使其成為用于數(shù)據(jù)分析和探索的更好的庫(kù)。
以上就是這款高效的python數(shù)據(jù)框 處理工具Sidetable的詳細(xì)內(nèi)容了。
更多python數(shù)據(jù)框 處理工具Sidetable的內(nèi)容請(qǐng)關(guān)注腳本之家其他相關(guān)文章。
相關(guān)文章
python實(shí)現(xiàn)查找所有程序的安裝信息
本文給大家分享的是使用python通過(guò)注冊(cè)表信息實(shí)現(xiàn)快速查找windows應(yīng)用程序的安裝信息的方法和代碼示例,有需要的小伙伴可以參考下2020-02-02
如何使用Python實(shí)現(xiàn)PPT批量轉(zhuǎn)圖片
這篇文章主要為大家詳細(xì)介紹了如何使用Python開(kāi)發(fā)一個(gè)帶有圖形界面的PPT批量轉(zhuǎn)圖片工具,文中的示例代碼講解詳細(xì),有需要的小伙伴可以了解下2025-02-02
python opencv圓、橢圓與任意多邊形的繪制實(shí)例詳解
在本篇文章里小編給大家整理的是關(guān)于python-opencv-圓、橢圓與任意多邊形的繪制內(nèi)容,需要的朋友們可以學(xué)習(xí)參考下。2020-02-02
python中的try except與R語(yǔ)言中的tryCatch異常解決
這篇文章主要為大家介紹了python中的try except與R語(yǔ)言中的tryCatch異常解決的方式及分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-11-11
利用Python自動(dòng)監(jiān)控網(wǎng)站并發(fā)送郵件告警的方法
這篇文章介紹的是通過(guò)定時(shí)執(zhí)行python腳本,可以實(shí)現(xiàn)定期批量訪問(wèn)網(wǎng)站,如果發(fā)現(xiàn)網(wǎng)站打不開(kāi),第一時(shí)間發(fā)郵件到管理員郵箱進(jìn)行預(yù)警。有需要的可以參考借鑒。2016-08-08
解決tensorflow打印tensor有省略號(hào)的問(wèn)題
今天小編就為大家分享一篇解決tensorflow打印tensor有省略號(hào)的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02
Python用SSH連接到網(wǎng)絡(luò)設(shè)備
這篇文章主要介紹了Python用SSH連接到網(wǎng)絡(luò)設(shè)備,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-02-02

