python使用dabl幾行代碼實(shí)現(xiàn)數(shù)據(jù)處理分析及ML自動(dòng)化
數(shù)據(jù)科學(xué)模型開發(fā)涉及各種組件,包括數(shù)據(jù)收集、數(shù)據(jù)處理、探索性數(shù)據(jù)分析、建模和部署。在訓(xùn)練機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型之前,必須清洗數(shù)據(jù)集并使其適合訓(xùn)練。通常這些過(guò)程是重復(fù)的,且占用了大部時(shí)間。
為了克服這個(gè)問(wèn)題,今天我分享一個(gè)名為 dabl 的開源 Python 工具包,它可以自動(dòng)化機(jī)器學(xué)習(xí)模型開發(fā),包括數(shù)據(jù)預(yù)處理、特征可視化和分析、建模。歡迎收藏學(xué)習(xí),喜歡點(diǎn)贊支持。
dabl
dabl 是一個(gè)數(shù)據(jù)分析基線庫(kù),可以讓機(jī)器學(xué)習(xí)建模更容易,它包括各種特性,我們只需幾行 Python 代碼就可以處理、分析和建模。
安裝
pip install dabl
1、數(shù)據(jù)預(yù)處理
dabl 在幾行 Python 代碼中自動(dòng)執(zhí)行數(shù)據(jù)預(yù)處理管道。dabl執(zhí)行的預(yù)處理步驟包括識(shí)別缺失值、刪除冗余特征以及理解特征的數(shù)據(jù)類型以進(jìn)一步執(zhí)行特征工程。
dabl檢測(cè)到的特征類型列表包括:
continuous
categorical
date
Dirty_float
Low_card_int
free_string
Useless
dabl 使用一行 Python 代碼將所有數(shù)據(jù)集特征自動(dòng)歸類為上述數(shù)據(jù)類型。
df_clean = dabl.clean(df, verbose=1)

原始 Titanic 數(shù)據(jù)集有12個(gè)特征,dabl 會(huì)自動(dòng)將它們分類為上述數(shù)據(jù)類型,以便進(jìn)行進(jìn)一步的特征工程。dabl還提供了根據(jù)需求更改任何特性的數(shù)據(jù)類型的功能。
db_clean = dabl.clean(db, type_hints={"Cabin": "categorical"})
可以使用 detect_types() 函數(shù)查看為每個(gè)特征分配的數(shù)據(jù)類型。

2、探索性數(shù)據(jù)分析
EDA 是數(shù)據(jù)科學(xué)模型開發(fā)生命周期的重要組成部分。Seaborn、Matplotlib 等是執(zhí)行各種分析以更好地理解數(shù)據(jù)集的可視化庫(kù)。dabl 使 EDA 變得非常簡(jiǎn)單且節(jié)省大量時(shí)間。
dabl.plot(df_clean, target_col="Survived")
dabl 中 plot()函數(shù)可以通過(guò)繪制各種圖來(lái)實(shí)現(xiàn)可視化,包括:
- 目標(biāo)分布的條形圖
- 散點(diǎn)對(duì)圖
- 線性判別分析
dabl 自動(dòng)對(duì)數(shù)據(jù)集執(zhí)行 PCA,并顯示數(shù)據(jù)集中所有特征的判別 PCA 圖。
3、建模
dabl 在訓(xùn)練數(shù)據(jù)上訓(xùn)練各種基線機(jī)器學(xué)習(xí)算法來(lái)加速建模工作流程,并返回性能最佳的模型。dabl 做出簡(jiǎn)單的假設(shè)并為基線模型生成指標(biāo)。
可以使用 dabl 中 SimpleClassifier() 函數(shù)進(jìn)行建模,它很快就可以返回最佳模型。

結(jié)論
Dabl 是一個(gè)方便的工具,它使機(jī)器學(xué)習(xí)更易于容易和快速,你只需幾行 Python 代碼就可以完成數(shù)據(jù)清理、特征可視化和基線模型的開發(fā)。
如果你想了解更多,可以查看GitHub:? https://github.com/amueller/dabl
以上就是python使用dabl幾行代碼實(shí)現(xiàn)數(shù)據(jù)處理分析及ML自動(dòng)化的詳細(xì)內(nèi)容,更多關(guān)于dabl數(shù)據(jù)處理分析及ML自動(dòng)化的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- Python利用Charles 實(shí)現(xiàn)全部自動(dòng)答題思路流程分析
- Biblibili視頻投稿接口分析并以Python實(shí)現(xiàn)自動(dòng)投稿功能
- Python實(shí)現(xiàn)自動(dòng)裝機(jī)功能案例分析
- Python + Requests + Unittest接口自動(dòng)化測(cè)試實(shí)例分析
- python自動(dòng)化測(cè)試之異常及日志操作實(shí)例分析
- Python自動(dòng)化運(yùn)維_文件內(nèi)容差異對(duì)比分析
- python自動(dòng)化工具日志查詢分析腳本代碼實(shí)現(xiàn)
- ?分享4款Python 自動(dòng)數(shù)據(jù)分析神器
相關(guān)文章
對(duì)Pandas MultiIndex(多重索引)詳解
今天小編就為大家分享一篇對(duì)Pandas MultiIndex(多重索引)詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-11-11
Python爬蟲包 BeautifulSoup 遞歸抓取實(shí)例詳解
這篇文章主要介紹了Python爬蟲包 BeautifulSoup 遞歸抓取實(shí)例詳解的相關(guān)資料,需要的朋友可以參考下2017-01-01
Window 64位下python3.6.2環(huán)境搭建圖文教程
這篇文章主要為大家詳細(xì)介紹了Window 64位下python3.6.2環(huán)境搭建圖文教程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-09-09
Python圖片存儲(chǔ)和訪問(wèn)的三種方式詳解
在?Python?中處理圖像數(shù)據(jù)的時(shí)候,例如應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)等算法可以處理大量圖像數(shù)據(jù)集,這里就需要學(xué)習(xí)如何用最簡(jiǎn)單的方式存儲(chǔ)、讀取數(shù)據(jù)。本文介紹了Python中圖片存儲(chǔ)和訪問(wèn)的三種方式,需要的可以參考一下2022-04-04
Python采用socket模擬TCP通訊的實(shí)現(xiàn)方法
這篇文章主要介紹了Python采用socket模擬TCP通訊的實(shí)現(xiàn)方法,程序分為TCP的server端與client端兩部分,分別對(duì)這兩部分進(jìn)行了較為深入的分析,需要的朋友可以參考下2014-11-11
python 基于opencv實(shí)現(xiàn)高斯平滑
這篇文章主要介紹了python 基于opencv實(shí)現(xiàn)高斯平滑,幫助大家更好的理解和使用python處理圖片,感興趣的朋友可以了解下2020-12-12
Python中的并發(fā)處理之a(chǎn)syncio包使用的詳解
本篇文章主要介紹了Python中的并發(fā)處理之a(chǎn)syncio包使用的詳解,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-04-04
django與vue的完美結(jié)合_實(shí)現(xiàn)前后端的分離開發(fā)之后在整合的方法
今天小編就為大家分享一篇django與vue的完美結(jié)合_實(shí)現(xiàn)前后端的分離開發(fā)之后在整合的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08
pytorch實(shí)現(xiàn)從本地加載 .pth 格式模型
今天小編就為大家分享一篇pytorch實(shí)現(xiàn)從本地加載 .pth 格式模型,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02

