Python?數(shù)據(jù)分析教程探索性數(shù)據(jù)分析

更新時間：2022年08月17日 11:43:59 作者：海擁???????

這篇文章主要介紹了Python?數(shù)據(jù)分析教程探索性數(shù)據(jù)分析，文章圍繞主題展開詳細的內容介紹，具有一定的參考價值，需要的小伙伴可以參考一下

什么是探索性數(shù)據(jù)分析（EDA）？

EDA 是數(shù)據(jù)分析下的一種現(xiàn)象，用于更好地理解數(shù)據(jù)方面，例如：
– 數(shù)據(jù)的主要特征
– 變量和它們之間的關系
– 確定哪些變量對我們的問題很重要
我們將研究各種探索性數(shù)據(jù)分析方法，

例如：

描述性統(tǒng)計，這是一種簡要概述我們正在處理的數(shù)據(jù)集的方法，包括樣本的一些度量和特征
分組數(shù)據(jù) [使用group by 進行基本分組]
ANOVA，方差分析，這是一種計算方法，可將觀察集中的變化劃分為不同的分量。
相關和相關方法

我們將使用的數(shù)據(jù)集是子投票數(shù)據(jù)集，您可以在 python 中將其導入為：

import pandas as pd
Df = pd.read_csv("https://vincentarelbundock.github.io / Rdatasets / csv / car / Child.csv")

描述性統(tǒng)計

描述性統(tǒng)計是了解數(shù)據(jù)特征和快速總結數(shù)據(jù)的有用方法。python 中的 Pandas 提供了一個有趣的方法describe() 。describe 函數(shù)對數(shù)據(jù)集應用基本統(tǒng)計計算，如極值、數(shù)據(jù)點計數(shù)標準差等。任何缺失值或 NaN 值都會被自動跳過。describe() 函數(shù)很好地描繪了數(shù)據(jù)的分布情況。

DF.describe()

這是您在運行上述代碼時將獲得的輸出：

另一種有用的方法是 value_counts()，它可以獲取分類屬性值系列中每個類別的計數(shù)。例如，假設您正在處理一個客戶數(shù)據(jù)集，這些客戶在列名 age 下分為青年、中年和老年類別，并且您的數(shù)據(jù)框是“DF”。您可以運行此語句以了解有多少人屬于各個類別。在我們的數(shù)據(jù)集示例中可以使用教育列

DF["education"].value_counts()

上述代碼的輸出將是：

另一個有用的工具是 boxplot，您可以通過 matplotlib 模塊使用它。箱線圖是數(shù)據(jù)分布的圖形表示，顯示極值、中位數(shù)和四分位數(shù)。我們可以使用箱線圖輕松找出異常值?，F(xiàn)在再次考慮我們一直在處理的數(shù)據(jù)集，讓我們在屬性總體上繪制一個箱線圖

import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()

發(fā)現(xiàn)異常值后，輸出圖將如下所示：

分組數(shù)據(jù)

Group by 是 pandas 中可用的一個有趣的度量，它可以幫助我們找出不同分類屬性對其他數(shù)據(jù)變量的影響。讓我們看一個在同一數(shù)據(jù)集上的示例，我們想找出人們的年齡和教育對投票數(shù)據(jù)集的影響。

DF.groupby(['education', 'vote']).mean()

輸出會有點像這樣：

如果按輸出表進行分組難以理解，則進一步的分析師使用數(shù)據(jù)透視表和熱圖對其進行可視化。

方差分析

ANOVA 代表方差分析。執(zhí)行它是為了找出不同類別數(shù)據(jù)組之間的關系。
在 ANOVA 下，我們有兩個測量結果：
– F-testscore：顯示組均值相對于變化的變化
– p 值：顯示結果的重要性
這可以使用 python 模塊 scipy 方法名稱f_oneway()

這些樣本是每組的樣本測量值。
作為結論，如果 ANOVA 檢驗給我們一個大的 F 檢驗值和一個小的 p 值，我們可以說其他變量和分類變量之間存在很強的相關性。

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python?數(shù)據(jù)分析教程探索性數(shù)據(jù)分析

目錄

什么是探索性數(shù)據(jù)分析（EDA）？

描述性統(tǒng)計

分組數(shù)據(jù)

方差分析

相關性和相關性計算

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python?數(shù)據(jù)分析教程探索性數(shù)據(jù)分析

目錄

什么是探索性數(shù)據(jù)分析（EDA）？

描述性統(tǒng)計

分組數(shù)據(jù)

方差分析

相關性和相關性計算

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

什么是探索性數(shù)據(jù)分析（EDA）？