Python箱型圖處理離群點的例子
首先我們簡單地區(qū)分一下離群點(outlier)以及異常值(anomaly):
離群點:

異常值:
個人覺著異常值和離群點是兩個不同的概念,當(dāng)然大家在數(shù)據(jù)預(yù)處理時對于這兩個概念不做細(xì)致的區(qū)分,不如:姚明站在我們中間的時候,我覺著我們只能說他是一個離群點,我們能說他異常嗎?異常的假設(shè)是姚明得了巨人癥,可是他不是。
箱型圖


代碼塊
餐飲銷售數(shù)據(jù)離群點檢測代碼:
#-*- coding: utf-8 -*- import pandas as pd catering_sale = '../data/catering_sale.xls' #餐飲數(shù)據(jù) data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數(shù)據(jù),指定“日期”列為索引列 import matplotlib.pyplot as plt #導(dǎo)入圖像庫 plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標(biāo)簽 plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負(fù)號 plt.figure() #建立圖像 p = data.boxplot(return_type='dict') #畫箱線圖,直接使用DataFrame的方法 x = p['fliers'][0].get_xdata() # 'fliers'即為離群點的標(biāo)簽 y = p['fliers'][0].get_ydata() y.sort() #從小到大排序,該方法直接改變原對象 #用annotate添加注釋 #其中有些相近的點,注解會出現(xiàn)重疊,難以看清,需要一些技巧來控制。 #以下參數(shù)都是經(jīng)過調(diào)試的,需要具體問題具體調(diào)試。 for i in range(len(x)): if i > 0: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i])) else: plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i])) plt.show() #展示箱線圖
運行結(jié)果:

以上這篇Python箱型圖處理離群點的例子就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Gradio機(jī)器學(xué)習(xí)模型快速部署工具應(yīng)用分享
這篇文章主要為大家介紹了Gradio機(jī)器學(xué)習(xí)模型快速部署工具應(yīng)用分享原文翻譯,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04
Pytorch之ToPILImage()不輸出圖片問題及解決
這篇文章主要介紹了Pytorch之ToPILImage()不輸出圖片問題及解決方案,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2024-02-02
python數(shù)據(jù)結(jié)構(gòu)之棧、隊列及雙端隊列
在上一章的學(xué)習(xí)中,我們主要學(xué)習(xí)了怎么去衡量一個算法的好壞,比較常見的方式是使用大O記法,就是所謂的時間復(fù)雜度,這一章節(jié)我來學(xué)習(xí)基本的數(shù)據(jù)結(jié)構(gòu),如棧、隊列和雙端隊列等等。感興趣的小伙伴可以參考一下2021-12-12

