kaggle數(shù)據(jù)分析家庭電力消耗過(guò)程詳解

更新時(shí)間：2022年12月11日 17:01:08 作者：Livingbody

這篇文章主要為大家介紹了kaggle數(shù)據(jù)分析家庭電力消耗示例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

一、家庭電力消耗分析

1.背景描述

本數(shù)據(jù)集包含了一個(gè)家庭6個(gè)月的用電數(shù)據(jù)，收集于2007年1月至2007年6月。
這些數(shù)據(jù)包括全球有功功率、全球無(wú)功功率、電壓、全球強(qiáng)度、分項(xiàng)計(jì)量1（廚房）、分項(xiàng)計(jì)量2（洗衣房）和分項(xiàng)計(jì)量3（電熱水器和空調(diào)）等信息。該數(shù)據(jù)集共有260,640個(gè)測(cè)量值，可以為了解家庭用電情況提供重要的見(jiàn)解。

我們要感謝databeats團(tuán)隊(duì)提供這個(gè)數(shù)據(jù)集。如果你在你的研究中使用這個(gè)數(shù)據(jù)集，請(qǐng)注明原作者：Georges Hébrail 和 Alice Bérard

數(shù)據(jù)說(shuō)明

列名	說(shuō)明
Date	日期
Time	時(shí)間
Globalactivepower	該家庭所消耗的總有功功率（千瓦）
Globalreactivepower	該家庭消耗的總無(wú)功功率（千瓦）
Voltage	向家庭輸送電力的電壓（伏特）
Global_intensity	輸送到家庭的平均電流強(qiáng)度（安培）
Submetering1	廚房消耗的有功功率（千瓦）
Submetering2	洗衣房所消耗的有功功率（千瓦）
Submetering3	電熱水器和空調(diào)所消耗的有功功率（千瓦）

2.數(shù)據(jù)來(lái)源

www.kaggle.com/datasets/th…

3.問(wèn)題描述

本數(shù)據(jù)集可以用于機(jī)器學(xué)習(xí)的目的，如預(yù)測(cè)性建模或時(shí)間序列分析。例如，人們可以使用這個(gè)數(shù)據(jù)集，根據(jù)過(guò)去的數(shù)據(jù)來(lái)預(yù)測(cè)未來(lái)的家庭用電量。

分析不同類型的電氣設(shè)備對(duì)耗電量的影響

研究電力消耗如何隨時(shí)間和地點(diǎn)而變化

構(gòu)建一個(gè)預(yù)測(cè)模型來(lái)預(yù)測(cè)未來(lái)的電力消耗

二、數(shù)據(jù)加載

!pip install prophet  -i https://pypi.tuna.tsinghua.edu.cn/simple

data_path="/home/mw/input/Household_Electricity4767/household_power_consumption.csv"

import pandas as pd
import seaborn as sns
import numpy as np
from tqdm.auto import tqdm
from prophet import Prophet

df=pd.read_csv(data_path)

df.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

index	Date	Time	Global_active_power	Global_reactive_power	Voltage	Global_intensity
0	1/1/07	0:00:00	2.58	0.136	241.97	10.6
1	1/1/07	0:01:00	2.552	0.1	241.75	10.4
2	1/1/07	0:02:00	2.55	0.1	241.64	10.4
3	1/1/07	0:03:00	2.55	0.1	241.71	10.4
4	1/1/07	0:04:00	2.554	0.1	241.98	10.4

df.describe()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

	index	Sub_metering_3
count	260640.000000	256869.000000
mean	130319.500000	5.831825
std	75240.431418	8.186709
min	0.000000	0.000000
25%	65159.750000	0.000000
50%	130319.500000	0.000000
75%	195479.250000	17.000000
max	260639.000000	20.000000

df.dtypes

index                      int64
Date                      object
Time                      object
Global_active_power       object
Global_reactive_power     object
Voltage                   object
Global_intensity          object
Sub_metering_1            object
Sub_metering_2            object
Sub_metering_3           float64
dtype: object

df['Date']=pd.DatetimeIndex(df['Date'])

make_em_num = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']

def floating(string):
    try:
        return float(string)
    except:
        return float(0)

for column in tqdm(make_em_num):
    df[column] = df[column].apply(lambda item: floating(item))

HBox(children=(FloatProgress(value=0.0, max=7.0), HTML(value='')))

df.dtypes

index                             int64
Date                     datetime64[ns]
Time                             object
Global_active_power             float64
Global_reactive_power           float64
Voltage                         float64
Global_intensity                float64
Sub_metering_1                  float64
Sub_metering_2                  float64
Sub_metering_3                  float64
dtype: object

df.head()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } .dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; }

index	Date	Time	Global_active_power	Global_reactive_power	Voltage	Global_intensity
0	2007-01-01	0:00:00	2.580	0.136	241.97	10.6
1	2007-01-01	0:01:00	2.552	0.100	241.75	10.4
2	2007-01-01	0:02:00	2.550	0.100	241.64	10.4
3	2007-01-01	0:03:00	2.550	0.100	241.71	10.4
4	2007-01-01	0:04:00	2.554	0.100	241.98	10.4

sns.heatmap(df.drop(['index','Date','Time'], axis=1).corr(), annot=True)

<matplotlib.axes._subplots.AxesSubplot at 0x7f31603ed4e0>

三、預(yù)測(cè)

1.Prophet介紹

github.com/facebook/pr…

Prophet是一種基于可加性模型預(yù)測(cè)時(shí)間序列數(shù)據(jù)的程序，其中非線性趨勢(shì)可以按年度、每周和每日的季節(jié)性，以及假日效應(yīng)進(jìn)行擬合。它最適合于具有強(qiáng)烈季節(jié)效應(yīng)的時(shí)間序列和有幾個(gè)季節(jié)的歷史數(shù)據(jù)。Prophet對(duì)于缺失的數(shù)據(jù)和趨勢(shì)的變化是穩(wěn)健的，并且通常能夠很好地處理異常值。

2.模型介紹

Prophet模型如下：

g(t) 表示趨勢(shì)函數(shù)，擬合非周期性變化；
s(s)表示周期性變化，比如說(shuō)每周，每年，季節(jié)等；
h(t)表示假期變化，節(jié)假日可能是一天或者多天；
?t為噪聲項(xiàng)，用他來(lái)表示隨機(jī)無(wú)法預(yù)測(cè)的波動(dòng)，我們假設(shè)?t是高斯的。

趨勢(shì)中有兩個(gè)增長(zhǎng)函數(shù)，分別是分段線性函數(shù)（linear）和非線性邏輯回歸函數(shù)（logistic）擬合增長(zhǎng)曲線趨勢(shì)。通過(guò)從數(shù)據(jù)中選擇變化點(diǎn)，Prophet自動(dòng)探測(cè)趨勢(shì)變化；

使用傅里葉級(jí)數(shù)建模每年的季節(jié)分量；

使用虛變量代表過(guò)去，將來(lái)的相同節(jié)假日，屬于節(jié)假日就為1，不屬于就是0;

用戶提供的重要節(jié)假日列表

Modeling：建立時(shí)間序列模型。分析師根據(jù)預(yù)測(cè)問(wèn)題的背景選擇一個(gè)合適的模型。
Forecast Evaluation：模型評(píng)估。根據(jù)模型對(duì)歷史數(shù)據(jù)進(jìn)行仿真，在模型的參數(shù)不確定的情況下，我們可以進(jìn)行多種嘗試，并根據(jù)對(duì)應(yīng)的仿真效果評(píng)估哪種模型更適合。
Surface Problems：呈現(xiàn)問(wèn)題。如果嘗試了多種參數(shù)后，模型的整體表現(xiàn)依然不理想，這個(gè)時(shí)候可以將誤差較大的潛在原因呈現(xiàn)給分析師。
Visually Inspect Forecasts：以可視化的方式反饋整個(gè)預(yù)測(cè)結(jié)果。當(dāng)問(wèn)題反饋給分析師后，分析師考慮是否進(jìn)一步調(diào)整和構(gòu)建模型。

3.Prophet優(yōu)點(diǎn)

準(zhǔn)確，快速，擬合非?？欤梢赃M(jìn)行交互式探索
全自動(dòng)，無(wú)需人工操作就能對(duì)混亂的數(shù)據(jù)做出合理的預(yù)測(cè)
可調(diào)整的預(yù)測(cè)，預(yù)測(cè)模型的參數(shù)非常容易解釋，可以用業(yè)務(wù)知識(shí)改進(jìn)或調(diào)整預(yù)測(cè)
對(duì)缺失值和變化劇烈的時(shí)間序列和離散值能做很好有很好的魯棒性，不需要填補(bǔ)缺失值；

import matplotlib.pyplot as plt

df.shape

(260640, 10)

df=df.sample(n=10000)

def prophet_forecaster(data, x, y, period=100):
    new_df = pd.DataFrame(columns=['ds', 'y'])
    new_df['ds']= data[x]
    new_df['y'] = data[y]
    model = Prophet()
    model.fit(new_df)
    future_dates = model.make_future_dataframe(periods=period)
    forecast = model.predict(future_dates)
    model.plot(forecast)
    plt.title(f"Forecasting on the next {period} days for {y}")

prophet_forecaster(df, x='Date', y='Global_active_power', period=100)

prophet_forecaster(df, x='Date', y='Voltage', period=100)

INFO:prophet:Disabling yearly seasonality. Run prophet with yearly_seasonality=True to override this.
INFO:prophet:Disabling daily seasonality. Run prophet with daily_seasonality=True to override this.