在Pandas中將DataFrame列轉(zhuǎn)換為日期時(shí)間的詳細(xì)步驟
引言:掌握日期時(shí)間格式,數(shù)據(jù)處理更高效
你是否曾經(jīng)遇到過這樣的問題:從 CSV 文件或數(shù)據(jù)庫中導(dǎo)入的數(shù)據(jù)中,日期列被識別為字符串類型,導(dǎo)致無法進(jìn)行時(shí)間序列分析或計(jì)算?或者,在合并多個(gè)數(shù)據(jù)集時(shí),由于日期格式不一致,導(dǎo)致數(shù)據(jù)對齊錯(cuò)誤?這些問題的根本原因在于 Pandas 的 DataFrame 默認(rèn)情況下不會自動(dòng)將日期列識別為日期時(shí)間類型。今天,我們將深入探討如何在 Pandas 中將 DataFrame 列轉(zhuǎn)換為日期時(shí)間,并提供一些實(shí)用的技巧和最佳實(shí)踐。
為什么需要將列轉(zhuǎn)換為日期時(shí)間?
在數(shù)據(jù)科學(xué)領(lǐng)域,尤其是涉及時(shí)間序列分析時(shí),日期時(shí)間類型的正確處理至關(guān)重要。以下是幾個(gè)關(guān)鍵原因:
- 時(shí)間序列操作:日期時(shí)間類型允許我們進(jìn)行各種時(shí)間序列操作,如重采樣、滾動(dòng)窗口計(jì)算、滯后等。
- 日期運(yùn)算:可以方便地進(jìn)行日期之間的加減運(yùn)算,例如計(jì)算兩個(gè)日期之間的天數(shù)差。
- 排序與篩選:按日期排序或篩選特定時(shí)間段的數(shù)據(jù)變得更加簡單。
- 可視化:在繪制時(shí)間序列圖表時(shí),日期時(shí)間類型能更好地支持軸標(biāo)簽和刻度。
使用 pd.to_datetime() 方法
Pandas 提供了一個(gè)非常強(qiáng)大的函數(shù) pd.to_datetime(),用于將字符串或其他類型的列轉(zhuǎn)換為日期時(shí)間格式。下面通過具體的例子來說明其用法。
基本用法
假設(shè)我們有一個(gè)包含日期字符串的 DataFrame:
import pandas as pd
data = {'date': ['2023-01-01', '2023-01-02', '2023-01-03']}
df = pd.DataFrame(data)
print(df.dtypes)
輸出結(jié)果如下:
date object dtype: object
可以看到,默認(rèn)情況下,date 列是 object 類型(即字符串)。我們可以使用 pd.to_datetime() 將其轉(zhuǎn)換為 datetime64[ns] 類型:
df['date'] = pd.to_datetime(df['date']) print(df.dtypes)
輸出結(jié)果變?yōu)椋?/p>
date datetime64[ns] dtype: object
處理不同的日期格式
實(shí)際應(yīng)用中,日期格式可能千差萬別。pd.to_datetime() 支持多種常見的日期格式,并且可以通過參數(shù) format 明確指定格式。例如:
data = {'date': ['01/01/2023', '01/02/2023', '01/03/2023']}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y')
print(df.dtypes)
如果遇到不規(guī)范的日期格式,還可以使用 errors='coerce' 參數(shù)將無法解析的值設(shè)為 NaT(Not a Time):
data = {'date': ['01/01/2023', 'invalid_date', '01/03/2023']}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y', errors='coerce')
print(df)
輸出結(jié)果:
date 0 2023-01-01 1 NaT 2 2023-01-03
處理缺失值
有時(shí),數(shù)據(jù)集中可能包含缺失值(如 NaN 或空字符串)。pd.to_datetime() 在處理這些情況時(shí)表現(xiàn)得非常智能,會自動(dòng)將其轉(zhuǎn)換為 NaT:
data = {'date': ['2023-01-01', None, '2023-01-03']}
df = pd.DataFrame(data)
df['date'] = pd.to_datetime(df['date'])
print(df)
輸出結(jié)果:
date 0 2023-01-01 1 NaT 2 2023-01-03
性能優(yōu)化
當(dāng)處理大規(guī)模數(shù)據(jù)時(shí),性能是一個(gè)不可忽視的問題。為了提高轉(zhuǎn)換速度,可以利用 cache=True 參數(shù)。該參數(shù)會在內(nèi)部緩存已解析的日期格式,從而加速后續(xù)相同格式的解析過程:
data = {'date': ['2023-01-01'] * 100000}
df = pd.DataFrame(data)
%time df['date'] = pd.to_datetime(df['date'], cache=True)
處理時(shí)區(qū)信息
在全球化背景下,跨時(shí)區(qū)的數(shù)據(jù)處理變得越來越重要。Pandas 提供了豐富的時(shí)區(qū)支持功能,幫助我們在不同地區(qū)之間進(jìn)行準(zhǔn)確的時(shí)間轉(zhuǎn)換。
添加時(shí)區(qū)信息
假設(shè)我們有一列 UTC 時(shí)間戳,希望將其轉(zhuǎn)換為帶有時(shí)區(qū)信息的日期時(shí)間對象:
data = {'utc_time': ['2023-01-01 12:00:00', '2023-01-02 12:00:00']}
df = pd.DataFrame(data)
df['utc_time'] = pd.to_datetime(df['utc_time']).dt.tz_localize('UTC')
print(df)
輸出結(jié)果:
utc_time 0 2023-01-01 12:00:00+00:00 1 2023-01-02 12:00:00+00:00
轉(zhuǎn)換時(shí)區(qū)
接下來,我們可以將 UTC 時(shí)間轉(zhuǎn)換為其他時(shí)區(qū),例如中國標(biāo)準(zhǔn)時(shí)間(CST):
df['cst_time'] = df['utc_time'].dt.tz_convert('Asia/Shanghai')
print(df)
輸出結(jié)果:
utc_time cst_time 0 2023-01-01 12:00:00+00:00 2023-01-01 20:00:00+08:00 1 2023-01-02 12:00:00+00:00 2023-01-02 20:00:00+08:00
移除時(shí)區(qū)信息
在某些情況下,我們可能不需要時(shí)區(qū)信息,這時(shí)可以使用 tz_localize(None) 來移除時(shí)區(qū):
df['local_time'] = df['cst_time'].dt.tz_localize(None) print(df)
輸出結(jié)果:
utc_time cst_time local_time 0 2023-01-01 12:00:00+00:00 2023-01-01 20:00:00+08:00 2023-01-01 20:00:00 1 2023-01-02 12:00:00+00:00 2023-01-02 20:00:00+08:00 2023-01-02 20:00:00
實(shí)戰(zhàn)案例:處理復(fù)雜的日期格式
在現(xiàn)實(shí)世界中,日期格式往往比想象中復(fù)雜得多。接下來,我們通過一個(gè)實(shí)際案例來展示如何應(yīng)對這種情況。
案例背景
某公司有一個(gè)銷售記錄表,其中包含訂單日期。但由于歷史遺留問題,日期格式非?;靵y,有以下幾種情況:
- 標(biāo)準(zhǔn)日期格式(如
2023-01-01) - 美式日期格式(如
01/01/2023) - 含有時(shí)區(qū)信息的 ISO8601 格式(如
2023-01-01T12:00:00Z)
我們需要將所有日期統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的日期時(shí)間格式。
解決方案
首先,導(dǎo)入數(shù)據(jù)并查看前幾行:
data = {
'order_date': [
'2023-01-01',
'01/02/2023',
'2023-01-03T15:00:00Z',
'2023-01-04'
]
}
df = pd.DataFrame(data)
print(df)
輸出結(jié)果:
order_date 0 2023-01-01 1 01/02/2023 2 2023-01-03T15:00:00Z 3 2023-01-04
然后,使用 pd.to_datetime() 進(jìn)行轉(zhuǎn)換:
df['order_date'] = pd.to_datetime(df['order_date'], infer_datetime_format=True, errors='coerce') print(df)
輸出結(jié)果:
order_date 0 2023-01-01 00:00:00 1 2023-01-02 00:00:00 2 2023-01-03 15:00:00 3 2023-01-04 00:00:00
通過設(shè)置 infer_datetime_format=True,Pandas 會自動(dòng)推斷最合適的日期格式;同時(shí)使用 errors='coerce' 來處理無法解析的情況。
最佳實(shí)踐與技巧
在日常工作中,掌握一些最佳實(shí)踐和技巧能夠顯著提高工作效率和代碼質(zhì)量。
使用 read_csv() 直接加載日期時(shí)間列
當(dāng)從 CSV 文件讀取數(shù)據(jù)時(shí),可以利用 parse_dates 參數(shù)直接將指定列轉(zhuǎn)換為日期時(shí)間類型:
df = pd.read_csv('sales_data.csv', parse_dates=['order_date'])
這不僅簡化了代碼,還能提高讀取效率。
避免重復(fù)轉(zhuǎn)換
一旦將某一列成功轉(zhuǎn)換為日期時(shí)間類型,盡量避免對其進(jìn)行重復(fù)轉(zhuǎn)換。因?yàn)槊看无D(zhuǎn)換都會帶來額外的計(jì)算開銷。如果確實(shí)需要重新賦值,建議先檢查目標(biāo)列的類型:
if df['date'].dtype != 'datetime64[ns]':
df['date'] = pd.to_datetime(df['date'])
利用向量化操作
相比于逐行遍歷,Pandas 的向量化操作通常具有更高的性能。因此,在處理大量數(shù)據(jù)時(shí),應(yīng)優(yōu)先選擇內(nèi)置的向量化方法。例如,計(jì)算兩個(gè)日期之間的天數(shù)差:
df['days_diff'] = (df['end_date'] - df['start_date']).dt.days
注意內(nèi)存占用
對于超大規(guī)模的數(shù)據(jù)集,頻繁創(chuàng)建新的列可能會導(dǎo)致內(nèi)存不足的問題。此時(shí),可以考慮使用 inplace=True 參數(shù)直接修改原列,或采用增量處理的方式分批次處理數(shù)據(jù)。
總結(jié)
到此這篇關(guān)于在Pandas中將DataFrame列轉(zhuǎn)換為日期時(shí)間的詳細(xì)步驟的文章就介紹到這了,更多相關(guān)Pandas DataFrame列轉(zhuǎn)日期時(shí)間內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python使用openpyxl實(shí)現(xiàn)對excel表格相對路徑的超鏈接的創(chuàng)建方式
這篇文章主要介紹了python使用openpyxl實(shí)現(xiàn)對excel表格相對路徑的超鏈接的創(chuàng)建方式,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-03-03
jupyter notebook更換皮膚主題的實(shí)現(xiàn)
這篇文章主要介紹了jupyter notebook更換皮膚主題的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01
如何實(shí)現(xiàn)在pycharm中將.ui文件轉(zhuǎn)化為.py文件
這篇文章主要介紹了如何實(shí)現(xiàn)在pycharm中將.ui文件轉(zhuǎn)化為.py文件,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-06-06
python數(shù)據(jù)操作之lambda表達(dá)式詳情
這篇文章主要介紹了python數(shù)據(jù)操作之lambda表達(dá)式詳情,文章基于python的相關(guān)資料展開lambda表達(dá)式具體的內(nèi)容,感興趣的小伙伴可以參考一下2022-05-05
深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟
本文主要介紹了深度學(xué)習(xí)環(huán)境搭建anaconda+pycharm+pytorch的方法步驟,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-09-09

