在Pandas中將DataFrame列轉(zhuǎn)換為日期時(shí)間的詳細(xì)步驟

更新時(shí)間：2025年05月12日 10:16:09 作者：cda2024

你是否曾經(jīng)遇到過這樣的問題：從 CSV 文件或數(shù)據(jù)庫中導(dǎo)入的數(shù)據(jù)中,日期列被識別為字符串類型,導(dǎo)致無法進(jìn)行時(shí)間序列分析或計(jì)算？今天,我們將深入探討如何在 Pandas 中將 DataFrame 列轉(zhuǎn)換為日期時(shí)間,并提供一些實(shí)用的技巧和最佳實(shí)踐,需要的朋友可以參考下

引言：掌握日期時(shí)間格式，數(shù)據(jù)處理更高效

你是否曾經(jīng)遇到過這樣的問題：從 CSV 文件或數(shù)據(jù)庫中導(dǎo)入的數(shù)據(jù)中，日期列被識別為字符串類型，導(dǎo)致無法進(jìn)行時(shí)間序列分析或計(jì)算？或者，在合并多個(gè)數(shù)據(jù)集時(shí)，由于日期格式不一致，導(dǎo)致數(shù)據(jù)對齊錯(cuò)誤？這些問題的根本原因在于 Pandas 的 DataFrame 默認(rèn)情況下不會自動(dòng)將日期列識別為日期時(shí)間類型。今天，我們將深入探討如何在 Pandas 中將 DataFrame 列轉(zhuǎn)換為日期時(shí)間，并提供一些實(shí)用的技巧和最佳實(shí)踐。

為什么需要將列轉(zhuǎn)換為日期時(shí)間？

在數(shù)據(jù)科學(xué)領(lǐng)域，尤其是涉及時(shí)間序列分析時(shí)，日期時(shí)間類型的正確處理至關(guān)重要。以下是幾個(gè)關(guān)鍵原因：

時(shí)間序列操作：日期時(shí)間類型允許我們進(jìn)行各種時(shí)間序列操作，如重采樣、滾動(dòng)窗口計(jì)算、滯后等。
日期運(yùn)算：可以方便地進(jìn)行日期之間的加減運(yùn)算，例如計(jì)算兩個(gè)日期之間的天數(shù)差。
排序與篩選：按日期排序或篩選特定時(shí)間段的數(shù)據(jù)變得更加簡單。
可視化：在繪制時(shí)間序列圖表時(shí)，日期時(shí)間類型能更好地支持軸標(biāo)簽和刻度。

使用 pd.to_datetime() 方法

Pandas 提供了一個(gè)非常強(qiáng)大的函數(shù) pd.to_datetime()，用于將字符串或其他類型的列轉(zhuǎn)換為日期時(shí)間格式。下面通過具體的例子來說明其用法。

基本用法

假設(shè)我們有一個(gè)包含日期字符串的 DataFrame：

import pandas as pd

data = {'date': ['2023-01-01', '2023-01-02', '2023-01-03']}
df = pd.DataFrame(data)
print(df.dtypes)

輸出結(jié)果如下：

date    object
dtype: object

可以看到，默認(rèn)情況下，date 列是 object 類型（即字符串）。我們可以使用 pd.to_datetime() 將其轉(zhuǎn)換為 datetime64[ns] 類型：

df['date'] = pd.to_datetime(df['date'])
print(df.dtypes)

輸出結(jié)果變?yōu)椋?/p>

date    datetime64[ns]
dtype: object

處理不同的日期格式

實(shí)際應(yīng)用中，日期格式可能千差萬別。pd.to_datetime() 支持多種常見的日期格式，并且可以通過參數(shù) format 明確指定格式。例如：

data = {'date': ['01/01/2023', '01/02/2023', '01/03/2023']}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y')
print(df.dtypes)

如果遇到不規(guī)范的日期格式，還可以使用 errors='coerce' 參數(shù)將無法解析的值設(shè)為 NaT（Not a Time）：

data = {'date': ['01/01/2023', 'invalid_date', '01/03/2023']}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['date'], format='%m/%d/%Y', errors='coerce')
print(df)

輸出結(jié)果：

         date
0 2023-01-01
1        NaT
2 2023-01-03

處理缺失值

有時(shí)，數(shù)據(jù)集中可能包含缺失值（如 NaN 或空字符串）。pd.to_datetime() 在處理這些情況時(shí)表現(xiàn)得非常智能，會自動(dòng)將其轉(zhuǎn)換為 NaT：

data = {'date': ['2023-01-01', None, '2023-01-03']}
df = pd.DataFrame(data)

df['date'] = pd.to_datetime(df['date'])
print(df)

輸出結(jié)果：

        date
0 2023-01-01
1        NaT
2 2023-01-03

性能優(yōu)化

當(dāng)處理大規(guī)模數(shù)據(jù)時(shí)，性能是一個(gè)不可忽視的問題。為了提高轉(zhuǎn)換速度，可以利用 cache=True 參數(shù)。該參數(shù)會在內(nèi)部緩存已解析的日期格式，從而加速后續(xù)相同格式的解析過程：

data = {'date': ['2023-01-01'] * 100000}
df = pd.DataFrame(data)

%time df['date'] = pd.to_datetime(df['date'], cache=True)

處理時(shí)區(qū)信息

在全球化背景下，跨時(shí)區(qū)的數(shù)據(jù)處理變得越來越重要。Pandas 提供了豐富的時(shí)區(qū)支持功能，幫助我們在不同地區(qū)之間進(jìn)行準(zhǔn)確的時(shí)間轉(zhuǎn)換。

添加時(shí)區(qū)信息

假設(shè)我們有一列 UTC 時(shí)間戳，希望將其轉(zhuǎn)換為帶有時(shí)區(qū)信息的日期時(shí)間對象：

data = {'utc_time': ['2023-01-01 12:00:00', '2023-01-02 12:00:00']}
df = pd.DataFrame(data)

df['utc_time'] = pd.to_datetime(df['utc_time']).dt.tz_localize('UTC')
print(df)

輸出結(jié)果：

                 utc_time
0 2023-01-01 12:00:00+00:00
1 2023-01-02 12:00:00+00:00

轉(zhuǎn)換時(shí)區(qū)

接下來，我們可以將 UTC 時(shí)間轉(zhuǎn)換為其他時(shí)區(qū)，例如中國標(biāo)準(zhǔn)時(shí)間（CST）：

df['cst_time'] = df['utc_time'].dt.tz_convert('Asia/Shanghai')
print(df)

輸出結(jié)果：

                 utc_time                  cst_time
0 2023-01-01 12:00:00+00:00 2023-01-01 20:00:00+08:00
1 2023-01-02 12:00:00+00:00 2023-01-02 20:00:00+08:00

移除時(shí)區(qū)信息

在某些情況下，我們可能不需要時(shí)區(qū)信息，這時(shí)可以使用 tz_localize(None) 來移除時(shí)區(qū)：

df['local_time'] = df['cst_time'].dt.tz_localize(None)
print(df)

輸出結(jié)果：

                 utc_time                  cst_time           local_time
0 2023-01-01 12:00:00+00:00 2023-01-01 20:00:00+08:00 2023-01-01 20:00:00
1 2023-01-02 12:00:00+00:00 2023-01-02 20:00:00+08:00 2023-01-02 20:00:00

實(shí)戰(zhàn)案例：處理復(fù)雜的日期格式

在現(xiàn)實(shí)世界中，日期格式往往比想象中復(fù)雜得多。接下來，我們通過一個(gè)實(shí)際案例來展示如何應(yīng)對這種情況。

案例背景

某公司有一個(gè)銷售記錄表，其中包含訂單日期。但由于歷史遺留問題，日期格式非?；靵y，有以下幾種情況：

標(biāo)準(zhǔn)日期格式（如 2023-01-01）
美式日期格式（如 01/01/2023）
含有時(shí)區(qū)信息的 ISO8601 格式（如 2023-01-01T12:00:00Z）

我們需要將所有日期統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的日期時(shí)間格式。

解決方案

首先，導(dǎo)入數(shù)據(jù)并查看前幾行：

data = {
    'order_date': [
        '2023-01-01',
        '01/02/2023',
        '2023-01-03T15:00:00Z',
        '2023-01-04'
    ]
}
df = pd.DataFrame(data)
print(df)

輸出結(jié)果：

              order_date
0               2023-01-01
1               01/02/2023
2  2023-01-03T15:00:00Z
3               2023-01-04

然后，使用 pd.to_datetime() 進(jìn)行轉(zhuǎn)換：

df['order_date'] = pd.to_datetime(df['order_date'], infer_datetime_format=True, errors='coerce')
print(df)

輸出結(jié)果：

          order_date
0 2023-01-01 00:00:00
1 2023-01-02 00:00:00
2 2023-01-03 15:00:00
3 2023-01-04 00:00:00

通過設(shè)置 infer_datetime_format=True，Pandas 會自動(dòng)推斷最合適的日期格式；同時(shí)使用 errors='coerce' 來處理無法解析的情況。

最佳實(shí)踐與技巧

在日常工作中，掌握一些最佳實(shí)踐和技巧能夠顯著提高工作效率和代碼質(zhì)量。

使用 read_csv() 直接加載日期時(shí)間列

當(dāng)從 CSV 文件讀取數(shù)據(jù)時(shí)，可以利用 parse_dates 參數(shù)直接將指定列轉(zhuǎn)換為日期時(shí)間類型：

df = pd.read_csv('sales_data.csv', parse_dates=['order_date'])

這不僅簡化了代碼，還能提高讀取效率。

避免重復(fù)轉(zhuǎn)換

一旦將某一列成功轉(zhuǎn)換為日期時(shí)間類型，盡量避免對其進(jìn)行重復(fù)轉(zhuǎn)換。因?yàn)槊看无D(zhuǎn)換都會帶來額外的計(jì)算開銷。如果確實(shí)需要重新賦值，建議先檢查目標(biāo)列的類型：

if df['date'].dtype != 'datetime64[ns]':
    df['date'] = pd.to_datetime(df['date'])

利用向量化操作

相比于逐行遍歷，Pandas 的向量化操作通常具有更高的性能。因此，在處理大量數(shù)據(jù)時(shí)，應(yīng)優(yōu)先選擇內(nèi)置的向量化方法。例如，計(jì)算兩個(gè)日期之間的天數(shù)差：

df['days_diff'] = (df['end_date'] - df['start_date']).dt.days

注意內(nèi)存占用

對于超大規(guī)模的數(shù)據(jù)集，頻繁創(chuàng)建新的列可能會導(dǎo)致內(nèi)存不足的問題。此時(shí)，可以考慮使用 inplace=True 參數(shù)直接修改原列，或采用增量處理的方式分批次處理數(shù)據(jù)。

總結(jié)

到此這篇關(guān)于在Pandas中將DataFrame列轉(zhuǎn)換為日期時(shí)間的詳細(xì)步驟的文章就介紹到這了,更多相關(guān)Pandas DataFrame列轉(zhuǎn)日期時(shí)間內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

在Pandas中將DataFrame列轉(zhuǎn)換為日期時(shí)間的詳細(xì)步驟

目錄

引言：掌握日期時(shí)間格式，數(shù)據(jù)處理更高效

為什么需要將列轉(zhuǎn)換為日期時(shí)間？

使用 pd.to_datetime() 方法

基本用法

處理不同的日期格式

處理缺失值

性能優(yōu)化

處理時(shí)區(qū)信息

添加時(shí)區(qū)信息

轉(zhuǎn)換時(shí)區(qū)

移除時(shí)區(qū)信息

實(shí)戰(zhàn)案例：處理復(fù)雜的日期格式

案例背景

解決方案

最佳實(shí)踐與技巧

使用 read_csv() 直接加載日期時(shí)間列

避免重復(fù)轉(zhuǎn)換

利用向量化操作

注意內(nèi)存占用

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

在Pandas中將DataFrame列轉(zhuǎn)換為日期時(shí)間的詳細(xì)步驟

目錄

引言：掌握日期時(shí)間格式，數(shù)據(jù)處理更高效

為什么需要將列轉(zhuǎn)換為日期時(shí)間？

使用 pd.to_datetime() 方法

基本用法

處理不同的日期格式

處理缺失值

性能優(yōu)化

處理時(shí)區(qū)信息

添加時(shí)區(qū)信息

轉(zhuǎn)換時(shí)區(qū)

移除時(shí)區(qū)信息

實(shí)戰(zhàn)案例：處理復(fù)雜的日期格式

案例背景

解決方案

最佳實(shí)踐與技巧

使用 read_csv() 直接加載日期時(shí)間列

避免重復(fù)轉(zhuǎn)換

利用向量化操作

注意內(nèi)存占用

總結(jié)

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

為什么需要將列轉(zhuǎn)換為日期時(shí)間？