python文本數(shù)據(jù)處理學(xué)習(xí)筆記詳解
最近越發(fā)感覺到限制我對Python運用、以及讀懂別人代碼的地方,大多是在于對數(shù)據(jù)的處理能力。
其實編程本質(zhì)上就是數(shù)據(jù)處理,怎么把文本數(shù)據(jù)、圖像數(shù)據(jù),通過python讀入、切分等,變成一個N維矩陣,然后再帶入別人的模型,bingo~跑出來一個結(jié)果。結(jié)果當(dāng)然也是一個矩陣或向量的形式。
所以說,之所以對很多模型、代碼束手無策,其實還是沒有掌握好數(shù)據(jù)處理的“屠龍寶刀”,無法對海量數(shù)據(jù)進(jìn)行“庖丁解?!卑愕奶幚怼R虼?,我想以一個別人代碼中的一段為例,仔細(xì)琢磨文本數(shù)據(jù)處理的精妙之處,爭取能夠加深對這方面的運用與理解。
1) 問題描述
數(shù)據(jù):某個區(qū)域181天內(nèi)的訪客數(shù)據(jù),格式如下,第一列代表訪客的名稱,第二列代表這位訪客在181天內(nèi)到達(dá)這片區(qū)域的時刻:

目的:將訪客數(shù)據(jù)進(jìn)行統(tǒng)計,并時間離散化,按照天 /周/小時處理為72624的三維矩陣。
也就是說,矩陣中的每一個值,代表該區(qū)域 周X、第幾周、幾點 的到訪人數(shù),如
[1,5,19]=100,代表第5周的周一晚上7點的人數(shù)為100。
2)難點
當(dāng)然是對我的難點。
2.1)怎么按行統(tǒng)計
2.2)怎么進(jìn)行時間離散化(存為天、周、時刻的矩陣)
3)代碼
import time
import numpy as np
import sys
import datetime
import pandas as pd
import os
#用字典查詢代替類型轉(zhuǎn)換,可以減少一部分計算時間
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
#print(i,":",date)
date_int = int(date.__str__().replace("-", ""))
date2position[date_int] = [i%7, i//7]
datestr2dateint[str(date_int)] = date_int
#print(datestr2dateint)
#
for i in range(24):
str2int[str(i).zfill(2)] = i
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')
#print(table.shape)
#print(table.ix[1])
strings = table[1]
#print(strings)
init = np.zeros((7, 26, 24))
for string in strings:
temp = []
for item in string.split(','):
temp.append([item[0:8], item[9:].split("|")])
for date, visit_lst in temp:
# x - 第幾周
# y - 第幾天
# z - 幾點鐘
# value - 到訪的總?cè)藬?shù)
# print(visit_lst)
print(date)
x, y = date2position[datestr2dateint[date]]
for visit in visit_lst: # 統(tǒng)計到訪的總?cè)藬?shù)
init[x][y][str2int[visit]] += 1
#print(init[x][y][str2int[visit]])```
3.1)創(chuàng)建字典,時間離散化,節(jié)省時間
此處創(chuàng)建了三個字典,讓我們看一下代碼實現(xiàn)以及打印結(jié)果:
date2position = {}
datestr2dateint = {}
str2int = {}
for i in range(182):
date = datetime.date(day=1, month=10, year=2018)+datetime.timedelta(days=i)
#print(i,":",date)
date_int = int(date.__str__().replace("-", ""))
date2position[date_int] = [i%7, i//7]
datestr2dateint[str(date_int)] = date_int
for i in range(24):
str2int[str(i).zfill(2)] = i
打印一下 date2position:

打印一下 datestr2dateint:

打印str2int:

可以看出,datestr2dateint是將str的日期,轉(zhuǎn)換為了int的日期。
而date2position 才是計算出的每一個具體的日期,代表了第幾周、第幾天。
str2int代表了一天中的24個時刻。
3.2)讀取文件,按行獲取字符串
注意到文本的分隔符為\t(區(qū)分用戶名與到訪信息的分割),于是采用
f=open("D:\BaiDuBigData19-URFC-master\\UrbanRegionFunctionClassification-master\data\\train_visit\\000000_008.txt")
#table = pd.read_csv(f, header=None,error_bad_lines=False)
table = pd.read_csv(f, header=None,sep='\t')
然后用strings讀取到訪信息,也就是table的第二列:
strings = table[1]
3.3)切分字符串
首先,strings為:

可以看到每一行string,為一個用戶的到訪記錄,循環(huán)讀取。其中,不同日期的到訪是用“,”隔開,故要使用:
for string in strings:
temp = []
for item in string.split(','):
item就可以分開每一個日期的到訪記錄了:

其后,使用temp列表,每一行存儲日期和時刻。
如第一個item為 20181221&09|10|11|12|13|14|15
日期為 item[0:8],
時刻之間使用分隔符“|”隔開,故可以通過item[9:].split("|")得到。
temp.append([item[0:8], item[9:].split("|")])
打印一下temp為:

所以需要用兩個數(shù)據(jù)分別存儲日期,以及時刻。
首先用來轉(zhuǎn)換成 周、天、時刻的72624矩陣(根據(jù)前面的轉(zhuǎn)換函數(shù))
其后根據(jù)這個矩陣,統(tǒng)計每一個位置的訪客數(shù)量
for date, visit_lst in temp: # x - 第幾周 # y - 第幾天 # z - 幾點鐘 # value - 到訪的總?cè)藬?shù) # print(visit_lst) #print(date) x, y = date2position[datestr2dateint[date]] for visit in visit_lst: # 統(tǒng)計到訪的總?cè)藬?shù) init[x][y][str2int[visit]] += 1
這一段代碼很短,但著實是整個時間離散化實現(xiàn)的精髓所在。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python鏈?zhǔn)秸{(diào)用數(shù)據(jù)處理實際應(yīng)用實例探究
本文將深入介紹Python鏈?zhǔn)秸{(diào)用的概念、原理以及實際應(yīng)用,通過豐富的示例代碼,幫助讀者更全面地理解和應(yīng)用這一編程技巧2024-01-01
Python實現(xiàn)pdf轉(zhuǎn)word詳細(xì)代碼
在日常工作中,我們經(jīng)常會遇到需要將PDF文件轉(zhuǎn)換成Word文件的需求。雖然市面上有許多PDF轉(zhuǎn)Word的工具,但是它們通常需要付費或者有轉(zhuǎn)換后的格式問題,這篇文章主要給大家介紹了關(guān)于Python實現(xiàn)pdf轉(zhuǎn)word的相關(guān)資料,需要的朋友可以參考下2023-09-09
python+PyQT實現(xiàn)系統(tǒng)桌面時鐘
這篇文章主要為大家詳細(xì)介紹了python+PyQT實現(xiàn)系統(tǒng)桌面時鐘,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-11-11
Python的Twisted框架上手前所必須了解的異步編程思想
Twisted是Python世界中人氣最高的framework之一,異步的工作模式使其名揚天下,這里為大家總結(jié)了Python的Twisted框架上手前所必須了解的異步編程思想,需要的朋友可以參考下2016-05-05
如何使用python統(tǒng)計字符在文件中出現(xiàn)的次數(shù)
在開發(fā)過程中很多時候我們有統(tǒng)計單個字符或者字符串在另一個字符串中出現(xiàn)次數(shù)的需求,下面這篇文章主要給大家介紹了關(guān)于如何使用python統(tǒng)計字符在文件中出現(xiàn)的次數(shù)的相關(guān)資料,需要的朋友可以參考下2023-03-03
pycharm三個有引號不能自動生成函數(shù)注釋的問題
這篇文章主要介紹了解決pycharm三個有引號不能自動生成函數(shù)注釋的問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-02-02

