Python中裝飾器的一個妙用
好吧,我知道是大半夜……,但我還是覺得趕緊花上半個小時,把這最新的想法分享出來是值得的~直接進入正題~
我們來模擬一個場景,需要你去抓去一個頁面,然后這個頁面有好多url也要分別去抓取,而進入這些子url后,還有數(shù)據(jù)要抓取。簡單點,我們就按照三層來看,那我們的代碼就是如下:
def func_top(url):
data_dict= {}
#在頁面上獲取到子url
sub_urls = xxxx
data_list = []
for it in sub_urls:
data_list.append(func_sub(it))
data_dict[\'data\'] = data_list
return data_dict
def func_sub(url):
data_dict= {}
#在頁面上獲取到子url
bottom_urls = xxxx
data_list = []
for it in bottom_urls:
data_list.append(func_bottom(it))
data_dict[\'data\'] = data_list
return data_dict
def func_bottom(url):
#獲取數(shù)據(jù)
data = xxxx
return data
func_top是上層頁面的處理函數(shù),func_sub是子頁面的處理函數(shù),func_bottom是最深層頁面的處理函數(shù),func_top會在取到子頁面url后遍歷調(diào)用func_sub,func_sub也是同樣。
如果正常情況下,這樣確實已經(jīng)滿足需求了,但是偏偏這個你要抓取的網(wǎng)站可能極不穩(wěn)定,經(jīng)常鏈接不上,導(dǎo)致數(shù)據(jù)拿不到。
于是這個時候你有兩個選擇:
1.遇到錯誤就停止,之后重新從斷掉的位置開始重新跑
2.遇到錯誤繼續(xù),但是要在之后重新跑一遍,這個時候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次,而只去拉沒有取到的數(shù)據(jù)
對第一種方案基本無法實現(xiàn),因為如果別人網(wǎng)站的url調(diào)整順序,那么你記錄的位置就無效了。那么只有第二種方案,說白了,就是要把已經(jīng)拿到的數(shù)據(jù)cache下來,等需要的時候,直接從cache里面取。
OK,目標已經(jīng)有了,怎么實現(xiàn)呢?
如果是在C++中的,這是個很麻煩的事情,而且寫出來的代碼必定丑陋無比,然而慶幸的是,我們用的是python,而python對函數(shù)有裝飾器。
所以實現(xiàn)方案也就有了:
定義一個裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù);如果之前沒有取到,那么就從網(wǎng)站拉取,并且存入cache中.
代碼如下:
def get_dump_data(dir_name, url):
m = hashlib.md5(url)
filename = m.hexdigest()
full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
if os.path.isfile(full_file_name):
return eval(file(full_file_name,\'r\').read())
else:
return None
def set_dump_data(dir_name, url, data):
if not os.path.isdir(\'dumps/\'+dir_name):
os.makedirs(\'dumps/\'+dir_name)
m = hashlib.md5(url)
filename = m.hexdigest()
full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
f = file(full_file_name, \'w+\')
f.write(repr(data))
f.close()
def deco_dump_data(func):
def func_wrapper(url):
data = get_dump_data(func.__name__,url)
if data is not None:
return data
data = func(url)
if data is not None:
set_dump_data(func.__name__,url,data)
return data
return func_wrapper
然后,我們只需要在每個func_top,func_sub,func_bottom都加上deco_dump_data這個裝飾器即可~~
搞定!這樣做最大的好處在于,因為top,sub,bottom,每一層都會dump數(shù)據(jù),所以比如某個sub層數(shù)據(jù)dump之后,是根本不會走到他所對應(yīng)的bottom層的,減少了大量的開銷!
OK,就這樣~ 人生苦短,我用python!
相關(guān)文章
Python請求庫發(fā)送HTTP POST請求的示例代碼
這段代碼使用了Python的requests庫來發(fā)送HTTP POST請求,向本地服務(wù)器的API發(fā)送數(shù)據(jù),并處理響應(yīng),一步步解釋這個代碼2024-08-08
昨晚我用python幫隔壁小姐姐P證件照然后發(fā)現(xiàn)
大家好,我是Lex 喜歡欺負超人那個Lex 建議大家收藏哦,以后幫小姐姐P自拍,證件照,調(diào)尺寸,背景,摳圖,直接10行代碼搞定,瞬間高大上2021-08-08
Python數(shù)據(jù)可視化之Pyecharts使用詳解
Pyecharts是一個由百度開源的、用于生成Echarts圖表的類庫,可以用來進行數(shù)據(jù)可視化分析。本文將詳細講解一下Pyecharts的使用,需要的可以參考一下2022-04-04
Python自定義函數(shù)的創(chuàng)建、調(diào)用和函數(shù)的參數(shù)詳解
這篇文章主要介紹了Python自定義函數(shù)的創(chuàng)建、調(diào)用和函數(shù)的參數(shù)、變量作用域等常見問題,需要的朋友可以參考下2014-03-03
pytorch: Parameter 的數(shù)據(jù)結(jié)構(gòu)實例
今天小編就為大家分享一篇pytorch: Parameter 的數(shù)據(jù)結(jié)構(gòu)實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12
關(guān)于安裝halcon包pycharm提示不全的問題
很多小伙伴給小編反映在pycham上面安裝halcon對應(yīng)的安裝包之后,導(dǎo)入出現(xiàn)問題,發(fā)現(xiàn)輸入ha.read 沒有自動提示 ,只有幾個變量和方法,怎么解決這個問題呢,下面小編給大家?guī)砹税惭bhalcon包pycharm提示不全的問題,一起看看吧2021-06-06

