進(jìn)一步探究Python的裝飾器的運用
裝飾器在 python 中用的相當(dāng)廣泛,如果你用過 python 的一些 web 框架,那么一定對其中的 “ route() 裝飾器” 不陌生,今天咱們再看一個具體的案例。
咱們來模擬一個場景,需要你去抓去一個頁面,然后這個頁面有好多url也要分別去抓取,而進(jìn)入這些子url后,還有數(shù)據(jù)要抓取。簡單點,我們就按照三層來看,那我們的代碼就是如下:
def func_top(url):
data_dict= {}
#在頁面上獲取到子url
sub_urls = xxxx
data_list = []
for it in sub_urls:
data_list.append(func_sub(it))
data_dict['data'] = data_list
return data_dict
def func_sub(url):
data_dict= {}
#在頁面上獲取到子url
bottom_urls = xxxx
data_list = []
for it in bottom_urls:
data_list.append(func_bottom(it))
data_dict['data'] = data_list
return data_dict
def func_bottom(url):
#獲取數(shù)據(jù)
data = xxxx
return data
func_top是上層頁面的處理函數(shù),func_sub是子頁面的處理函數(shù),func_bottom是最深層頁面的處理函數(shù),func_top會在取到子頁面url后遍歷調(diào)用func_sub,func_sub也是同樣。
如果正常情況下,這樣確實已經(jīng)滿足需求了,但是偏偏這個你要抓取的網(wǎng)站可能極不穩(wěn)定,經(jīng)常鏈接不上,導(dǎo)致數(shù)據(jù)拿不到。
于是這個時候你有兩個選擇:
1.遇到錯誤就停止,之后重新從斷掉的位置開始重新跑
2.遇到錯誤繼續(xù),但是要在之后重新跑一遍,這個時候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次,而只去拉沒有取到的數(shù)據(jù)
對第一種方案基本無法實現(xiàn),因為如果別人網(wǎng)站的url調(diào)整順序,那么你記錄的位置就無效了。那么只有第二種方案,說白了,就是要把已經(jīng)拿到的數(shù)據(jù)cache下來,等需要的時候,直接從cache里面取。
OK,目標(biāo)已經(jīng)有了,怎么實現(xiàn)呢?
如果是在C++中的,這是個很麻煩的事情,而且寫出來的代碼必定丑陋無比,然而慶幸的是,我們用的是python,而python對函數(shù)有裝飾器。
所以實現(xiàn)方案也就有了:
定義一個裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù);如果之前沒有取到,那么就從網(wǎng)站拉取,并且存入cache中.
代碼如下:
import os
import hashlib
def deco_args_recent_cache(category='dumps'):
'''
裝飾器,返回最新cache的數(shù)據(jù)
'''
def deco_recent_cache(func):
def func_wrapper(*args, **kargs):
sig = _mk_cache_sig(*args, **kargs)
data = _get_recent_cache(category, func.__name__, sig)
if data is not None:
return data
data = func(*args, **kargs)
if data is not None:
_set_recent_cache(category, func.__name__, sig, data)
return data
return func_wrapper
return deco_recent_cache
def _mk_cache_sig(*args, **kargs):
'''
通過傳入?yún)?shù),生成唯一標(biāo)識
'''
src_data = repr(args) + repr(kargs)
m = hashlib.md5(src_data)
sig = m.hexdigest()
return sig
def _get_recent_cache(category, func_name, sig):
full_file_path = '%s/%s/%s' % (category, func_name, sig)
if os.path.isfile(full_file_path):
return eval(file(full_file_path,'r').read())
else:
return None
def _set_recent_cache(category, func_name, sig, data):
full_dir_path = '%s/%s' % (category, func_name)
if not os.path.isdir(full_dir_path):
os.makedirs(full_dir_path)
full_file_path = '%s/%s/%s' % (category, func_name, sig)
f = file(full_file_path, 'w+')
f.write(repr(data))
f.close()
然后,我們只需要在每個func_top,func_sub,func_bottom都加上deco_args_recent_cache這個裝飾器即可~~
搞定!這樣做最大的好處在于,因為top,sub,bottom,每一層都會dump數(shù)據(jù),所以比如某個sub層數(shù)據(jù)dump之后,是根本不會走到他所對應(yīng)的bottom層的,減少了大量的開銷!
OK,就這樣~ 人生苦短,我用python!
注:
python3 已經(jīng)原生支持了這種功能!鏈接如下:
http://docs.python.org/py3k/whatsnew/3.2.html#functools
推薦閱讀:
https://wiki.python.org/moin/PythonDecoratorLibrary#Memoize
相關(guān)文章
Python基礎(chǔ)之字符串常見操作經(jīng)典實例詳解
這篇文章主要介紹了Python基礎(chǔ)之字符串常見操作,結(jié)合實例形式詳細(xì)分析了Python字符串操作基本函數(shù)、功能、使用方法及操作注意事項,需要的朋友可以參考下2020-02-02
基于Python實現(xiàn)一鍵獲取電腦瀏覽器的賬號密碼
發(fā)現(xiàn)很多人在學(xué)校圖書館喜歡用電腦占座,而且出去的時候經(jīng)常不鎖屏,為了讓大家養(yǎng)成良好的習(xí)慣,本文將分享一個小程序,可以快速獲取你存儲在電腦瀏覽器中的所有賬號和密碼,感興趣的可以了解一下2022-05-05

