通過python獲取甲流分布數(shù)據(jù)
近期,多地學(xué)校出現(xiàn)因甲流導(dǎo)致的班級停課,兒科甲流患者就診量呈數(shù)倍增長。此輪甲流為何如此嚴(yán)重?感染甲流之后會出現(xiàn)哪些癥狀
經(jīng)過專家的介紹甲流之所以這么嚴(yán)重有這些原因?qū)е碌摹R?、疫情完全放開后很多孩子不戴口罩了,預(yù)防流感的作用會下降。二是“免疫債”的償還,免疫債又稱免疫差距。指實(shí)施NPIs (戴口罩、保持手衛(wèi)生、保持社交距離等)后人群病原體免疫刺激缺乏,易感人群增加導(dǎo)致群體免疫水平較疫情前下降。孩子免疫系統(tǒng)的發(fā)育是要有適當(dāng)?shù)牟≡瓉磉M(jìn)行刺激的,疫情期間一直戴口罩,局部的呼吸道的免疫力是降低的,摘下口罩后會比原來更容易感染呼吸道疾病。
伴隨著甲流病人數(shù)猛增,群眾對于這一病癥重視度也在增加,不僅有關(guān)甲流的搜索指數(shù)在增加,并且因?yàn)榧琢鞯谋l(fā)重現(xiàn)了搶藥高潮。
疫情期間的時候分享了如何利用python爬蟲疫情數(shù)據(jù)的博客,今天我們同樣的操作來獲取下現(xiàn)在甲流感染的數(shù)據(jù)
爬取思路從以下幾個方面進(jìn)行分析,數(shù)據(jù)來源于:https://www.baidu.com/
1、分析網(wǎng)頁的網(wǎng)絡(luò)數(shù)據(jù),取得請求頭,并用python的requests包進(jìn)行解析和讀取。
2、分析解析出的包,進(jìn)行提取和操作
3、將數(shù)據(jù)提出并存到數(shù)據(jù)庫
涉及到的知識點(diǎn):python的爬取,目標(biāo)網(wǎng)站的反爬
思路差不多就是這些,因?yàn)橛蟹磁?,所以在爬取過程中錯了反爬措施,基本的就是解決方案就是User-Agent 用戶代理的添加和代理的使用,加上User-Agent,表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer信息還會檢查你的Referer是否合法,一般再加上Referer。
User-Agent最好使用真實(shí)庫,代理最好也是高效的,Referer的來源可以偽裝成百度搜索來的。
Mozilla/4.0 (compatible; MSIE 4.0; Windows Me; Trident/4.0; SV1; .NET CLR 1.0.3705; .NET CLR 3.0.04320; msn OptimizedIE8;ZHCN)
Mozilla/4.0 (compatible; MSIE 4.0; Windows NT 5.1; Trident/4.0; Maxthon; .NET CLR 3.0.04320; msn OptimizedIE8;ZHCN)
Mozilla/4.0 (compatible; MSIE 6.0; Windows CE; PPC; 240x320) Opera 8.65 [zh-cn]
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QIHU 360EE) ; InfoPath.2; .NET CLR 2.0.50727)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Foxy/2; .NET CLR 2.0.50727; SE 2.x)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729; .NET CLR 2.0.50727; 360SE)
需要其他版本的UA庫,可以找億牛云。
爬蟲如何添加UA:
class ProxyMiddleware(object):
def process_request(self, request, spider):
# 代理服務(wù)器(產(chǎn)品官網(wǎng) www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理驗(yàn)證信息
proxyUser = "username"
proxyPass = "password"
request.meta['proxy'] = "http://{0}:{1}".format(proxyHost,proxyPort)
# 添加驗(yàn)證頭
encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass
# 設(shè)置IP切換頭(根據(jù)需求)
tunnel = random.randint(1,10000)
request.headers['Proxy-Tunnel'] = str(tunnel)
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36', 'Referer':'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'}
response = requests.get(url=url, headers=headers)cookie的獲取
import requests
class Crawler():
def getCookie(self):
response = requests.get(self.url)
cookie_value = ''
for key,value in response.cookies.items():
cookie_value += key + '=' + value + ';'
self.headers['Cookie'] = cookie_value到此這篇關(guān)于通過python獲取甲流分布數(shù)據(jù)的文章就介紹到這了,更多相關(guān)python獲取甲流分布數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
利用Python第三方庫實(shí)現(xiàn)預(yù)測NBA比賽結(jié)果
今天給大家?guī)淼氖顷P(guān)于Python的相關(guān)知識,文章圍繞著利用Python實(shí)現(xiàn)預(yù)測NBA比賽結(jié)果展開,文中有非常詳細(xì)的介紹,需要的朋友可以參考下2021-06-06
python中實(shí)現(xiàn)控制小數(shù)點(diǎn)位數(shù)的方法
今天小編就為大家分享一篇python中實(shí)現(xiàn)控制小數(shù)點(diǎn)位數(shù)的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01
Python自動化辦公之定時發(fā)送郵件的實(shí)現(xiàn)
python中的schedule模塊可以使我們方便簡單的使用定時任務(wù),即在特定的時間自動的執(zhí)行一些任務(wù)的功能,本文將用這一模塊實(shí)現(xiàn)郵件自動發(fā)送,需要的可以參考一下2022-05-05
python 如何將數(shù)據(jù)寫入本地txt文本文件的實(shí)現(xiàn)方法
這篇文章主要介紹了python 如何將數(shù)據(jù)寫入本地txt文本文件的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-09-09
python實(shí)現(xiàn)拓?fù)渑判虻姆椒ú襟E
拓?fù)渑判蚴菍τ邢驘o環(huán)圖進(jìn)行排序的一種算法,本文主要介紹了python實(shí)現(xiàn)拓?fù)渑判虻姆椒ú襟E,具有一定的參考價值,感興趣的可以了解一下2024-03-03
python接口自動化測試數(shù)據(jù)和代碼分離解析
代碼的可維護(hù)性除了代碼冗余之外還有就是數(shù)據(jù)盡量不要和代碼摻雜在一起,因?yàn)殚喿x起來會非常的凌亂;數(shù)據(jù)分離能更好的增加代碼可讀性和可維護(hù)性,也能更好的二次修改使用2021-09-09
TensorFlow卷積神經(jīng)網(wǎng)絡(luò)之使用訓(xùn)練好的模型識別貓狗圖片
今天小編就為大家分享一篇關(guān)于TensorFlow卷積神經(jīng)網(wǎng)絡(luò)之使用訓(xùn)練好的模型識別貓狗圖片,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧2019-03-03

