python爬蟲中g(shù)et和post方法介紹以及cookie作用
首先確定你要爬取的目標網(wǎng)站的表單提交方式,可以通過開發(fā)者工具看到。這里推薦使用chrome。
這里我用163郵箱為例
打開工具后再Network中,在Name選中想要了解的網(wǎng)站,右側(cè)headers里的request method就是提交方式。status如果是200表示成功訪問下面的有頭信息,cookie是你登錄之后產(chǎn)生的存儲會話(session)信息的。第一次訪問該網(wǎng)頁需要提供用戶名和密碼,之后只需要在headers里提供cookie就可以登陸進去。
引入requests庫,會提供get和post的方法。
代碼示例:
import requests
import ssl
user_agent="Mozilla/5.0 (Windows NT 10.0; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0"
accept='text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8'
accept_language='zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3'
upgrade='1'
headers={
'User-Agent':user_agent,
'Accept':accept,
'Accept-Language':accept_language,
'Cookie':'....'#這里填入你登陸后產(chǎn)生的cookie
}
r = requests.get("http://mail.163.com/js6/main.jsp?sid=OAwUtGgglzEJoANLHPggrsKKAhsyheAT&df=mail163_letter#module=welcome.WelcomeModule%7C%7B%7D",headers=headers,verify=False)
fp = open("/temp/csdn.txt","w",encoding='utf-8')
fp.write(str(r.content,'utf-8'))
fp.close()
這里我引入了ssl庫,因為我第一次訪問的網(wǎng)頁證書過期。如果我們使用爬蟲進入這樣的網(wǎng)站時,會報錯:SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)
在requests的get和post方法中,有一個參數(shù)為verify,把他設(shè)為False后會禁掉證書的要求
相關(guān)文章
完美解決Python 2.7不能正常使用pip install的問題
今天小編就為大家分享一篇完美解決Python 2.7不能正常使用pip install的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06
Python運行中頻繁出現(xiàn)Restart提示的解決辦法
在編程的世界里,遇到各種奇怪的問題是家常便飯,但是,當(dāng)你的 Python 程序在運行過程中頻繁出現(xiàn)“Restart”提示時,這可能不僅僅是令人頭疼的小問題,而是隱藏著深層次的原因,本文將深入探討這一現(xiàn)象,并提供解決方案,需要的朋友可以參考下2025-04-04
Python+matplotlib+numpy繪制精美的條形統(tǒng)計圖
這篇文章主要介紹了Python+matplotlib+numpy繪制精美的條形統(tǒng)計圖,具有一定借鑒價值,需要的朋友可以參考下2018-01-01
django基礎(chǔ)之?dāng)?shù)據(jù)庫操作方法(詳解)
下面小編就為大家?guī)硪黄猟jango基礎(chǔ)之?dāng)?shù)據(jù)庫操作方法(詳解)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-05-05

