如何使用Python的Requests包實(shí)現(xiàn)模擬登陸
前段時(shí)間喜歡用python去抓一些頁(yè)面玩,但都基本上都是用get請(qǐng)求一些頁(yè)面,再通過(guò)正則去過(guò)濾。
今天試了一下,模擬登陸個(gè)人網(wǎng)站。發(fā)現(xiàn)也比較簡(jiǎn)單。讀懂本文需要對(duì)http協(xié)議和http會(huì)話有一定的理解。
注明:因?yàn)槟M登陸的是我的個(gè)人網(wǎng)站,所以以下代碼對(duì)個(gè)人網(wǎng)站和賬號(hào)密碼做了處理。
網(wǎng)站分析
爬蟲(chóng)的必備第一步,分析目標(biāo)網(wǎng)站。這里使用谷歌瀏覽器的開(kāi)發(fā)者者工具分析。
通過(guò)登陸抓取,看到這樣一個(gè)請(qǐng)求。
上方部分為請(qǐng)求頭,下面部分為請(qǐng)求是傳的參數(shù)。由圖片可以看出,頁(yè)面通過(guò)表單提交了三個(gè)參數(shù)。分別為_(kāi)csrf,usermane,password。
其中csrf是為了預(yù)防跨域腳本偽造。原理很簡(jiǎn)單,就是每一次請(qǐng)求,服務(wù)器生成一串加密字符串。放在隱藏的input表單中。再一次請(qǐng)求的時(shí)候,把這個(gè)字符串一起傳過(guò)去,為了驗(yàn)證是否為同一個(gè)用戶(hù)的請(qǐng)求。

因此,我們的代碼邏輯就有了。首先請(qǐng)求一次登錄頁(yè)面。然后分析頁(yè)面,拿到csrf字符串。最后把這個(gè)字符串和賬號(hào)密碼一起傳給服務(wù)器用來(lái)登錄。
第一份代碼
#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-
import requests
import re
# 頭部信息
headers = {
'Host':"localhost",
'Accept-Language':"zh-CN,zh;q=0.8",
'Accept-Encoding':"gzip, deflate",
'Content-Type':"application/x-www-form-urlencoded",
'Connection':"keep-alive",
'Referer':"http://localhost/login",
'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}
# 登陸方法
def login(url,csrf):
data = {
"_csrf" : csrf,
"username": "xiedj",
"password": "***"
}
response = requests.post(url, data=data, headers=headers)
return response.content
# 第一次訪問(wèn)獲取csrf值
def get_login_web(url):
page = requests.get('http://localhost/login')
reg = r'<meta name="csrf-token" content="(.+)">'
csrf = re.findall(reg,page.content)[0]
login_page = login(url,csrf)
print login_page
if __name__ == "__main__":
url = "http://localhost/login/checklogin"
get_login_web(url)
代碼看起來(lái)好像沒(méi)有什么問(wèn)題。然而執(zhí)行的時(shí)候出錯(cuò)了。核查了一下,錯(cuò)誤的原因是,csrf驗(yàn)證失??!
再多次確認(rèn)獲取的csrf和請(qǐng)求登錄的csrf字符串沒(méi)問(wèn)題了之后,我想到了一個(gè)問(wèn)題。
如果,大家還不知道錯(cuò)誤原因的話,這里可以暫停思考一個(gè)問(wèn)題?!胺?wù)器如何知道,第一次請(qǐng)求獲取csrf和第二次post登錄請(qǐng)求是同一個(gè)用戶(hù)?”
到這,應(yīng)該都清楚了,如果要登錄成功,需要解決如何讓服務(wù)相信兩次請(qǐng)求是同一個(gè)用戶(hù)。這里需要用到http會(huì)話(不清楚的可以自行百度,這里簡(jiǎn)單介紹)。
http協(xié)議是一個(gè)種無(wú)狀態(tài)的協(xié)議。為了使這種無(wú)狀態(tài)變得有狀態(tài),因此引進(jìn)了會(huì)話。簡(jiǎn)單的講,通過(guò)session去記錄這個(gè)狀態(tài)。當(dāng)一個(gè)用戶(hù)第一次請(qǐng)求web服務(wù)的時(shí)候,服務(wù)器會(huì)生成一個(gè)session,用于保存這個(gè)用戶(hù)的信息。同時(shí),在返回給用戶(hù)端時(shí),把這個(gè)sessionID保存在cookies里。當(dāng)用戶(hù)再一次請(qǐng)求的時(shí)候,瀏覽器會(huì)把這個(gè)cookies帶上。因此在服務(wù)器端就能知道多次請(qǐng)求是否為同一個(gè)用戶(hù)。
因此我們的代碼,需要在第一次請(qǐng)求的時(shí)候拿到這個(gè)sessionID。第二次請(qǐng)求的時(shí)候把這個(gè)sessionID一起傳過(guò)去。而requests厲害的地方就是,一句簡(jiǎn)單requests.Session(),就能使用這個(gè)會(huì)話對(duì)象。
第二份代碼
#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-
import requests
import re
# 頭部信息
headers = {
'Host':"localhost",
'Accept-Language':"zh-CN,zh;q=0.8",
'Accept-Encoding':"gzip, deflate",
'Content-Type':"application/x-www-form-urlencoded",
'Connection':"keep-alive",
'Referer':"http://localhost/login",
'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}
# 登陸方法
def login(url,csrf,r_session):
data = {
"_csrf" : csrf,
"username": "xiedj",
"password": "***"
}
response = r_session.post(url, data=data, headers=headers)
return response.content
# 第一次訪問(wèn)獲取csrf值
def get_login_web(url):
r_session = requests.Session()
page = r_session.get('http://localhost/login')
reg = r'<meta name="csrf-token" content="(.+)">'
csrf = re.findall(reg,page.content)[0]
login_page = login(url,csrf,r_session)
print login_page
if __name__ == "__main__":
url = "http://localhost/login/checklogin"
get_login_web(url)
成功獲取登陸后的頁(yè)面

由代碼可以知道,requests.Session()啟動(dòng)會(huì)話對(duì)象后,第二次請(qǐng)求會(huì)自動(dòng)把上一次的sessionID一起傳過(guò)去。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python Json數(shù)據(jù)文件操作原理解析
- python3+selenium獲取頁(yè)面加載的所有靜態(tài)資源文件鏈接操作
- Python3操作YAML文件格式方法解析
- Python3操作讀寫(xiě)CSV文件使用包過(guò)程解析
- Python讀寫(xiě)操作csv和excle文件代碼實(shí)例
- python檢查目錄文件權(quán)限并修改目錄文件權(quán)限的操作
- 利用selenium 3.7和python3添加cookie模擬登陸的實(shí)現(xiàn)
- Python爬蟲(chóng)利用cookie實(shí)現(xiàn)模擬登陸實(shí)例詳解
- Python文件操作模擬用戶(hù)登陸代碼實(shí)例
相關(guān)文章
Python自動(dòng)化辦公之清理重復(fù)文件詳解
這篇文章主要為大家詳細(xì)介紹了如何利用Python清理重復(fù)的文件,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定幫助,需要的可以參考一下2022-05-05
教你用Python pygame設(shè)置窗口標(biāo)題和圖標(biāo)
今天給大家?guī)?lái)的是關(guān)于Python的相關(guān)知識(shí),文章圍繞著用Python pygame設(shè)置窗口標(biāo)題和圖標(biāo)展開(kāi),文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06
Python基于pandas繪制散點(diǎn)圖矩陣代碼實(shí)例
這篇文章主要介紹了Python基于pandas繪制散點(diǎn)圖矩陣代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06
python+matplotlib實(shí)現(xiàn)動(dòng)態(tài)繪制圖片實(shí)例代碼(交互式繪圖)
這篇文章主要介紹了python+matplotlib實(shí)現(xiàn)動(dòng)態(tài)繪制圖片實(shí)例代碼(交互式繪圖),小編覺(jué)得還是挺不錯(cuò)的,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01
Python sorted排序方法如何實(shí)現(xiàn)
這篇文章主要介紹了Python sorted排序方法如何實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-03-03
pycharm 2021.3最新激活碼有效期至2100年(親測(cè)可用)
這篇文章主要介紹了pycharm 2021.3最新激活碼有效期至2100年(親測(cè)可用)2021-02-02
Python處理函數(shù)調(diào)用超時(shí)的四種方法
在實(shí)際開(kāi)發(fā)過(guò)程中,我們可能會(huì)遇到一些場(chǎng)景,需要對(duì)函數(shù)的執(zhí)行時(shí)間進(jìn)行限制,例如,當(dāng)一個(gè)函數(shù)執(zhí)行時(shí)間過(guò)長(zhǎng)時(shí),可能會(huì)導(dǎo)致程序卡頓、資源占用過(guò)高,因此,在某些情況下,我們希望限制函數(shù)調(diào)用的最大時(shí)所以本文給大家介紹了Python處理函數(shù)調(diào)用超時(shí)的四種方法2025-04-04
Python實(shí)現(xiàn)基本Socket服務(wù)端與客戶(hù)端通信的完整代碼
這篇文章主要介紹了Python實(shí)現(xiàn)基本Socket服務(wù)端與客戶(hù)端通信,分步詳解與完整代碼都有,按需所求即可,對(duì)Python Socket服務(wù)端與客戶(hù)端通信相關(guān)知識(shí)感興趣的朋友一起看看吧2023-06-06

