如何使用Python的Requests包實(shí)現(xiàn)模擬登陸

更新時(shí)間：2018年04月27日 10:42:26 作者：春風(fēng)不及你的笑

這篇文章主要為大家詳細(xì)介紹了使用Python的Requests包模擬登陸，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下

前段時(shí)間喜歡用python去抓一些頁(yè)面玩，但都基本上都是用get請(qǐng)求一些頁(yè)面，再通過(guò)正則去過(guò)濾。

今天試了一下，模擬登陸個(gè)人網(wǎng)站。發(fā)現(xiàn)也比較簡(jiǎn)單。讀懂本文需要對(duì)http協(xié)議和http會(huì)話有一定的理解。

注明：因?yàn)槟M登陸的是我的個(gè)人網(wǎng)站，所以以下代碼對(duì)個(gè)人網(wǎng)站和賬號(hào)密碼做了處理。

網(wǎng)站分析

爬蟲(chóng)的必備第一步，分析目標(biāo)網(wǎng)站。這里使用谷歌瀏覽器的開(kāi)發(fā)者者工具分析。

通過(guò)登陸抓取，看到這樣一個(gè)請(qǐng)求。

上方部分為請(qǐng)求頭，下面部分為請(qǐng)求是傳的參數(shù)。由圖片可以看出，頁(yè)面通過(guò)表單提交了三個(gè)參數(shù)。分別為_(kāi)csrf,usermane,password。

其中csrf是為了預(yù)防跨域腳本偽造。原理很簡(jiǎn)單，就是每一次請(qǐng)求，服務(wù)器生成一串加密字符串。放在隱藏的input表單中。再一次請(qǐng)求的時(shí)候，把這個(gè)字符串一起傳過(guò)去，為了驗(yàn)證是否為同一個(gè)用戶(hù)的請(qǐng)求。

因此，我們的代碼邏輯就有了。首先請(qǐng)求一次登錄頁(yè)面。然后分析頁(yè)面，拿到csrf字符串。最后把這個(gè)字符串和賬號(hào)密碼一起傳給服務(wù)器用來(lái)登錄。

第一份代碼

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 頭部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陸方法
def login(url,csrf):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = requests.post(url, data=data, headers=headers)
 return response.content


# 第一次訪問(wèn)獲取csrf值
def get_login_web(url):
 page = requests.get('http://localhost/login')
 reg = r'<meta name="csrf-token" content="(.+)">'
 csrf = re.findall(reg,page.content)[0]
 login_page = login(url,csrf)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

代碼看起來(lái)好像沒(méi)有什么問(wèn)題。然而執(zhí)行的時(shí)候出錯(cuò)了。核查了一下，錯(cuò)誤的原因是，csrf驗(yàn)證失??！

再多次確認(rèn)獲取的csrf和請(qǐng)求登錄的csrf字符串沒(méi)問(wèn)題了之后，我想到了一個(gè)問(wèn)題。
如果，大家還不知道錯(cuò)誤原因的話，這里可以暫停思考一個(gè)問(wèn)題?！胺?wù)器如何知道，第一次請(qǐng)求獲取csrf和第二次post登錄請(qǐng)求是同一個(gè)用戶(hù)？”

到這，應(yīng)該都清楚了，如果要登錄成功，需要解決如何讓服務(wù)相信兩次請(qǐng)求是同一個(gè)用戶(hù)。這里需要用到http會(huì)話（不清楚的可以自行百度，這里簡(jiǎn)單介紹）。

http協(xié)議是一個(gè)種無(wú)狀態(tài)的協(xié)議。為了使這種無(wú)狀態(tài)變得有狀態(tài)，因此引進(jìn)了會(huì)話。簡(jiǎn)單的講，通過(guò)session去記錄這個(gè)狀態(tài)。當(dāng)一個(gè)用戶(hù)第一次請(qǐng)求web服務(wù)的時(shí)候，服務(wù)器會(huì)生成一個(gè)session，用于保存這個(gè)用戶(hù)的信息。同時(shí)，在返回給用戶(hù)端時(shí)，把這個(gè)sessionID保存在cookies里。當(dāng)用戶(hù)再一次請(qǐng)求的時(shí)候，瀏覽器會(huì)把這個(gè)cookies帶上。因此在服務(wù)器端就能知道多次請(qǐng)求是否為同一個(gè)用戶(hù)。

因此我們的代碼，需要在第一次請(qǐng)求的時(shí)候拿到這個(gè)sessionID。第二次請(qǐng)求的時(shí)候把這個(gè)sessionID一起傳過(guò)去。而requests厲害的地方就是，一句簡(jiǎn)單requests.Session()，就能使用這個(gè)會(huì)話對(duì)象。

第二份代碼

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 頭部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陸方法
def login(url,csrf,r_session):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = r_session.post(url, data=data, headers=headers)
 return response.content


# 第一次訪問(wèn)獲取csrf值
def get_login_web(url):
 r_session = requests.Session()
 page = r_session.get('http://localhost/login')
 reg = r'<meta name="csrf-token" content="(.+)">'
 csrf = re.findall(reg,page.content)[0]


 login_page = login(url,csrf,r_session)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

成功獲取登陸后的頁(yè)面