python爬蟲框架scrapy實(shí)現(xiàn)模擬登錄操作示例

更新時(shí)間：2018年08月02日 10:42:10 作者：Charles.L

這篇文章主要介紹了python爬蟲框架scrapy實(shí)現(xiàn)模擬登錄操作,結(jié)合實(shí)例形式分析了scrapy框架實(shí)現(xiàn)模擬登陸操作的步驟、相關(guān)實(shí)現(xiàn)技巧與注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了python爬蟲框架scrapy實(shí)現(xiàn)模擬登錄操作。分享給大家供大家參考，具體如下：

一、背景：

初來乍到的pythoner，剛開始的時(shí)候覺得所有的網(wǎng)站無非就是分析HTML、json數(shù)據(jù)，但是忽略了很多的一個(gè)問題，有很多的網(wǎng)站為了反爬蟲，除了需要高可用代理IP地址池外，還需要登錄。例如知乎，很多信息都是需要登錄以后才能爬取，但是頻繁登錄后就會(huì)出現(xiàn)驗(yàn)證碼（有些網(wǎng)站直接就讓你輸入驗(yàn)證碼），這就坑了，畢竟運(yùn)維同學(xué)很辛苦，該反的還得反，那我們?cè)趺崔k呢？這不說驗(yàn)證碼的事兒，你可以自己手動(dòng)輸入驗(yàn)證，或者直接用云打碼平臺(tái)，這里我們介紹一個(gè)scrapy的登錄用法。

測(cè)試登錄地址：http://example.webscraping.com/places/default/user/login

測(cè)試主頁：http://example.webscraping.com/user/profile

1、這里不在敘述如何創(chuàng)建scrapy項(xiàng)目和spider，可以看前面的相關(guān)文章

二、快速登錄方法

我們?cè)谶@里做了一個(gè)簡(jiǎn)單的介紹，我們都知道scrapy的基本請(qǐng)求流程是start_request方法遍歷start_urls列表，然后make_requests_from_url方法，里面執(zhí)行Request方法，請(qǐng)求start_urls里面的地址，但是這里我們用的不再是GET方法，而用的是POST方法，也就常說的登錄。

1、首先我們改寫start_reqeusts方法，直接GET登錄頁面的HTML信息（有些人說你不是POST登錄么，干嘛還GET，別著急，你得先GET到登錄頁面的登錄信息，才知道登錄的賬戶、密碼等怎么提交，往哪里提交）

2、start_request方法GET到數(shù)據(jù)后，用callback參數(shù)，執(zhí)行拿到response后要接下來執(zhí)行哪個(gè)方法，然后在login方法里面寫入登錄用戶名和密碼（還是老樣子，一定要用dict），然后只用Request子類scrapy.FormRequest這個(gè)方法提交數(shù)據(jù)，這我一個(gè)的是FormRequest.from_response方法。

有些人會(huì)問，這個(gè)from__response的基本使用是條用是需要傳入一個(gè)response對(duì)象作為第一個(gè)參數(shù)，這個(gè)方法會(huì)從頁面中form表單中，幫助用戶創(chuàng)建FormRequest對(duì)象，最最最最重要的是它會(huì)幫你把隱藏的input標(biāo)簽中的信息自動(dòng)跳入表達(dá)，使用這個(gè)中方法，我們直接寫用戶名和密碼即可，我們?cè)谧詈竺嬖俳榻B傳統(tǒng)方法。

3、parse_login方法是提交完表單后callback回調(diào)函數(shù)指定要執(zhí)行的方法，為了驗(yàn)證是否成功。這里我們直接在response中搜索Welcome Liu這個(gè)字眼就證明登錄成功。這個(gè)好理解，重點(diǎn)是yield from super().start_resquests()，這個(gè)代表著如果一旦登錄成功后，就直接帶著登錄成功后Cookie值，方法start_urls里面的地址。這樣的話登錄成功后的response可以直接在parse里面寫。

# -*- coding: utf-8 -*-
import scrapy
from scrapy import FormRequest,Request
class ExampleLoginSpider(scrapy.Spider):
  name = "login_"
  allowed_domains = ["example.webscraping.com"]
  start_urls = ['http://example.webscraping.com/user/profile']
  login_url = 'http://example.webscraping.com/places/default/user/login'
  def parse(self, response):
    print(response.text)
  def start_requests(self):
    yield scrapy.Request(self.login_url,callback=self.login)
  def login(self,response):
    formdata = {
      'email':'liushuo@webscraping.com','password':'12345678'}
    yield FormRequest.from_response(response,formdata=formdata,
                    callback=self.parse_login)
  def parse_login(self,response):
    # print('>>>>>>>>'+response.text)
    if 'Welcome Liu' in response.text:
      yield from super().start_requests()

有的同學(xué)可能問了，login方法里面不是應(yīng)該寫reture 么，其實(shí)上面的寫法跟下面的這種寫法是一樣效果，如果再有個(gè)CSRF的話，也可以直接在login里面寫拿到CSRF信息，寫入到formdata里面跟用戶名和密碼一起提交。

復(fù)制代碼代碼如下:

return [FormRequest.from_response(response,formdata=formdata,callback=self.parse_login)]

登錄成功

三、傳統(tǒng)登錄方法：

1、首先要明確一件事情，一般情況下需要登錄的網(wǎng)站，不只需要登錄用戶和密碼，接下來我們聊聊上面說的傳統(tǒng)登錄模式。用戶在登錄的時(shí)候并不是只需要登錄賬戶信息，除了常見直觀的驗(yàn)證碼和CSRF信息外，也有可能需要提交其它信息，我們必須把它們都提取到一起提交給服務(wù)器。