python scrapy簡(jiǎn)單模擬登錄的代碼分析
1、requests模塊。直接攜帶cookies請(qǐng)求頁(yè)面。
找到url,發(fā)送post請(qǐng)求存儲(chǔ)cookie。
2、selenium(瀏覽器自動(dòng)處理cookie)。
找到相應(yīng)的input標(biāo)簽,輸入文本,點(diǎn)擊登錄。
3、scrapy直接帶cookies。
找到url,發(fā)送post請(qǐng)求存儲(chǔ)cookie。
# -*- coding: utf-8 -*-
import scrapy
import re
class GithubLoginSpider(scrapy.Spider):
name = 'github_login'
allowed_domains = ['github.com']
start_urls = ['https://github.com/login']
def parse(self, response): # 發(fā)送Post請(qǐng)求獲取Cookies
authenticity_token = response.xpath('//input[@name="authenticity_token"]/@value').extract_first()
utf8 = response.xpath('//input[@name="utf8"]/@value').extract_first()
commit = response.xpath('//input[@name="commit"]/@value').extract_first()
form_data = {
'login': 'pengjunlee@163.com',
'password': '123456',
'webauthn-support': 'supported',
'authenticity_token': authenticity_token,
'utf8': utf8,
'commit': commit}
yield scrapy.FormRequest("https://github.com/session", formdata=form_data, callback=self.after_login)
def after_login(self, response): # 驗(yàn)證是否請(qǐng)求成功
print(re.findall('Learn Git and GitHub without any code!', response.body.decode()))
知識(shí)點(diǎn)擴(kuò)展:
parse_login方法是提交完表單后callback回調(diào)函數(shù)指定要執(zhí)行的方法,為了驗(yàn)證是否成功。這里我們直接在response中搜索Welcome Liu這個(gè)字眼就證明登錄成功。
這個(gè)好理解,重點(diǎn)是yield from super().start_resquests(),這個(gè)代表著如果一旦登錄成功后,就直接帶著登錄成功后Cookie值,方法start_urls里面的地址。
這樣的話登錄成功后的response可以直接在parse里面寫(xiě)。
# -*- coding: utf-8 -*-
import scrapy
from scrapy import FormRequest,Request
class ExampleLoginSpider(scrapy.Spider):
name = "login_"
allowed_domains = ["example.webscraping.com"]
start_urls = ['http://example.webscraping.com/user/profile']
login_url = 'http://example.webscraping.com/places/default/user/login'
def parse(self, response):
print(response.text)
def start_requests(self):
yield scrapy.Request(self.login_url,callback=self.login)
def login(self,response):
formdata = {
'email':'liushuo@webscraping.com','password':'12345678'}
yield FormRequest.from_response(response,formdata=formdata,
callback=self.parse_login)
def parse_login(self,response):
# print('>>>>>>>>'+response.text)
if 'Welcome Liu' in response.text:
yield from super().start_requests()
到此這篇關(guān)于python scrapy簡(jiǎn)單模擬登錄的代碼分析的文章就介紹到這了,更多相關(guān)python scrapy模擬登錄的方法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
spark: RDD與DataFrame之間的相互轉(zhuǎn)換方法
今天小編就為大家分享一篇spark: RDD與DataFrame之間的相互轉(zhuǎn)換方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-06-06
Python監(jiān)聽(tīng)剪切板實(shí)現(xiàn)方法代碼實(shí)例
這篇文章主要介紹了Python監(jiān)聽(tīng)剪切板實(shí)現(xiàn)方法代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11
Python使用Beets模塊實(shí)現(xiàn)自動(dòng)整理音樂(lè)庫(kù)
Beets是一個(gè)功能強(qiáng)大的Python庫(kù),用于處理音樂(lè)文件的元數(shù)據(jù),在本文中,我們將探討beets模塊的常見(jiàn)使用方法,感興趣的可以跟隨小編一起學(xué)習(xí)一下2024-03-03
python將matplotlib嵌入到tkinter中的步驟詳解
tkinter是Python標(biāo)準(zhǔn)庫(kù)中自帶的GUI工具,使用十分方便,如能將matplotlib嵌入到tkinter中,就可以做出相對(duì)專業(yè)的數(shù)據(jù)展示系統(tǒng),很有競(jìng)爭(zhēng)力,本文就給大家介紹python將matplotlib嵌入到tkinter中的方法步驟,需要的朋友可以參考下2023-08-08
Python數(shù)據(jù)分析中常見(jiàn)統(tǒng)計(jì)方法詳解
數(shù)據(jù)分析是現(xiàn)代社會(huì)中不可或缺的一部分,通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)和分析,我們可以得出有用的信息和見(jiàn)解,本文將介紹在?Python?中常見(jiàn)的數(shù)據(jù)統(tǒng)計(jì)方法,希望對(duì)大家有所幫助2024-02-02
python基于urllib實(shí)現(xiàn)按照百度音樂(lè)分類下載mp3的方法
這篇文章主要介紹了python基于urllib實(shí)現(xiàn)按照百度音樂(lè)分類下載mp3的方法,涉及Python使用urllib模塊操作頁(yè)面元素的相關(guān)技巧,需要的朋友可以參考下2015-05-05
python實(shí)現(xiàn)基本進(jìn)制轉(zhuǎn)換的方法
這篇文章主要介紹了python實(shí)現(xiàn)基本進(jìn)制轉(zhuǎn)換的方法,涉及Python數(shù)學(xué)運(yùn)算的取余與字符串操作技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07

