Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法分析
本文實(shí)例講述了Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法。分享給大家供大家參考,具體如下:
在前面這篇//www.dhdzp.com/article/162418.htm我們已經(jīng)簡(jiǎn)單了解了”python的多進(jìn)程”,現(xiàn)在我們需要把抓取基金網(wǎng)站(28頁)內(nèi)容寫成多進(jìn)程的方式。
因?yàn)檫M(jìn)程也不是越多越好,我們計(jì)劃分3個(gè)進(jìn)程執(zhí)行。意思就是 :把總共要抓取的28頁分成三部分。
怎么分呢?
# 初始range r = range(1,29) # 步長(zhǎng) step = 10 myList = [r[x:x+step] for x in range(0,len(r),step)] print(myList) # [range(1, 11), range(11, 21), range(21, 29)]
看上面代碼,我們就把1~29分成了三部分,list里三個(gè)range。
2、還記得我們抓取基金網(wǎng)站內(nèi)容的getData()函數(shù)?
def getData(start, end):
for x in range(start, end+1):
# 去第幾頁 輸入框
tonum = driver.find_element_by_id("tonum")
# 去第幾頁 提交按鈕
jumpBtn = driver.find_element_by_id("btn_jump")
tonum.clear() # 第x頁 輸入框
tonum.send_keys(str(x)) # 去第x頁
jumpBtn.click() # 點(diǎn)擊按鈕
WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
.find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
.get_attribute("class").find("at") != -1)
# 保存抓取到的html內(nèi)容
# 保存到html目錄下
with open("./htmls/{0}.txt".format(x),"wb") as f:
f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
f.close()
函數(shù)是有2個(gè)參數(shù):一個(gè)開始頁碼,一個(gè)結(jié)束頁碼,也就是從第start頁,到第end頁。
這2個(gè)參數(shù)實(shí)際上也是range。
改造getData()函數(shù)如下(參數(shù)不同了):
# 循環(huán)抓取網(wǎng)頁內(nèi)容的函數(shù)
def getData(myrange):
for x in myrange:
# 去第幾頁 輸入框
tonum = driver.find_element_by_id("tonum")
# 去第幾頁 提交按鈕
jumpBtn = driver.find_element_by_id("btn_jump")
tonum.clear() # 第x頁 輸入框
tonum.send_keys(str(x)) # 去第x頁
jumpBtn.click() # 點(diǎn)擊按鈕
WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
.find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
.get_attribute("class").find("at") != -1)
# 保存抓取到的html內(nèi)容
# 保存到html目錄下
with open("./htmls/{0}.txt".format(x),"wb") as f:
f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
f.close()
3、創(chuàng)建進(jìn)程,把target設(shè)置為上面的getData():
# 初始range
r = range(1,int(total_page)+1)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段
# 創(chuàng)建進(jìn)程
processList = []
if __name__ == "__main__":
for r in myList:
p = Process(target=getData,args=(r,))
processList.append(p)
# 開始執(zhí)行進(jìn)程
for p in processList:
p.start()
這樣就有三個(gè)進(jìn)程分別抓取。
4、多進(jìn)程抓取基金網(wǎng)站多頁內(nèi)容完全代碼:
# coding: utf-8
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
from multiprocessing import Process
driver = webdriver.PhantomJS(executable_path=r"你phantomjs的可執(zhí)行文件路徑")
# 請(qǐng)求一個(gè)網(wǎng)址
driver.get("http://fund.eastmoney.com/fund.html")
page_text = driver.find_element_by_id("pager").find_element_by_xpath("span[@class='nv']").text
total_page = ''.join(filter(str.isdigit,page_text)) # 得到總共有多少頁
# 循環(huán)抓取網(wǎng)頁內(nèi)容的函數(shù)
def getData(myrange):
for x in myrange:
# 去第幾頁 輸入框
tonum = driver.find_element_by_id("tonum")
# 去第幾頁 提交按鈕
jumpBtn = driver.find_element_by_id("btn_jump")
tonum.clear() # 第x頁 輸入框
tonum.send_keys(str(x)) # 去第x頁
jumpBtn.click() # 點(diǎn)擊按鈕
WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
.find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
.get_attribute("class").find("at") != -1)
# 保存抓取到的html內(nèi)容
# 保存到html目錄下
with open("./htmls/{0}.txt".format(x),"wb") as f:
f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
f.close()
# 初始range
r = range(1,int(total_page)+1)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段
# 創(chuàng)建進(jìn)程
processList = []
if __name__ == "__main__":
for r in myList:
p = Process(target=getData,args=(r,))
processList.append(p)
# 開始執(zhí)行進(jìn)程
for p in processList:
p.start()
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python進(jìn)程與線程操作技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》、《Python+MySQL數(shù)據(jù)庫程序設(shè)計(jì)入門教程》及《Python常見數(shù)據(jù)庫操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
Python Pytorch深度學(xué)習(xí)之核心小結(jié)
今天小編就為大家分享一篇關(guān)于Pytorch核心小結(jié)的文章,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2021-10-10
詳解Pytorch+PyG實(shí)現(xiàn)GAT過程示例
這篇文章主要為大家介紹了Pytorch+PyG實(shí)現(xiàn)GAT過程示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04
Python實(shí)現(xiàn)遞歸遍歷文件夾并刪除文件
本文給大家匯總了3個(gè)Python實(shí)現(xiàn)遍歷文件夾并刪除的代碼,主要是給大家分享下這3種方法的實(shí)現(xiàn)思路,有需要的小伙伴可以參考下2016-04-04
Django框架自定義模型管理器與元選項(xiàng)用法分析
這篇文章主要介紹了Django框架自定義模型管理器與元選項(xiàng)用法,結(jié)合實(shí)例形式分析了自定義模型管理器與元選項(xiàng)的功能、用法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下2019-07-07
解決jupyter運(yùn)行pyqt代碼內(nèi)核重啟的問題
這篇文章主要介紹了解決jupyter運(yùn)行pyqt代碼內(nèi)核重啟的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-04-04
python遞歸打印某個(gè)目錄的內(nèi)容(實(shí)例講解)
下面小編就為大家?guī)硪黄猵ython遞歸打印某個(gè)目錄的內(nèi)容(實(shí)例講解)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-08-08

