python爬蟲線程池創(chuàng)建并獲取文件代碼實例

更新時間：2019年09月28日 09:37:17 作者：陪伴is最長情的告白

這篇文章主要介紹了python爬蟲線程池創(chuàng)建并獲取文件代碼實例,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

本實例主要進行線程池創(chuàng)建，多線程獲取、存儲視頻文件

梨視頻：利用線程池進行視頻爬取

#爬取梨視頻數據
import requests
import re
from lxml import etree
from multiprocessing.dummy import Pool
import random

# 定義獲取視頻數據方法
def getVideoData(url): # url為列表中的視頻url
  return requests.get(url=url,headers=headers).content

# 定義存儲數據方法
def saveVideo(data):
  fileName = str(random.randint(0,5000))+'.mp4'
  with open(fileName,'wb') as fp:
    fp.write(data)

# 爬取數據
#實例化一個線程池對象，開啟5個線程池
pool = Pool(5)

url = 'https://www.pearvideo.com/category_1'
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
li_list = tree.xpath('//div[@id="listvideoList"]/ul/li')

video_url_list = [] # 存的是將要下載視頻的url
for li in li_list:
  detail_url = 'https://www.pearvideo.com/'+li.xpath('./div/a/@href')[0]
  detail_page = requests.get(url=detail_url,headers=headers).text
  #因為視頻連接不在標簽匯中，而是一個js語句，所以用正則匹配
  video_url = re.findall('srcUrl="(.*?)",vdoUrl',detail_page,re.S)[0]
  video_url_list.append(video_url)
  
# map函數的應用：參數1：回調函數，參數2：列表；
#將列表中的參數賦值給回調函數的形參，讓回調函數處理
video_data_list = pool.map(getVideoData,video_url_list)

pool.map(saveVideo,video_data_list)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

python爬蟲中多線程的使用詳解
queue是python的標準庫，俗稱隊列.可以直接import引用,在python2.x中,模塊名為Queue。這篇文章主要介紹了python爬蟲中多線程的使用,需要的朋友可以參考下
2019-09-09
Python實現讀取文件的方法總結
這篇文章主要為大家詳細介紹了Python中實現讀取文件效果的幾種方法總結，文中的示例代碼講解詳細，感興趣的小伙伴可以了解一下
2022-09-09
使用Python輕松完成垃圾分類（基于圖像識別）
這篇文章主要介紹了使用Python輕松完成垃圾分類（基于圖像識別）,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-07-07
使用matplotlib畫圖之坐標軸不等距
這篇文章主要介紹了使用matplotlib畫圖之坐標軸不等距方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2024-02-02
詳解Python魔法方法之描述符類
今天帶大家復習一下python描述符類的相關知識,文中有非常詳細的代碼示例,對正在學習python的小伙伴們有很好地幫助,需要的朋友可以參考下
2021-05-05
Django 用戶登陸訪問限制實例 @login_required
這篇文章主要介紹了Django 用戶登陸訪問限制實例 @login_required，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
在Python的Django框架中simple-todo工具的簡單使用
這篇文章主要介紹了在Python的Django框架中simple-todo工具的簡單使用,該工具基于原web.py中的開源項目,需要的朋友可以參考下
2015-05-05
python內置函數breakpoint()與bytearray()示例詳解
本文給大家分享的是python內置函數breakpoint()與bytearray()的相關資料,并給大家附上了詳細代碼,有需要的小伙伴可以參考下
2017-04-04
python程序在k8s集群中日志不顯示
在使用Docker和Kubernetes部署Python應用程序時,可能會遇到日志輸出不一致的問題,下面就來介紹一下做這個問題的解決,具有一定的參考價值,感興趣的可以了解一下
2025-03-03
python每5分鐘從kafka中提取數據的例子
今天小編就為大家分享一篇python每5分鐘從kafka中提取數據的例子，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12