Python 爬取網(wǎng)頁圖片詳解流程
簡(jiǎn)介
快樂在滿足中求,煩惱多從欲中來
記錄程序的點(diǎn)點(diǎn)滴滴。
輸入一個(gè)網(wǎng)址從這個(gè)網(wǎng)址中解析出圖片,并將它保存在本地
流程圖

程序分析
解析主網(wǎng)址
def get_urls():
url = 'http://www.nipic.com/show/35350678.html' # 主網(wǎng)址
pattern = "(http.*?jpg)"
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
r = requests.get(url,headers=header)
r.encoding = r.apparent_encoding
html = r.text
urls = re.findall(pattern,html)
return urls
url 為需要爬的主網(wǎng)址
pattern 為正則匹配
header 設(shè)置請(qǐng)求頭
r = requests.get(url,headers=header) 發(fā)送請(qǐng)求
r.encoding = r.apparent_encoding 設(shè)置編碼格式,防止出現(xiàn)亂碼
| 屬性 | 說明 |
|---|---|
| r.encoding | 從http header中提取響應(yīng)內(nèi)容編碼 |
| r.apparent_encoding | 從內(nèi)容中分析出的響應(yīng)內(nèi)容編碼 |
urls = re.findall(pattern,html) 進(jìn)行正則匹配
re.findall(pattern, string, flags=0)
正則 re.findall 的簡(jiǎn)單用法(返回string中所有與pattern相匹配的全部字串,返回形式為數(shù)組)
下載圖片并存儲(chǔ)
def download(url_queue: queue.Queue()):
while True:
url = url_queue.get()
root_path = 'F:\\1\\' # 圖片存放的文件夾位置
file_path = root_path + url.split('/')[-1] #圖片存放的具體位置
try:
if not os.path.exists(root_path): # 判斷文件夾是是否存在,不存在則創(chuàng)建一個(gè)
os.makedirs(root_path)
if not os.path.exists(file_path): # 判斷文件是否已存在
r = requests.get(url)
with open(file_path,'wb') as f:
f.write(r.content)
f.close()
print('圖片保存成功')
else:
print('圖片已經(jīng)存在')
except Exception as e:
print(e)
print('線程名: ', threading.current_thread().name,"url_queue.size=", url_queue.qsize())
此函數(shù)需要傳一個(gè)參數(shù)為隊(duì)列
queue模塊中提供了同步的、線程安全的隊(duì)列類,queue.Queue()為一種先入先出的數(shù)據(jù)類型,隊(duì)列實(shí)現(xiàn)了鎖原語,能夠在多線程中直接使用??梢允褂藐?duì)列來實(shí)現(xiàn)線程間的同步。
url_queue: queue.Queue() 這是一個(gè)隊(duì)列類型的數(shù)據(jù),是用來存儲(chǔ)圖片URL
url = url_queue.get() 從隊(duì)列中取出一個(gè)url
url_queue.qsize() 返回隊(duì)形內(nèi)元素個(gè)數(shù)
全部代碼
import requests
import re
import os
import threading
import queue
def get_urls():
url = 'http://www.nipic.com/show/35350678.html' # 主網(wǎng)址
pattern = "(http.*?jpg)"
header = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36'
}
r = requests.get(url,headers=header)
r.encoding = r.apparent_encoding
html = r.text
urls = re.findall(pattern,html)
return urls
def download(url_queue: queue.Queue()):
while True:
url = url_queue.get()
root_path = 'F:\\1\\' # 圖片存放的文件夾位置
file_path = root_path + url.split('/')[-1] #圖片存放的具體位置
try:
if not os.path.exists(root_path):
os.makedirs(root_path)
if not os.path.exists(file_path):
r = requests.get(url)
with open(file_path,'wb') as f:
f.write(r.content)
f.close()
print('圖片保存成功')
else:
print('圖片已經(jīng)存在')
except Exception as e:
print(e)
print('線程名:', threading.current_thread().name,"圖片剩余:", url_queue.qsize())
if __name__ == "__main__":
url_queue = queue.Queue()
urls = tuple(get_urls())
for i in urls:
url_queue.put(i)
t1 = threading.Thread(target=download,args=(url_queue,),name="craw{}".format('1'))
t2 = threading.Thread(target=download,args=(url_queue,),name="craw{}".format('2'))
t1.start()
t2.start()
到此這篇關(guān)于Python 爬取網(wǎng)頁圖片詳解流程的文章就介紹到這了,更多相關(guān)Python 爬取網(wǎng)頁圖片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
pandas基礎(chǔ)?Series與Dataframe與numpy對(duì)二進(jìn)制文件輸入輸出
這篇文章主要介紹了pandas基礎(chǔ)Series與Dataframe與numpy對(duì)二進(jìn)制文件輸入輸出,series是一種一維的數(shù)組型對(duì)象,它包含了一個(gè)值序列和一個(gè)數(shù)據(jù)標(biāo)簽2022-07-07
詳解python的xlwings庫讀寫excel操作總結(jié)
這篇文章主要介紹了詳解python的xlwings庫讀寫excel操作總結(jié),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-02-02
python在協(xié)程中增加任務(wù)實(shí)例操作
在本篇文章里小編給大家整理的是一篇關(guān)于python在協(xié)程中增加任務(wù)實(shí)例操作內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2021-02-02
Python中初始化一個(gè)二維數(shù)組及注意事項(xiàng)說明
這篇文章主要介紹了Python中初始化一個(gè)二維數(shù)組及注意事項(xiàng)說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08

