python根據(jù)用戶需求輸入想爬取的內(nèi)容及頁數(shù)爬取圖片方法詳解

更新時間：2020年08月03日 17:24:57 作者：派大星..

這篇文章主要介紹了python根據(jù)用戶需求輸入想爬取的內(nèi)容及頁數(shù)爬取圖片方法詳解，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

本次小編向大家介紹的是根據(jù)用戶的需求輸入想爬取的內(nèi)容及頁數(shù)。

主要步驟：

1.提示用戶輸入爬取的內(nèi)容及頁碼。
2.根據(jù)用戶輸入，獲取網(wǎng)址列表。
3.模擬瀏覽器向服務器發(fā)送請求，獲取響應。
4.利用xpath方法找到圖片的標簽。
5.保存數(shù)據(jù)。
代碼用面向過程的形式編寫的。

關鍵字：requests庫，xpath,面向過程

現(xiàn)在就來講解代碼書寫的過程：

1.導入模塊

import parsel # 該模塊主要用來將請求后的字符串格式解析成re,xpath,css進行內(nèi)容的匹配
import requests # 爬蟲主要的包
from urllib.request import urlretrieve # 本文用來下載圖片
import os # 標準庫，本文用來新建文件夾

每個模塊的作用都已經(jīng)備注了。

2.提示用戶輸入內(nèi)容和頁數(shù)

if not os.path.exists("王一博圖片"):
  os.mkdir("王一博圖片") # 判斷有沒有該文件夾，如果沒有就創(chuàng)建改文件夾
k = input("請輸入你想搜索的關鍵字：")
num = int(input("請輸入你想搜索的頁數(shù)："))

3.準備好url和header

header = {"user-agent":
       "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36"
     }
base_url = "https://www.duitang.com/search/?kw=" + k + "&type=feed#!s-p"
title_url = []
n = 0

user-agent是服務器識別瀏覽器的重要參數(shù)，我們就用這個來蒙騙服務器，user-agent在瀏覽器里可以找到

在這里插入圖片描述

那么現(xiàn)在我們就關注右邊

在這里插入圖片描述

這樣header就找到了，注意要以字典的形式

4.發(fā)送請求、

for i in range(num):
  title_url = base_url + str(i)
  respons = requests.get(title_url, headers=header).text
  html = parsel.Selector(respons) # 解析數(shù)據(jù) -- parsel 轉化為Selector對象，Selector對象具有xpath的方法，能夠?qū)D化的數(shù)據(jù)進行處理
  pic_url = html.xpath('//div[@class="mbpho"]/a/img/@src').extract()

一切準備就緒后，就可以發(fā)送請求了。request.get.text返回的是網(wǎng)頁的源代碼，然后將源代碼轉換為Selector對象，再通過xpath的方法找到圖片的網(wǎng)址。

在這里插入圖片描述

xpath的方法可以參考：https://zhuanlan.zhihu.com/p/29436838

5.保存數(shù)據(jù)

獲取圖片的圖片的鏈接后，我們就可以保存了。

  for url in pic_url:
    n = n + 1
    file_path = "王一博圖片" + '/' + str(n)+".jpg"
    urlretrieve(url, file_path) # 下載圖片，具體的用法可以去搜索下，很簡單的
    print("第%d張圖片下載成功" % n)

注意：這里的for循環(huán)是在上面的循環(huán)里嵌套的。
最后來看看全部的代碼吧！

import parsel # 該模塊主要用來將請求后的字符串格式解析成re,xpath,css進行內(nèi)容的匹配
import requests
from urllib.request import urlretrieve # 本文用來下載圖片
import os # 標準庫，本文用來新建文件夾

if not os.path.exists("王一博圖片"):
  os.mkdir("王一博圖片") # 判斷有沒有該文件夾，如果沒有就創(chuàng)建改文件夾
k = input("請輸入你想搜索的關鍵字：")
num = int(input("請輸入你想搜索的頁數(shù)："))
header = {"user-agent":
       "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Mobile Safari/537.36"
     }
base_url = "https://www.duitang.com/search/?kw=" + k + "&type=feed#!s-p"
title_url = []
n = 0
for i in range(num):
  title_url = base_url + str(i)
  respons = requests.get(title_url, headers=header).text
  html = parsel.Selector(respons)
  pic_url = html.xpath('//div[@class="mbpho"]/a/img/@src').extract()
  # print(pic_url)
  for url in pic_url:
    n = n + 1
    file_path = "王一博圖片" + '/' + str(n)+".jpg"
    urlretrieve(url, file_path) # 下載圖片，具體的用法可以去搜索下，很簡單的
    print("第%d張圖片下載成功" % n)

來看看運行的結果，以搜索王一博，搜索5頁為例。

在這里插入圖片描述

然后你就發(fā)信多了一個王一博的文件夾了，點開就可以看見王一博的帥照了。

在這里插入圖片描述

到此這篇關于python根據(jù)用戶需求輸入想爬取的內(nèi)容及頁數(shù)爬取圖片方法詳解的文章就介紹到這了,更多相關python爬取圖片方法內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

用Python的pandas框架操作Excel文件中的數(shù)據(jù)教程
這篇文章主要介紹了用Python的pandas框架操作Excel文件中的數(shù)據(jù)教程,包括單位格式轉換、分類匯總等基本操作，需要的朋友可以參考下
2015-03-03
Python 2/3下處理cjk編碼的zip文件的方法
今天小編給大家分享Python 2/3下處理cjk編碼的zip文件的方法，在項目中經(jīng)常會遇到這樣的問題，小編特意分享到腳本之家平臺，感興趣的朋友跟隨小編一起看看吧
2019-04-04
python實現(xiàn)的一個火車票轉讓信息采集器
這篇文章主要介紹了python實現(xiàn)的一個火車票轉讓信息采集器,采集信息來源是58同程或者趕集網(wǎng),需要的朋友可以參考下
2014-07-07
關于python 的legend圖例,參數(shù)使用說明
這篇文章主要介紹了關于python 的legend圖例,參數(shù)使用說明，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
Python?Flask-Login構建強大的用戶認證系統(tǒng)實例探究
這篇文章主要為大家介紹了Python?Flask-Login構建強大的用戶認證系統(tǒng)示例探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
2024-01-01
Python三級菜單的實例
下面小編就為大家?guī)硪黄狿ython三級菜單的實例。小編覺得挺不錯的，現(xiàn)在就分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2017-09-09
python動態(tài)視頻下載器的實現(xiàn)方法
這里向大家分享一下python爬蟲的一些應用，主要是用爬蟲配合簡單的GUI界面實現(xiàn)視頻，音樂和小說的下載器。今天就先介紹如何實現(xiàn)一個動態(tài)視頻下載器，需要的朋友可以參考下
2019-09-09
TensorFlow獲取加載模型中的全部張量名稱代碼
今天小編就為大家分享一篇TensorFlow獲取加載模型中的全部張量名稱代碼，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
Python字節(jié)單位轉換(將字節(jié)轉換為K M G T)
這篇文章主要介紹了Python字節(jié)單位轉換(將字節(jié)轉換為K M G T),文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-03-03
Python pip install之SSL異常處理操作
這篇文章主要介紹了Python pip install之SSL異常處理操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-09-09