使用Python3編寫(xiě)抓取網(wǎng)頁(yè)和只抓網(wǎng)頁(yè)圖片的腳本

更新時(shí)間：2015年08月20日 09:46:01 作者：damotiansheng

這篇文章主要介紹了使用Python3編寫(xiě)抓取網(wǎng)頁(yè)和只抓網(wǎng)頁(yè)圖片的腳本,使用到了urllib模塊,需要的朋友可以參考下

最基本的抓取網(wǎng)頁(yè)內(nèi)容的代碼實(shí)現(xiàn)：

#!/usr/bin/env python 
 
from urllib import urlretrieve 
 
def firstNonBlank(lines): 
  for eachLine in lines: 
    if not eachLine.strip(): 
      continue 
    else: 
      return eachLine 
 
def firstLast(webpage): 
  f = open(webpage) 
  lines = f.readlines() 
  f.close() 
  print firstNonBlank(lines), 
  lines.reverse() 
  print firstNonBlank(lines), 
 
def download(url='http://www',process=firstLast): 
  try: 
    retval = urlretrieve(url)[0] 
  except IOError: 
    retval = None 
  if retval: 
    process(retval) 
 
if __name__ == '__main__': 
  download()

利用urllib模塊，來(lái)實(shí)現(xiàn)一個(gè)網(wǎng)頁(yè)中針對(duì)圖片的抓取功能：

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"C:\Users\elqstux\Desktop\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  contentBytes = webpage.read() 
  for link, t in set(re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes))): 
    print(link) 
    urllib.request.urlretrieve(link, destFile(link))

import urllib.request 
import socket 
import re 
import sys 
import os 
targetDir = r"H:\pic" 
def destFile(path): 
  if not os.path.isdir(targetDir): 
    os.mkdir(targetDir) 
  pos = path.rindex('/') 
  t = os.path.join(targetDir, path[pos+1:]) #會(huì)以/作為分隔 
  return t 
 
if __name__ == "__main__": 
  hostname = "http://www.douban.com/" 
  req = urllib.request.Request(hostname) 
  webpage = urllib.request.urlopen(req) 
  contentBytes = webpage.read() 
  match = re.findall(r'(http:[^\s]*?(jpg|png|gif))', str(contentBytes) )#r'(http:[^\s]*?(jpg|png|gif))'中包含兩層圓括號(hào)，故有兩個(gè)分組， 
                             #上面會(huì)返回列表，括號(hào)中匹配的內(nèi)容才會(huì)出現(xiàn)在列表中 
  for picname, picType in match: 
    print(picname) 
    print(picType) 
    
 
''''' 
輸出： 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g111328-1.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
http://img3.douban.com/icon/g197523-19.jpg 
jpg 
http://img3.douban.com/pics/blank.gif 
gif 
... 
'''

您可能感興趣的文章:

相關(guān)文章

基于matplotlib xticks用法詳解
這篇文章主要介紹了基于matplotlib xticks用法詳解，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2020-04-04
python批量創(chuàng)建指定名稱(chēng)的文件夾
這篇文章主要為大家詳細(xì)介紹了python批量創(chuàng)建指定名稱(chēng)的文件夾，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2019-03-03
Python?Rich增加終端顯示視覺(jué)效果
Python開(kāi)發(fā)中,命令行界面（CLI）經(jīng)常被用于交互和數(shù)據(jù)展示,雖然命令行界面通常被視為簡(jiǎn)單、枯燥的文本顯示區(qū)域,通過(guò)Python的Rich庫(kù),為命令行界面帶來(lái)更多生機(jī)和視覺(jué)吸引力,本文帶大家探索Rich功能強(qiáng)大的Python庫(kù),增強(qiáng)終端文本渲染,使輸出更具有吸引力和可讀性
2024-01-01
詳解python itertools功能
itertools是python內(nèi)置的模塊，使用簡(jiǎn)單且功能強(qiáng)大，這里嘗試匯總整理下，并提供簡(jiǎn)單應(yīng)用示例，這篇文章主要介紹了python itertools功能,需要的朋友可以參考下
2020-02-02
Python 通過(guò)爬蟲(chóng)實(shí)現(xiàn)GitHub網(wǎng)頁(yè)的模擬登錄的示例代碼
這篇文章主要介紹了Python 通過(guò)爬蟲(chóng)實(shí)現(xiàn)GitHub網(wǎng)頁(yè)的模擬登錄的示例代碼，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-08-08
10行Python代碼實(shí)現(xiàn)Web自動(dòng)化管控的示例代碼
這篇文章主要介紹了10行Python代碼實(shí)現(xiàn)Web自動(dòng)化管控的示例代碼，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-08-08
Python代碼執(zhí)行時(shí)間測(cè)量模塊timeit用法解析
這篇文章主要介紹了Python代碼執(zhí)行時(shí)間測(cè)量模塊timeit用法解析,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-07-07
Python基于SMTP協(xié)議實(shí)現(xiàn)發(fā)送郵件功能詳解
這篇文章主要介紹了Python基于SMTP協(xié)議實(shí)現(xiàn)發(fā)送郵件功能,結(jié)合實(shí)例形式分析了Python使用SMTP協(xié)議實(shí)現(xiàn)郵件發(fā)送的相關(guān)操作技巧,并總結(jié)分析了Python發(fā)送純文本郵件、郵件附件、圖片郵件等相關(guān)操作技巧,需要的朋友可以參考下
2018-08-08
詳解如何在Python中有效調(diào)用JavaScript
JavaScript和Python都是極為流行的編程語(yǔ)言,并在前端開(kāi)發(fā)和后端開(kāi)發(fā)領(lǐng)域扮演著重要的角色,那么Python如何更好的契合JavaScript呢,下面就跟隨小編一起學(xué)習(xí)一下吧
2024-02-02
用Python爬取618當(dāng)天某東熱門(mén)商品銷(xiāo)量數(shù)據(jù),看看大家喜歡什么!
618購(gòu)物節(jié),準(zhǔn)備分析一波購(gòu)物節(jié)大家都喜歡買(mǎi)什么？本文以某東為例,Python爬取618活動(dòng)的暢銷(xiāo)商品數(shù)據(jù),并進(jìn)行數(shù)據(jù)清洗,最后以可視化的方式從不同角度去了解暢銷(xiāo)商品中,名列前茅的商品是哪些？銷(xiāo)售數(shù)據(jù)如何？用戶(hù)好評(píng)如何？等等,需要的朋友可以參考下
2021-06-06