python遞歸下載文件夾下所有文件
最近想備份網(wǎng)站,但是php下載文件的大小是有大小限制的,而我也懶得裝ftp再下載了,就想著暫時(shí)弄個(gè)二級(jí)域名站,然后用python(python3)的requests庫(kù)直接下載網(wǎng)站根目錄下的所有文件以及文件夾。(0-0就是這么任性)
1.安裝requests庫(kù)
pip install requests
2.下載文件夾下所有文件及文件夾
這里需要處理的地方主要是文件夾,這里我們判斷出該鏈接是文件夾時(shí),自動(dòng)創(chuàng)建文件夾,并遞歸繼續(xù)進(jìn)行操作,否則判斷該鏈接是文件,直接使用requests get方法下載,話不多說(shuō),看代碼
####春江暮客 www.bobobk.com
import requests
import re
import os
import sys
def help(script):
text = 'python3 %s https://www.bobobk.com ./' % script
print(text)
def get_file(url,path):##文件下載函數(shù)
content = requests.get(url)
print("write %s in %s" % (url,path))
filew = open(path+url.split("/")[-1],'wb')
for chunk in content.iter_content(chunk_size=512 * 1024):
if chunk: # filter out keep-alive new chunks
filew.write(chunk)
filew.close()
def get_dir(url,path): #文件夾處理邏輯
content = requests.get(url).text
if "<title>Index of" in content:
sub_url = re.findall('href="(.*?)" rel="external nofollow" ',content)
print(sub_url)
for i in sub_url:
if "/" in i:
i = i.split("/")[0]
print(i)
if i!="." and i!="..":
if not os.direxists(path+i):
os.mkdir(path+i)
get_dir(url+"/"+i,path+i+"/")
print("url:"+url+"/"+i+"\nurl_path:"+path+i+"/")
else:
get_file(url+"/"+i,path)
else:
get_file(url,path)
if __name__ == '__main__':
if not sys.argv[1]:
help(sys.argv[0])
exit(0)
else:
get_dir(sys.argv[1],"./")
至此,就在本地目錄完全還原下載原網(wǎng)站的路徑和文件了。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python爬蟲抓取技術(shù)的一些經(jīng)驗(yàn)
這篇文章主要介紹了Python爬蟲抓取技術(shù)的一些經(jīng)驗(yàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-07-07
python去除字符strip方法的實(shí)現(xiàn)
Python中strip()方法用于去除字符串首尾的空白字符,包括空格、制表符和換行符,可以確保字符串沒(méi)有多余的空白字符,感興趣的可以了解一下2024-11-11
Windows平臺(tái)Python編程必會(huì)模塊之pywin32介紹
在Windows平臺(tái)上,從原來(lái)使用C/C++編寫原生EXE程序,到使用Python編寫一些常用腳本程序,成熟的模塊的使用使得編程效率大大提高了2019-10-10
基于python腳本實(shí)現(xiàn)軟件的注冊(cè)功能(機(jī)器碼+注冊(cè)碼機(jī)制)
用戶運(yùn)行程序后,通過(guò)文件自動(dòng)檢測(cè)認(rèn)證狀態(tài),如果未經(jīng)認(rèn)證,就需要注冊(cè)。這篇文章主要介紹了基于python腳本實(shí)現(xiàn)軟件的注冊(cè)功能(機(jī)器碼+注冊(cè)碼機(jī)制)的相關(guān)資料,需要的朋友可以參考下2016-10-10
Python實(shí)現(xiàn)子類調(diào)用父類的初始化實(shí)例
這篇文章主要介紹了Python實(shí)現(xiàn)子類調(diào)用父類的初始化實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03
Python操作mongodb數(shù)據(jù)庫(kù)進(jìn)行模糊查詢操作示例
這篇文章主要介紹了Python操作mongodb數(shù)據(jù)庫(kù)進(jìn)行模糊查詢操作,結(jié)合實(shí)例形式分析了Python連接MongoDB數(shù)據(jù)庫(kù)及使用正則表達(dá)式進(jìn)行模糊查詢的相關(guān)操作技巧,需要的朋友可以參考下2018-06-06
Python2中文處理紀(jì)要的實(shí)現(xiàn)方法
本篇文章主要介紹了Python2中文處理紀(jì)要的實(shí)現(xiàn)方法,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-03-03
Pandas 中的join函數(shù)應(yīng)用實(shí)現(xiàn)刪除多余的空行
這篇文章主要介紹了Pandas 中的join函數(shù)應(yīng)用實(shí)現(xiàn)刪除多余的空行,str.join也就是sequence要連接的元素序列,下面我們來(lái)看看他的作用實(shí)現(xiàn)刪除多余的空行,需要的小伙伴可以參考一下2022-02-02

