Python 短視頻爬蟲教程
好難受,上次發(fā)了做游戲的居然沒人看,每天為了給你們寫啥,老夫心都操碎了~

真的是,今天來給大家爬一波短視頻網(wǎng)站吧,都是些很養(yǎng)眼的~

網(wǎng)站地址在代碼里面,大家用心一下就能看到了。
使用的軟件
python 3.8 pycharm 2021.2
模塊
requests parsel re concurrent.futures time warnings
不會安裝模塊看這篇:python模塊的安裝以及安裝失敗的解決方法
知道你們不想看那些步驟,我直接上代碼吧
import requests
import parsel
import re
import concurrent.futures
import time
import warnings
# 取消警告
warnings.filterwarnings("ignore")
def get_html(url):
"""發(fā)送請求獲取網(wǎng)頁源代碼"""
html_data = requests.get(url=url, verify=False).text
return html_data
def parse_data_1(html_data):
"""第一次解析, 拿到所有的詳情頁鏈接"""
selector = parsel.Selector(html_data)
url_list = selector.xpath('//a[@class="meta-title"]/@href').getall()
return url_list
def parse_data_2(html_data):
"""第二次解析, 獲取視頻鏈接"""
video_url = re.findall('url: "(.*?)",', html_data)[0]
return video_url
def save(video_url):
"""保存視頻"""
title = video_url.split('/')[-1] # 取鏈接當(dāng)中的字段作為標(biāo)題
video_data = requests.get(video_url, verify=False).content # 發(fā)送網(wǎng)絡(luò)請求
with open(f'video/{title}', mode='wb') as f:
f.write(video_data)
print(title, "爬取成功!!!")
start_time = time.time()
url = 'https://www.520mmtv.com/hd/rewu.html'
# 1. 向目標(biāo)網(wǎng)站發(fā)送請求
html_data = get_html(url=url)
# 2. 第一次解析數(shù)據(jù) 提取詳情頁鏈接
url_list = parse_data_1(html_data=html_data)
for info_url in url_list[:10]:
# 3. 向詳情頁發(fā)送請求
html_data_2 = get_html(url=info_url)
# 4. 第二次解析數(shù)據(jù) 提取視頻播放地址
video_url = parse_data_2(html_data=html_data_2)
# 5. 保存視頻
save(video_url=video_url)
print('花費(fèi)時(shí)間:', time.time() - start_time)
到此這篇關(guān)于Python 短視頻爬蟲教程的文章就介紹到這了,更多相關(guān)Python 爬蟲教程內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python + selenium自動化環(huán)境搭建的完整步驟
這篇文章主要給大家介紹了關(guān)于Python + selenium自動化環(huán)境搭建的相關(guān)資料,文中通過圖文將實(shí)現(xiàn)的步驟一步步介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧2018-05-05
詳解pandas中iloc, loc和ix的區(qū)別和聯(lián)系
這篇文章主要介紹了詳解pandas中iloc, loc和ix的區(qū)別和聯(lián)系,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-03-03
Python中cv2.Canny() 函數(shù)使用方法
cv2.Canny() 函數(shù)是 OpenCV 中的邊緣檢測函數(shù)之一,用于檢測圖像的邊緣,它的基本原理是通過計(jì)算圖像中每個(gè)像素點(diǎn)的梯度值來檢測邊緣,本文通過示例代碼介紹Python中cv2.Canny() 函數(shù)用法,需要的朋友參考下吧2023-07-07
python驗(yàn)證公網(wǎng)ip與內(nèi)網(wǎng)ip的實(shí)現(xiàn)示例
本文主要介紹了python驗(yàn)證公網(wǎng)ip與內(nèi)網(wǎng)ip的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-07-07
python實(shí)現(xiàn)FTP循環(huán)上傳文件
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)FTP循環(huán)上傳文件,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-03-03
Python3實(shí)現(xiàn)從指定路徑查找文件的方法
這篇文章主要介紹了Python3實(shí)現(xiàn)從指定路徑查找文件的方法,涉及Python目錄與文件的相關(guān)操作技巧,需要的朋友可以參考下2015-05-05
Python中Sorted()函數(shù)的key參數(shù)使用方法詳解
這篇文章主要介紹了關(guān)于Python中Sorted()函數(shù)的key參數(shù)使用方法 ,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-06-06
Python連接SQLite數(shù)據(jù)庫并進(jìn)行增冊改查操作方法詳解
這篇文章主要介紹了Python對SQLite數(shù)據(jù)庫進(jìn)行增冊改查操作方法詳解,需要的朋友可以參考下2020-02-02

