Python爬蟲(chóng)練習(xí)匯總
一、 軟件配置
安裝必備爬蟲(chóng)環(huán)境軟件:
- python 3.8
- pip install requests
- pip install beautifulsoup4
二、爬取南陽(yáng)理工OJ題目
網(wǎng)站地址:http://www.51mxd.cn/

(一)頁(yè)面分析
切換頁(yè)面的時(shí)候url網(wǎng)址發(fā)生變動(dòng),因此切換頁(yè)面時(shí)切換第n頁(yè)則為n.html

查看html代碼:

在每一個(gè)標(biāo)簽內(nèi)都是<tr><td></td></tr>使用嵌套模式,因此可以使用爬蟲(chóng)進(jìn)行爬取
(二)代碼編寫(xiě)
導(dǎo)入相應(yīng)的包
#導(dǎo)入包 import requests from bs4 import BeautifulSoup import csv from tqdm import tqdm#在電腦終端上顯示進(jìn)度,使代碼可視化進(jìn)度加快
定義訪問(wèn)瀏覽器所需的請(qǐng)求頭和寫(xiě)入csv文件需要的表頭及存儲(chǔ)列表
# 模擬瀏覽器訪問(wèn) Headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400' # 題目數(shù)據(jù) subjects = [] # 表頭 csvHeaders = ['題號(hào)', '難度', '標(biāo)題', '通過(guò)率', '通過(guò)數(shù)/總提交數(shù)']
定義爬取函數(shù),并刪選信息
for pages in tqdm(range(1, 11 + 1)):
r = requests.get(f'http://www.51mxd.cn/problemset.php-page={pages}.htm', Headers)
r.raise_for_status()
r.encoding = 'utf-8'
soup = BeautifulSoup(r.text, 'html5lib')
td = soup.find_all('td')#講所有含TD的項(xiàng)提取出來(lái)
subject = []
for t in td:
if t.string is not None:
#利用string方法獲取其中的內(nèi)容
subject.append(t.string)
if len(subject) == 5:
subjects.append(subject)
subject = []
寫(xiě)入文件
with open('D:/NYOJ_Subjects.csv', 'w', newline='') as file:
fileWriter = csv.writer(file)
fileWriter.writerow(csvHeaders) # 寫(xiě)入表頭
fileWriter.writerows(subjects) # 寫(xiě)入數(shù)據(jù)
print('\n題目信息爬取完成!?。?)
結(jié)果

三、爬取學(xué)校信息通知
網(wǎng)站地址:http://news.cqjtu.edu.cn/xxtz.htm

(一)頁(yè)面分析
可以看到在html跳轉(zhuǎn)采用 n-方式 因?yàn)闉?code>n-.html

爬取數(shù)據(jù),日期+新聞?lì)}目

(二)代碼編寫(xiě)
import requests
from bs4 import BeautifulSoup
import csv
# 獲取每頁(yè)內(nèi)容
def get_one_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
}
try:
info_list_page = [] # 一頁(yè)的所有信息
resp = requests.get(url, headers=headers)
resp.encoding = resp.status_code
page_text = resp.text
soup = BeautifulSoup(page_text, 'lxml')
li_list = soup.select('.left-list > ul > li') # 找到所有l(wèi)i標(biāo)簽
for li in li_list:
divs = li.select('div')
date = divs[0].string.strip()
title = divs[1].a.string
info = [date, title]
info_list_page.append(info)
except Exception as e:
print('爬取' + url + '錯(cuò)誤')
print(e)
return None
else:
resp.close()
print('爬取' + url + '成功')
return info_list_page
# main
def main():
# 爬取所有數(shù)據(jù)
info_list_all = []
base_url = 'http://news.cqjtu.edu.cn/xxtz/'
for i in range(1, 67):
if i == 1:
url = 'http://news.cqjtu.edu.cn/xxtz.htm'
else:
url = base_url + str(67 - i) + '.htm'
info_list_page = get_one_page(url)
info_list_all += info_list_page
# 存入數(shù)據(jù)
with open('D:/教務(wù)新聞.csv', 'w', newline='', encoding='utf-8') as file:
fileWriter = csv.writer(file)
fileWriter.writerow(['日期', '標(biāo)題']) # 寫(xiě)入表頭
fileWriter.writerows(info_list_all) # 寫(xiě)入數(shù)據(jù)
if __name__ == '__main__':
main()
結(jié)果:

總結(jié):
本次實(shí)驗(yàn)對(duì)利用Python 進(jìn)行爬蟲(chóng)進(jìn)行了學(xué)習(xí),并實(shí)現(xiàn)了對(duì)網(wǎng)站信息的爬取。
到此這篇關(guān)于Python爬蟲(chóng)練習(xí)匯總的文章就介紹到這了,更多相關(guān)Python爬蟲(chóng)練習(xí)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Pycharm配置遠(yuǎn)程SSH服務(wù)器實(shí)現(xiàn)(切換不同虛擬環(huán)境)
本文主要介紹了Pycharm配置遠(yuǎn)程SSH服務(wù)器實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02
Windows下pycharm安裝第三方庫(kù)失敗(通用解決方案)
這篇文章主要介紹了Windows下pycharm安裝第三方庫(kù)失敗(通用解決方案),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09
python獲取酷狗音樂(lè)top500的下載地址 MP3格式
這篇文章主要介紹了python獲取酷狗音樂(lè)top500的下載地址 MP3格式,文中給大家提到了python--爬取酷狗TOP500的數(shù)據(jù),需要的朋友可以參考下2018-04-04
pycharm遠(yuǎn)程連接docker容器的操作流程
這篇文章主要給大家介紹了pycharm遠(yuǎn)程連接docker容器的操作流程,文中通過(guò)代碼示例和圖文講解介紹的非常詳細(xì),具有一定的參考價(jià)值,需要的朋友可以參考下2023-08-08
Python常見(jiàn)類(lèi)型轉(zhuǎn)換的小結(jié)
本文主要介紹了Python常見(jiàn)類(lèi)型轉(zhuǎn)換的小結(jié),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02

