python簡單爬蟲--get方式詳解
簡單爬蟲可以劃分為get、post格式。其中,get是單方面的獲取資源,而post存在交互,如翻譯中需要文字輸入。本文主要描述簡單的get爬蟲。
環(huán)境準(zhǔn)備
安裝第三方庫
pip install requests pip install bs4 pip install lxml
進(jìn)行爬蟲
1.獲取網(wǎng)頁數(shù)據(jù)。
import requests from bs4 import BeautifulSoup url = "https://cn.bing.com/search?q=爬蟲CSDN&qs=n&form=QBRE&sp=-1&pq=爬蟲csdn&sc=5-6&sk=&cvid=0B13B88D8F444A0182A4A6C36E463179/" response = requests.get(self.url)
2.解析網(wǎng)頁數(shù)據(jù)
soup = BeautifulSoup(response.text, 'lxml')
3.選取目標(biāo)數(shù)據(jù)。此處key 依據(jù)源代碼目標(biāo)標(biāo)題的位置確定。首先進(jìn)入開發(fā)者模式,后查看目標(biāo)在html中的位置,右擊選擇“復(fù)制selector”,見下圖。

key = "#b_results > li > div.b_title > h2 > a" soup.select(key)
4.清洗數(shù)據(jù)
result = {}
for i, item in enumerate(data):
result.update({
f'title_{i}': item.get_text(),
f'url_{i}': item.get('href')
})
print(result)
參考
鏈接:http://www.dhdzp.com/article/152560.htm
總結(jié)
本篇文章就到這里了,希望能夠給你帶來幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!
相關(guān)文章
Python 詳解爬取并統(tǒng)計CSDN全站熱榜標(biāo)題關(guān)鍵詞詞頻流程
讀萬卷書不如行萬里路,只學(xué)書上的理論是遠(yuǎn)遠(yuǎn)不夠的,只有在實戰(zhàn)中才能獲得能力的提升,本篇文章手把手帶你用Python爬取CSDN全站綜合熱榜標(biāo)題,順便統(tǒng)計關(guān)鍵詞詞頻,大家可以在過程中查缺補(bǔ)漏,提升水平2021-11-11
python GUI庫圖形界面開發(fā)之PyQt5中QMainWindow, QWidget以及QDialog的區(qū)別和選擇
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5中QMainWindow, QWidget以及QDialog的區(qū)別和選擇,需要的朋友可以參考下2020-02-02
使用Python實現(xiàn)監(jiān)控進(jìn)程是否有病毒
這篇文章主要為大家詳細(xì)介紹了如何使用Python實現(xiàn)監(jiān)控進(jìn)程是否有病毒,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-02-02
關(guān)于pandas.DataFrame的類SQL操作
這篇文章主要介紹了關(guān)于pandas.DataFrame的類SQL操作方式,具有很好的參考價值,希望對大家有所幫助,2023-08-08

