Python爬取京東的商品分類與鏈接
前言
本文主要的知識點(diǎn)是使用Python的BeautifulSoup進(jìn)行多層的遍歷。

如圖所示。只是一個(gè)簡單的哈,不是爬取里面的隱藏的東西。
示例代碼
from bs4 import BeautifulSoup as bs
import requests
headers = {
"host": "www.jd.com",
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36 Core/1.47.933.400 QQBrowser/9.4.8699.400",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
}
session = requests.session()
def get_url():
renspned = bs(session.get('http://www.jd.com/',headers = headers).text,'html.parser')
for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"}):
print(i.get_text(),':',i.get('href'))
get_url()
運(yùn)行這段代碼以及達(dá)到了我們的目的。

我們來解讀一下這段代碼。
首先我們要訪問到京東的首頁。
然后通過BeautifulSoup對訪問到的首頁進(jìn)行解析。
這個(gè)時(shí)候,我們就要定位元素,來獲取我們需要的東西了。
在瀏覽器中通過F12,我們可以看到下圖所示的東西:

我們來看看下面這句代碼:
for i in renspned.find("div", {"class": "dd-inner"}).find_all("a",{"target":"_blank"})
這一行代碼完全滿足我們的需求,首先用find方法,定位到了class=“dd-inner”的div,然后使用find_all對該標(biāo)簽下所有的a標(biāo)簽。
最后,我想打印出所有的商品分類以及對應(yīng)的鏈接,于是,我使用了i.get_text()和i.get('href')的方法終于獲取到了商品分類和對應(yīng)的鏈接。
總結(jié)
其實(shí)不是很難,主要是要用對方法。筆者因?yàn)槭浅鯇W(xué)方法沒有用對。花了差不多兩天時(shí)間才搞定。這里也是告訴大家,可以使用find().find_all()的方法進(jìn)行多層的遍歷。以上就是我利用Python爬取京東的商品分類與鏈接的一些經(jīng)驗(yàn),希望對大家學(xué)習(xí)python能有所幫助。
- Python爬取APP下載鏈接的實(shí)現(xiàn)方法
- Python3實(shí)現(xiàn)爬取簡書首頁文章標(biāo)題和文章鏈接的方法【測試可用】
- python爬取盤搜的有效鏈接實(shí)現(xiàn)代碼
- 實(shí)例講解Python爬取網(wǎng)頁數(shù)據(jù)
- python爬取網(wǎng)站數(shù)據(jù)保存使用的方法
- Python實(shí)現(xiàn)爬取知乎神回復(fù)簡單爬蟲代碼分享
- python爬蟲實(shí)戰(zhàn)之爬取京東商城實(shí)例教程
- 以視頻爬取實(shí)例講解Python爬蟲神器Beautiful Soup用法
- Python實(shí)現(xiàn)爬取需要登錄的網(wǎng)站完整示例
- python制作爬蟲爬取京東商品評論教程
- python實(shí)現(xiàn)的爬取電影下載鏈接功能示例
相關(guān)文章
20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具的實(shí)現(xiàn)
這篇文章主要介紹了20行Python代碼實(shí)現(xiàn)一款永久免費(fèi)PDF編輯工具的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08
詳解Python如何實(shí)現(xiàn)查看WiFi密碼
這篇文章主要為大家詳細(xì)介紹了如何使用python來試試看看能不能讀取到已連接過WIFI的密碼,文中的示例代碼講解詳細(xì),?感興趣的小伙伴可以了解下2023-11-11
Python中使用Boolean操作符做真值測試實(shí)例
這篇文章主要介紹了Python中使用Boolean操作符做真值測試實(shí)例,在Python中,任何類型的對象都可以做真值測試,并且保證返回True或者False,需要的朋友可以參考下2015-01-01
關(guān)于pyinstaller生成.exe程序報(bào)錯(cuò):缺少.ini文件的分析
這篇文章主要介紹了關(guān)于pyinstaller生成.exe程序報(bào)錯(cuò):缺少.ini文件的分析,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-02-02
tkinter動(dòng)態(tài)顯示時(shí)間的兩種實(shí)現(xiàn)方法
這篇文章主要介紹了tkinter動(dòng)態(tài)顯示時(shí)間的兩種實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-01-01

